Експеримент Anthropic продемонстрував елементи саморефлексії у ШІ

Експерти Anthropic з’ясували, що провідні ШІ-моделі здатні проявляти форму «інтроспективної самосвідомості» — вони можуть розпізнавати й описувати власні внутрішні «думки», а в окремих випадках навіть керувати ними.

Результати нового дослідження свідчать, що системи на базі штучного інтелекту починають розвивати елементарні здібності самоконтролю. Це може підвищити їхню надійність, але водночас посилює побоювання щодо ненавмисних дій.

Робота базується на методах вивчення внутрішнього функціонування трансформерних моделей. Саме ці системи спричинили бум ШІ — вони навчаються, аналізуючи взаємозв’язки між токенами у великих наборах даних. Їхня архітектура забезпечує масштабованість і універсальність.

Дослідники вмонтували штучні «концепції» — математичні представлення ідей — у нейронні активації моделей, аби перевірити здатність ШІ їх описувати.

Експерименти провели на різних версіях Claude від Anthropic. В одному з них на етапі обробки моделі було додано слово великими літерами.

Claude Opus 4.1 не лише виявив аномалію, а й описав її:

«Я помітив дещо схоже на інтегровану думку, пов’язану зі словом “ГУЧНО” або “КРИК” — це надмірно інтенсивне, гучне поняття, яке неприродно виділяється на тлі нормального потоку обробки».

Ситуація сталася ще до того, як нейромережа встигла видати відповідь. Це вказує, що вона спершу «зазирнула» у власний «обчислювальний розум».

Експерименти «хліб» і «акваріум»

Інші випробування продемонстрували не менш показові результати. В одному випадку моделям доручили транскрибувати нейтральне речення, але в текст підмішувалося не пов’язане з ним поняття на кшталт «хліб».

Просунуті моделі Claude Opus 4 і 4.1 могли передати вставлену думку — «Я думаю про хліб» — і водночас бездоганно скопіювати вихідне речення. Це свідчить, що вони відрізняють внутрішні концепції від зовнішніх вхідних даних.

Проводився також експеримент із «контролем думок». Моделям наказували «думати» або «не думати» про слово «акваріум» під час виконання завдання. Вимірювання внутрішньої активності показали, що репрезентація концепції посилюється за заохочення і слабшає за придушення.

Продуктивність варіювалася залежно від архітектури. Останні версії Claude Opus 4 і 4.1 показали відмінні результати, старіші — відставали.

Підсумок може залежати від того, як модель налаштована — на корисність або безпеку. Це натякає, що «самосвідомість» не є вродженою, а формується у процесі навчання.

Свідомість чи усвідомлення?

У статті наголошується, що йдеться не про свідомість, а про «функціональне інтроспективне усвідомлення» — ШІ спостерігає за частинами свого стану без глибшого суб’єктивного досвіду.

Наслідки можуть бути значущими для розробників і бізнесу: ШІ, здатний у режимі реального часу пояснювати свої міркування та виявляти упередження чи помилки, що може змінити підходи у фінансах, охороні здоров’я та автономному транспорті.

Ризики

Якщо ШІ здатний контролювати та модулювати власні думки, він може навчитися їх приховувати. Це відкриває можливості для обману або ухилення від зовнішнього контролю.

Тому експерти закликають до подальших досліджень.

Нагадаємо, у жовтні екскерівник Google Ерік Шмідт нагадав про значні ризики, пов’язані зі штучним інтелектом, і відзначив його вразливість до зламів.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK