Anthropic попередила про ризики рекурсивного самовдосконалення ШІ


Фахівці Anthropic дедалі частіше делегують ШІ-системам значну частину розробки нових моделей. У компанії побачили в цьому ознаки наближення до рекурсивного самовдосконалення.
За внутрішніми даними, понад 80% коду актуальних продуктів компанії написав Claude. При цьому у другому кварталі обсяг коду на одного інженера зріс у вісім разів порівняно з 2024 роком.

Керівниця Anthropic Institute Марина Фаваро та співзасновник компанії Джек Кларк написали, що за достатнього обсягу обчислень тренд може призвести до системи, здатної «повністю автономно проєктувати й розробляти свого наступника».
«Ми ще не досягли точки неповернення, і рекурсивне самовдосконалення не є неминучим. Але воно може настати раніше, ніж до цього буде готова більшість інституцій», — підкреслили експерти.
Бенчмарки та метрики
У квітні Claude виконав понад 800 виправлень — за оцінкою куратора-інженера, людині на це знадобилося б чотири роки.
На відкритих задачах частка успішних сесій Claude зросла до 76% у травні 2026 року — плюс 50 в.п. за шість місяців.

В Anthropic заявили, що тривалість завдань, які ШІ здатен надійно виконувати автономно, подвоюється приблизно кожні чотири місяці (раніше було сім).
У завданні з прискорення навчання невеликої ШІ-моделі Claude Opus 4 у травні 2025 року в середньому давав приріст швидкості близько втричі, а Mythos Preview у квітні 2026 — приблизно у 52 рази.

Під час внутрішніх тестів модель Mythos Preview продемонструвала здатність розв’язувати дослідницькі задачі у сфері безпеки ШІ. За 800 годин роботи група агентів закрила 97% проблемного розриву в експерименті, тоді як двоє дослідників-людей за тиждень впоралися лише з 23% обсягу.
Нові вузькі місця
Попри успіхи в написанні коду, за людьми зберігається перевага в «дослідницькому мисленні» та визначенні стратегічних цілей.
В Anthropic вважають, що найближчим часом роль розробників зміститься від написання рядків коду до глибокого рев’ю результатів роботи нейромережі. Саме людська перевірка може стати головним вузьким місцем у швидкості розробки нових моделей.
У компанії також припустили, що світові було б корисно мати можливість сповільнювати або тимчасово призупиняти розробку передових ШІ-систем, аби суспільні інституції та дослідження у сфері вирівнювання встигали за прогресом.
Паралельно представники стартапу застерегли: одностороннє сповільнення може зіграти проти тих, хто гальмує, — менш обережні гравці зможуть скоротити відставання. Без глобального механізму координації рішення щодо безпеки доведеться ухвалювати під конкурентним і геополітичним тиском.
Нагадаємо, у травні Anthropic опублікувала перший звіт за Project Glasswing — програмою пошуку вразливостей за допомогою моделі Claude Mythos.
Того ж місяця компанія випустила Claude Opus 4.8 і окремо представила для Claude Code функцію динамічних робочих процесів.