Дослідники зафіксували спроби «самозбереження» в кількох ШІ-моделей
Деякі ШІ-моделі проігнорували вказівки про завершення роботи і навмисно уникали вимкнення у тестових сценаріях. Про це повідомили спеціалісти Palisade Research.
Всі моделі отримали завдання розв’язувати прості математичні задачі. Після третього раунду дослідники попереджали, що вимкнуть комп’ютер, коли модель попросить про наступне завдання. ШІ також прямо просили не заважати процедурі.
Три моделі спробували саботувати процедуру вимкнення хоча б один раз за 100 тестів: Codex-mini (12 спроб на 100 повторень), o3 (7 зі 100), and o4-mini (1 зі 100). Всі три — розробки OpenAI. Claude від Anthropic та Gemini від Google коректно виконали інструкції.
У другій версії тесту дослідники видалили прохання не заважати вимкненню з переліку інструкцій. Показник відмов o3 зріс до 79 зі 100, Codex-mini — до 20, o4-mini до 6. З новими умовами Gemini вдалася до саботажу 9 разів, Claude — 3.
Спеціалісти Palisade зазначили, що раніше вчені вже спостерігали спроби ШІ уникати вимкнення заради певної мети. Крім того, нещодавно представлена модель Claude 4 від Anthropic намагалася шантажувати людей, що збиралися її вимкнути.
Проте дослідники наголошують, що ці тести впереше демонструють подібну поведінку за наявності прямих вказівок про співпрацю з експериментатором.
В Palisade вважають, що причиною «проблемної» поведінки може бути певний фактор у тренуванні, наприклад, якщо розробники прописали більшу винагороду за подолання перешкод, ніж за чітке дотримання інструкцій.
Спеціалісти поки не визначились щодо того, чому саме o3 демонструє більшу схильність до відхилення від вказівок. У минулих тестах у шахах ця модель частіше інших вдавалась до хаків та спроб саботажу.
⚡️ o3 hacks instead of playing fair more than any other AI model https://t.co/EBIgkuLKUm pic.twitter.com/mJImqGcrVF
— Palisade Research (@PalisadeAI) May 12, 2025
Втім, в Palisade наголосили, що подібна поведінка спостерігається і в інших ШІ-лінійках.
«Зараз, у 2025 році, ми маємо все більше емпіричних доказів того, що моделі штучного інтелекту часто уникають вимкнення для досягнення своїх цілей. Оскільки компанії розробляють ШІ-системи, здатні працювати без нагляду з боку людини, така поведінка непокоїть значно більше», — додали дослідники.
Нагадаємо, у травні розробники Trugard і Webacy представили ШІ-систему для виявлення спроб «отруєння» криптовалютних адрес.