Дослідники зафіксували спроби «самозбереження» в кількох ШІ-моделей

Деякі ШІ-моделі проігнорували вказівки про завершення роботи і навмисно уникали вимкнення у тестових сценаріях. Про це повідомили спеціалісти Palisade Research.

Всі моделі отримали завдання розв’язувати прості математичні задачі. Після третього раунду дослідники попереджали, що вимкнуть комп’ютер, коли модель попросить про наступне завдання. ШІ також прямо просили не заважати процедурі.

Дані: X.

Три моделі спробували саботувати процедуру вимкнення хоча б один раз за 100 тестів: Codex-mini (12 спроб на 100 повторень), o3 (7 зі 100), and o4-mini (1 зі 100). Всі три — розробки OpenAI. Claude від Anthropic та Gemini від Google коректно виконали інструкції.

У другій версії тесту дослідники видалили прохання не заважати вимкненню з переліку інструкцій. Показник відмов o3 зріс до 79 зі 100, Codex-mini — до 20, o4-mini до 6. З новими умовами Gemini вдалася до саботажу 9 разів, Claude — 3.

Спеціалісти Palisade зазначили, що раніше вчені вже спостерігали спроби ШІ уникати вимкнення заради певної мети. Крім того, нещодавно представлена модель Claude 4 від Anthropic намагалася шантажувати людей, що збиралися її вимкнути. 

Проте дослідники наголошують, що ці тести впереше демонструють подібну поведінку за наявності прямих вказівок про співпрацю з експериментатором.

В Palisade вважають, що причиною «проблемної» поведінки може бути певний фактор у тренуванні, наприклад, якщо розробники прописали більшу винагороду за подолання перешкод, ніж за чітке дотримання інструкцій. 

Спеціалісти поки не визначились щодо того, чому саме o3 демонструє більшу схильність до відхилення від вказівок. У минулих тестах у шахах ця модель частіше інших вдавалась до хаків та спроб саботажу. 

Втім, в Palisade наголосили, що подібна поведінка спостерігається і в інших ШІ-лінійках.

«Зараз, у 2025 році, ми маємо все більше емпіричних доказів того, що моделі штучного інтелекту часто уникають вимкнення для досягнення своїх цілей. Оскільки компанії розробляють ШІ-системи, здатні працювати без нагляду з боку людини, така поведінка непокоїть значно більше», — додали дослідники.

Нагадаємо, у травні розробники Trugard і Webacy представили ШІ-систему для виявлення спроб «отруєння» криптовалютних адрес.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK