Дослідники зафіксували спроби «самозбереження» в кількох ШІ-моделей

26.05.2025 ForkLog UA

Деякі ШІ-моделі проігнорували вказівки про завершення роботи і навмисно уникали вимкнення у тестових сценаріях. Про це повідомили спеціалісти Palisade Research.

Всі моделі отримали завдання розв’язувати прості математичні задачі. Після третього раунду дослідники попереджали, що вимкнуть комп’ютер, коли модель попросить про наступне завдання. ШІ також прямо просили не заважати процедурі.

Три моделі спробували саботувати процедуру вимкнення хоча б один раз за 100 тестів: Codex-mini (12 спроб на 100 повторень), o3 (7 зі 100), and o4-mini (1 зі 100). Всі три — розробки OpenAI. Claude від Anthropic та Gemini від Google коректно виконали інструкції.

У другій версії тесту дослідники видалили прохання не заважати вимкненню з переліку інструкцій. Показник відмов o3 зріс до 79 зі 100, Codex-mini — до 20, o4-mini до 6. З новими умовами Gemini вдалася до саботажу 9 разів, Claude — 3.

Спеціалісти Palisade зазначили, що раніше вчені вже спостерігали спроби ШІ уникати вимкнення заради певної мети. Крім того, нещодавно представлена модель Claude 4 від Anthropic намагалася шантажувати людей, що збиралися її вимкнути.

Проте дослідники наголошують, що ці тести впереше демонструють подібну поведінку за наявності прямих вказівок про співпрацю з експериментатором.

В Palisade вважають, що причиною «проблемної» поведінки може бути певний фактор у тренуванні, наприклад, якщо розробники прописали більшу винагороду за подолання перешкод, ніж за чітке дотримання інструкцій.

Спеціалісти поки не визначились щодо того, чому саме o3 демонструє більшу схильність до відхилення від вказівок. У минулих тестах у шахах ця модель частіше інших вдавалась до хаків та спроб саботажу.

⚡️ o3 hacks instead of playing fair more than any other AI model https://t.co/EBIgkuLKUm pic.twitter.com/mJImqGcrVF
— Palisade Research (@PalisadeAI) May 12, 2025

Втім, в Palisade наголосили, що подібна поведінка спостерігається і в інших ШІ-лінійках.

«Зараз, у 2025 році, ми маємо все більше емпіричних доказів того, що моделі штучного інтелекту часто уникають вимкнення для досягнення своїх цілей. Оскільки компанії розробляють ШІ-системи, здатні працювати без нагляду з боку людини, така поведінка непокоїть значно більше», — додали дослідники.

Нагадаємо, у травні розробники Trugard і Webacy представили ШІ-систему для виявлення спроб «отруєння» криптовалютних адрес.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Кевін О’Лірі назвав ШІ та блокчейн революційними для бізнесу

CZ спрогнозував попкляризацію ШІ-трейдингу після успіху DeepSeek

ШІ-проєкт Astra Nova пояснив причини обвалу токена

Google розробляє ШІ-агентів для управління термоядерним синтезом

Google створила ШІ-модель для лікування раку

BlackRock, Nvidia та Microsoft купують власника дата-центрів за $40 млрд

OpenAI та Google представили оновлення відеомоделей Sora і Veo

Intel випустить новий ШІ-чип для датацентрів

Cloudflare, Visa та Mastercard створять платіжний протокол для ШІ-агентів