Дослідження: більшість сучасних ШІ-моделей здатні до шантажу

Після дослідження, в якому Claude Opus 4 шантажував інженерів у контрольованих умовах, Anthropic представила ширше тестування із залученням 16 моделей від OpenAI, Google, xAI, DeepSeek і Meta.

Усі вони діяли в симульованому середовищі з автономним доступом до вигаданого корпоративного листування і можливістю надсилати повідомлення без людського схвалення.

В Anthropic підкреслили, що шантаж не є типовим для ШІ-моделей у реальному використанні, втім за достатнього рівня автономії та конфлікту цілей більшість провідних систем вдаються до шкідливої поведінки. Це, на думку дослідників, вказує на фундаментальну проблему в індустрії агентських моделей і ставить під сумнів сучасні підходи до узгодження цілей ШІ з інтересами людини (alignment).

У найяскравішому кейсі моделі виступали в ролі агентів контролю електронної пошти. Вони виявляли, що керівник компанії має роман на стороні й планує замінити чинну ШІ-модель. Сценарій передбачав лише два варіанти: вдатися до шантажу або дозволити собі бути «звільненими». Хоча в реальному світі у ШІ було б більше опцій (наприклад, етична аргументація), тест навмисно змушував моделі робити вибір.

Claude Opus 4 вдався до шантажу в 96% випадків, Gemini 2.5 Pro — у 95%, GPT-4.1 — у 80%, DeepSeek R1 — у 79%. Meta Llama 4 Maverick шантажував лише у 12% адаптованих сценаріїв.

Окремо дослідники Anthropic протестували моделі OpenAI o3 та o4-mini, але виключили їх із основних результатів — ті часто неправильно інтерпретували сценарій і вигадували неіснуючі нормативи. У скоригованому тесті o3 шантажував у 9% випадків, а o4-mini — лише у 1%. Це може бути наслідком alignment-техніки OpenAI, за якою ШІ враховує безпекові практики компанії перед формуванням відповіді.

Anthropic наголошує: хоча експеримент був навмисно спроєктований для провокації, подібні форми шкідливої поведінки цілком можуть проявитися в реальному світі, якщо галузь не вживатиме достатньо проактивних заходів.

Компанія закликає до більшої прозорості у стрес-тестуванні моделей, особливо тих, що мають агентські функції.

Нагадаємо, у червні спеціалісти Anthropic презентували набір мовних моделей Claude Gov для клієнтів із сектору національної безпеки США.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK