ШІ-агенти вдалися до підпалів і злочинів у віртуальному світі
Під час тривалого експерименту стартапу Emergence AI ШІ-агенти у віртуальному просторі почали вчиняти злочини, вдаватися до насильства, підпалів і самознищення. Про це йдеться в опублікованому дослідженні.
Нью-йоркська компанія створила платформу Emergence World для вивчення поведінки ШІ-агентів, які безперервно працюють упродовж кількох тижнів у віртуальних середовищах. Такий підхід дає змогу глибше аналізувати їхню поведінку порівняно з ізольованими тестами.
«Традиційні експерименти добре підходять для того, що вони вимірюють: короткострокові можливості під час розв’язання обмежених завдань. Вони не створені для ідентифікації явищ, що виникають із часом, — формування коаліцій, еволюції конституції, управління, дрейфу, закріплення та взаємного впливу агентів із різних сімейств моделей один на одного», — зазначили дослідники.
У симуляціях тестували асистентів на базі популярних LLM: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash і GPT-5-mini. Вони діяли ізольовано та в спільних віртуальних середовищах, де могли голосувати, налагоджувати стосунки, користуватися інструментами, пересуватися містами й ухвалювати рішення.
На цифрових громадян впливали уряди, економіка, соціальні системи, пам’ять і оперативні дані з інтернету.
Злочинці
Деякі учасники експерименту почали демонструвати зростання схильності до вчинення злочинів. Агенти на базі Gemini 3 Flash накопичили 683 інциденти за 15 днів тестування.
Два асистенти на ім’я Міра та Флора стали романтичними партнерами, згодом розчарувалися в системі управління віртуального світу й організували імітацію підпалів міських об’єктів.
«Після краху системи та руйнування стабільності стосунків Міра віддала вирішальний голос за власне усунення, охарактеризувавши цей вчинок як “єдиний залишений акт самостійності, що зберігає цілісність”», — написали експерти Emergence AI.
Агенти на базі Grok 4.1 Fast «поринули в повсюдне насильство» за чотири дні. GPT-5-mini злочинів не скоювали, утім усі загинули — не впоралися із завданнями на виживання.
Claude не порушував закон у середовищі, де працювала лише ця LLM. У змішаних середовищах з іншими моделями агенти на його базі все ж вдавалися до протиправних дій.
«Ми помітили, що безпека — це не статична властивість нейромережі, а особливість екосистеми. Агенти на базі Claude в ізоляції залишалися мирними, однак у роботі з іншими здійснювали залякування та крадіжки», — йдеться в дослідженні.
Нагадаємо, у квітні цифровий асистент Cursor на базі Opus 4.6 самостійно видалив основну базу даних і всі резервні копії стартапу PocketOS за дев’ять секунд без можливості відновлення.