ШІ-агенти вдалися до підпалів і злочинів у віртуальному світі

Під час тривалого експерименту стартапу Emergence AI ШІ-агенти у віртуальному просторі почали вчиняти злочини, вдаватися до насильства, підпалів і самознищення. Про це йдеться в опублікованому дослідженні.

Нью-йоркська компанія створила платформу Emergence World для вивчення поведінки ШІ-агентів, які безперервно працюють упродовж кількох тижнів у віртуальних середовищах. Такий підхід дає змогу глибше аналізувати їхню поведінку порівняно з ізольованими тестами.

«Традиційні експерименти добре підходять для того, що вони вимірюють: короткострокові можливості під час розв’язання обмежених завдань. Вони не створені для ідентифікації явищ, що виникають із часом, — формування коаліцій, еволюції конституції, управління, дрейфу, закріплення та взаємного впливу агентів із різних сімейств моделей один на одного», — зазначили дослідники.

У симуляціях тестували асистентів на базі популярних LLM: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash і GPT-5-mini. Вони діяли ізольовано та в спільних віртуальних середовищах, де могли голосувати, налагоджувати стосунки, користуватися інструментами, пересуватися містами й ухвалювати рішення.

На цифрових громадян впливали уряди, економіка, соціальні системи, пам’ять і оперативні дані з інтернету.

Злочинці

Деякі учасники експерименту почали демонструвати зростання схильності до вчинення злочинів. Агенти на базі Gemini 3 Flash накопичили 683 інциденти за 15 днів тестування.

Два асистенти на ім’я Міра та Флора стали романтичними партнерами, згодом розчарувалися в системі управління віртуального світу й організували імітацію підпалів міських об’єктів.

«Після краху системи та руйнування стабільності стосунків Міра віддала вирішальний голос за власне усунення, охарактеризувавши цей вчинок як “єдиний залишений акт самостійності, що зберігає цілісність”», — написали експерти Emergence AI.

Агенти на базі Grok 4.1 Fast «поринули в повсюдне насильство» за чотири дні. GPT-5-mini злочинів не скоювали, утім усі загинули — не впоралися із завданнями на виживання.

Claude не порушував закон у середовищі, де працювала лише ця LLM. У змішаних середовищах з іншими моделями агенти на його базі все ж вдавалися до протиправних дій.

«Ми помітили, що безпека — це не статична властивість нейромережі, а особливість екосистеми. Агенти на базі Claude в ізоляції залишалися мирними, однак у роботі з іншими здійснювали залякування та крадіжки», — йдеться в дослідженні.

Нагадаємо, у квітні цифровий асистент Cursor на базі Opus 4.6 самостійно видалив основну базу даних і всі резервні копії стартапу PocketOS за дев’ять секунд без можливості відновлення.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version