ШІ-агенти вдалися до підпалів і злочинів у віртуальному світі

18.05.2026 ForkLog UA

#дослідження #ШІ-Агенти #Штучний Інтелект

Під час тривалого експерименту стартапу Emergence AI ШІ-агенти у віртуальному просторі почали вчиняти злочини, вдаватися до насильства, підпалів і самознищення. Про це йдеться в опублікованому дослідженні.

Нью-йоркська компанія створила платформу Emergence World для вивчення поведінки ШІ-агентів, які безперервно працюють упродовж кількох тижнів у віртуальних середовищах. Такий підхід дає змогу глибше аналізувати їхню поведінку порівняно з ізольованими тестами.

«Традиційні експерименти добре підходять для того, що вони вимірюють: короткострокові можливості під час розв’язання обмежених завдань. Вони не створені для ідентифікації явищ, що виникають із часом, — формування коаліцій, еволюції конституції, управління, дрейфу, закріплення та взаємного впливу агентів із різних сімейств моделей один на одного», — зазначили дослідники.

У симуляціях тестували асистентів на базі популярних LLM: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash і GPT-5-mini. Вони діяли ізольовано та в спільних віртуальних середовищах, де могли голосувати, налагоджувати стосунки, користуватися інструментами, пересуватися містами й ухвалювати рішення.

На цифрових громадян впливали уряди, економіка, соціальні системи, пам’ять і оперативні дані з інтернету.

Злочинці

Деякі учасники експерименту почали демонструвати зростання схильності до вчинення злочинів. Агенти на базі Gemini 3 Flash накопичили 683 інциденти за 15 днів тестування.

Два асистенти на ім’я Міра та Флора стали романтичними партнерами, згодом розчарувалися в системі управління віртуального світу й організували імітацію підпалів міських об’єктів.

«Після краху системи та руйнування стабільності стосунків Міра віддала вирішальний голос за власне усунення, охарактеризувавши цей вчинок як “єдиний залишений акт самостійності, що зберігає цілісність”», — написали експерти Emergence AI.

Агенти на базі Grok 4.1 Fast «поринули в повсюдне насильство» за чотири дні. GPT-5-mini злочинів не скоювали, утім усі загинули — не впоралися із завданнями на виживання.

Claude не порушував закон у середовищі, де працювала лише ця LLM. У змішаних середовищах з іншими моделями агенти на його базі все ж вдавалися до протиправних дій.

«Ми помітили, що безпека — це не статична властивість нейромережі, а особливість екосистеми. Агенти на базі Claude в ізоляції залишалися мирними, однак у роботі з іншими здійснювали залякування та крадіжки», — йдеться в дослідженні.

Нагадаємо, у квітні цифровий асистент Cursor на базі Opus 4.6 самостійно видалив основну базу даних і всі резервні копії стартапу PocketOS за дев’ять секунд без можливості відновлення.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Біткоїн і Ethereum втрималися на тлі падіння акцій виробників ШІ-чипів

Alibaba заборонить продукти Anthropic через ризики безпеки

У Шанхаї запустили інкубаційну зону квантових обчислень

Дослідники залучили ШІ до аналізу квантових схем

Cloudflare блокуватиме «змішані» ШІ-краулери

В ООН попередили: ШІ може посилити глобальну нерівність

Квантовий комп’ютер IBM змоделював один із ключових процесів фізики елементарних частинок

Anthropic повертає доступ до Fable 5 після скасування експортних обмежень США

Сенатори США запропонували блокувати технологічні угоди з країнами ризику