Відеоігри 90-х виявились надто складними для ШІ

Наявні мультимодальні моделі досі не здатні виконувати завдання, що потребують інтерактивного планування та орієнтації в динамічному середовищі. Такого висновку дійшли дослідники з Принстонського університету у роботі VideoGameBench.

Gemini 2.5 Pro грає в Kirby’s Dream Land у режимі реального часу.  Дані: VideoGameBench.

Науковці перевірили моделі Gemini 2.5 Pro, GPT-4o, LLaMa 4, Gemini 2.0 Flash і Claude 3.7 Sonnet у 10 популярних 2D-іграх кінця 90-х — від Super Mario до Age of Empires. Умови: доступ лише до відеопотоку гри та короткий опис управління й цілі.

Схема взаємодії в тесті VideoGameBench. Дані: arXiv.org.

Найкращий результат у реальному часі — лише 0,48% успішності, показаний Gemini 2.5 Pro. У спрощеному режимі Lite, де гра зупиняється перед кожною дією, результат трохи вищий — 1,6%.

Продуктивність на тестовому спліті VideoGameBench, що складається з 10 ігор. Кожна оцінка відображається у відсотках від пройденої гри на основі пройдених контрольних точок, тобто 0% означає, що агент не дійшов до першої контрольної точки. Загальний бал розраховується як середнє арифметичне балів у всіх іграх. Дані: arXiv.org.

На відміну від текстових завдань, ігри вимагають не лише розпізнавання зображення, а й швидких рішень, просторової пам’яті, довгострокового планування та адаптації до мінливих умов. Затримки інференсу навіть у найсучасніших VLM-моделях не дозволяють їм діяти в реальному часі, особливо в аркадних або стратегічних тайтлах.

«Моделі не можуть зрозуміти просту інструкцію на кшталт “увімкни млин”, навіть маючи підказки на екрані», — зазначають автори дослідження.

За їх словами, навіть базова логіка ігрового світу (наприклад те, що вода потрібна для виробництва їжі) виявилася надто складною для сучасних VLM.

Ознайомитися з кодом та прикладами проходження можна на офіційному сайті VideoGameBench та GitHub.

Нагадаємо, спеціалісти Palisade Research зафіксували спроби «самозбереження» в кількох ШІ-моделей. 

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK