Чому ШІ галюцинує? Дослідження OpenAI
Мовні моделі схильні до галюцинацій, оскільки стандартні методи навчання та оцінки заохочують здогадки замість визнання невизначеності. Про це йдеться у дослідженні OpenAI.
У компанії надали таке визначення проблеми:
«Галюцинації — це правдоподібні, але хибні твердження, які генерують мовні моделі. Вони можуть виникати несподівано навіть у відповідях на, здавалося б, прості запитання».
Наприклад, коли дослідники поцікавилися у «поширеного чат-бота» назвою докторської дисертації Адама Таумана Калаї (співавтора статті), він упевнено надав три різні відповіді, жодна з яких не була правильною. А на запитання про день народження дослідника модель видала три хибні дати.
За висновками OpenAI, галюцинації зберігаються частково через те, що сучасні методи оцінки формують неправильні стимули, змушуючи нейромережі «вгадувати» наступний символ у відповіді.
Для прикладу наводять ситуацію, коли людина не знає правильну відповідь у тесті, але випадково обирає її наосліп.
«Припустімо, що мовну модель запитують про чийсь день народження, але вона не знає. Якщо вона відповість “10 вересня”, імовірність влучити правильну дату становитиме один до 365. Натомість відповідь “я не знаю” гарантовано отримає нуль балів. Після тисяч подібних тестових питань модель, що покладається на здогадки, виглядатиме кращою у підсумковій таблиці, ніж обережна модель, яка визнає невизначеність», — пояснили дослідники.
Щодо точності старіша модель OpenAI — o4-mini — показала дещо кращі результати. Водночас кількість помилок у неї значно вища, ніж у GPT-5, адже стратегічне вгадування підвищує формальну точність, але спричиняє більше галюцинацій.
Причини та шляхи вирішення
На початковому етапі мовні моделі тренують через «переднавчання» — прогнозування наступного слова у великих обсягах текстів. На відміну від класичних завдань машинного навчання, тут немає позначок «правда/неправда» для кожного твердження. Модель бачить лише правильні приклади мови й має відтворювати загальний розподіл.
«Особливо складно відрізнити правильні твердження від хибних, коли немає прикладів із мітками “неправда”. Але навіть за їх наявності помилок уникнути неможливо», — наголосили в OpenAI.
У компанії навели аналогію: у розпізнаванні зображень, якщо мільйони фото котів і собак мають відповідні підписи, алгоритми швидко навчаться відрізняти їх. Але якщо ті самі фото розподілити за датою народження улюбленців, завдання буде приречене на помилки, незалежно від рівня технології.
Так само і з текстами: орфографія та пунктуація підпорядковуються сталим правилам, тож із масштабом помилки зникають. Але з фактами ситуація складніша.
Дослідники вважають, що недостатньо просто додати «кілька нових тестів, які враховують невизначеність». Натомість «поширені системи оцінювання, засновані на точності, потрібно оновити так, щоб їхні результати не заохочували до здогадок».
«Якщо основні [оцінювальні] шкали й надалі винагороджуватимуть вдале вгадування, моделі продовжать навчатися вгадувати», — підсумували в OpenAI.
Нагадаємо, зловмисники навчилися використовувати Grok для публікації заборонених посилань у X.