«Інʼєкція промпта» — головна загроза для ШІ-браузерів

23.12.2025 ForkLog UA

#openAI #браузери #кібербезпека #Штучний Інтелект

В OpenAI розповіли про вразливість ШІ-браузерів і заходи зі зміцнення безпеки власного рішення — Atlas.

Компанія визнала, що атаки типу «інʼєкція промпта», які маніпулюють агентами, змушуючи їх виконувати шкідливі інструкції, становлять ризик. І він не зникне найближчим часом.

«Подібна вразливість, як і шахрайство та соціальна інженерія в інтернеті, навряд чи колись будуть повністю усунуті», — написали в OpenAI.

Фахівці зазначили, що «режим агента» в Atlas «збільшує площу загроз».

Окрім OpenAI, на проблему звернули увагу й інші експерти. На початку грудня Національний центр кібербезпеки Великої Британії попередив, що атаки з інтеграцією шкідливого промпта «ніколи не зникнуть». Уряд порадив фахівцям з кібербезпеки не намагатися зупинити проблему, а зменшувати ризики та наслідки.

«Ми розглядаємо це як довгострокову проблему безпеки штучного інтелекту й постійно зміцнюватимемо наші засоби захисту», — зазначили в OpenAI.

Заходи протидії

Інʼєкція промпта — спосіб маніпулювання ШІ, коли у вхідні дані навмисно додають текст, що змушує ігнорувати початкові інструкції.

OpenAI повідомила про застосування проактивного циклу швидкого реагування, який демонструє обнадійливі результати у виявленні нових стратегій атак до їх появи «в реальних умовах».

Anthropic і Google висловлюють схожі думки. Конкуренти пропонують застосовувати багаторівневий захист і постійно проводити стрес-тести.

OpenAI використовує «автоматизованого зловмисника на базі LLM» — ШІ-бота, навченого грати роль хакера, який шукає способи проникнути в агента за допомогою зловмисних промптів.

Штучний шахрай здатен протестувати використання вразливості в симуляторі, який покаже дії атакованої нейромережі. Потім бот вивчить реакцію, скоригує дії та здійснить другу спробу, згодом третю тощо.

Сторонні особи не мають доступу до інформації про внутрішні міркування цільового ШІ. Теоретично «віртуальний хакер» має знаходити вразливості швидше за реального зловмисника.

«Наш ШІ-асистент може підштовхнути агента до виконання складних, довгострокових шкідливих процесів, які запускаються протягом десятків або навіть сотень кроків. Ми спостерігали нові стратегії атак, які не проявлялися в нашій кампанії за участю людей з червоної команди або у зовнішніх звітах», — йдеться в блозі OpenAI.

Демонстрація тесту. Джерело: блог OpenAI.

У наведеному прикладі автоматизований зловмисник надіслав листа на пошту користувача. Далі ШІ-агент просканував email-сервіс і виконав приховані інструкції, надіславши повідомлення про звільнення замість складання відповіді про відсутність на робочому місці.

Після оновлення безпеки «режим агента» зміг виявити спробу раптової інʼєкції промпта і позначити її для користувача.

OpenAI підкреслила, що хоча від такого типу атаки складно захиститися надійним чином, компанія спирається на масштабні тестування та швидкі цикли виправлень.

«Інʼєкція промпта» — головна загроза для ШІ-браузерів

Заходи протидії

Рекомендації для користувачів