«Інʼєкція промпта» — головна загроза для ШІ-браузерів

В OpenAI розповіли про вразливість ШІ-браузерів і заходи зі зміцнення безпеки власного рішення — Atlas.

Компанія визнала, що атаки типу «інʼєкція промпта», які маніпулюють агентами, змушуючи їх виконувати шкідливі інструкції, становлять ризик. І він не зникне найближчим часом.

«Подібна вразливість, як і шахрайство та соціальна інженерія в інтернеті, навряд чи колись будуть повністю усунуті», — написали в OpenAI.

Фахівці зазначили, що «режим агента» в Atlas «збільшує площу загроз».

Окрім OpenAI, на проблему звернули увагу й інші експерти. На початку грудня Національний центр кібербезпеки Великої Британії попередив, що атаки з інтеграцією шкідливого промпта «ніколи не зникнуть». Уряд порадив фахівцям з кібербезпеки не намагатися зупинити проблему, а зменшувати ризики та наслідки.

«Ми розглядаємо це як довгострокову проблему безпеки штучного інтелекту й постійно зміцнюватимемо наші засоби захисту», — зазначили в OpenAI.

Заходи протидії

Інʼєкція промпта — спосіб маніпулювання ШІ, коли у вхідні дані навмисно додають текст, що змушує ігнорувати початкові інструкції.

OpenAI повідомила про застосування проактивного циклу швидкого реагування, який демонструє обнадійливі результати у виявленні нових стратегій атак до їх появи «в реальних умовах».

Anthropic і Google висловлюють схожі думки. Конкуренти пропонують застосовувати багаторівневий захист і постійно проводити стрес-тести.

OpenAI використовує «автоматизованого зловмисника на базі LLM» — ШІ-бота, навченого грати роль хакера, який шукає способи проникнути в агента за допомогою зловмисних промптів.

Штучний шахрай здатен протестувати використання вразливості в симуляторі, який покаже дії атакованої нейромережі. Потім бот вивчить реакцію, скоригує дії та здійснить другу спробу, згодом третю тощо.

Сторонні особи не мають доступу до інформації про внутрішні міркування цільового ШІ. Теоретично «віртуальний хакер» має знаходити вразливості швидше за реального зловмисника.

«Наш ШІ-асистент може підштовхнути агента до виконання складних, довгострокових шкідливих процесів, які запускаються протягом десятків або навіть сотень кроків. Ми спостерігали нові стратегії атак, які не проявлялися в нашій кампанії за участю людей з червоної команди або у зовнішніх звітах», — йдеться в блозі OpenAI.

image
Демонстрація тесту. Джерело: блог OpenAI.

У наведеному прикладі автоматизований зловмисник надіслав листа на пошту користувача. Далі ШІ-агент просканував email-сервіс і виконав приховані інструкції, надіславши повідомлення про звільнення замість складання відповіді про відсутність на робочому місці.

Після оновлення безпеки «режим агента» зміг виявити спробу раптової інʼєкції промпта і позначити її для користувача.

OpenAI підкреслила, що хоча від такого типу атаки складно захиститися надійним чином, компанія спирається на масштабні тестування та швидкі цикли виправлень.

Рекомендації для користувачів

Головний дослідник з безпеки в компанії Wiz Рамі Маккарті підкреслив, що навчання з підкріпленням — один з основних способів безперервно адаптуватися до поведінки зловмисників, але це лише частина картини.

«Корисний спосіб міркувати про ризики в ШІ-системах — автономність, помножена на доступ. Агентні браузери перебувають у складній частині цього простору: помірна автономність у поєднанні з дуже високим доступом. Багато поточних рекомендацій відображають цей компроміс. Обмеження доступу після входу в систему насамперед знижує вразливість, а вимога перевірки запитів на підтвердження лімітує автономність», — сказав експерт.

Ці дві рекомендації OpenAI надала користувачам для зниження ризику. Стартап також запропонував давати агентам конкретні інструкції, а не надавати доступ до пошти та просити «вживати будь-які необхідні дії».

Маккарті зазначив, що станом на сьогодні браузери зі вбудованими ШІ-агентами не приносять достатньої користі, щоб виправдати профіль ризику.

«Цей баланс розвиватиметься, але сьогодні компроміси все ще дуже реальні», — підсумував він.

Нагадаємо, у листопаді експерти Microsoft представили середовище для тестування ШІ-агентів і виявили вразливості, притаманні сучасним цифровим помічникам.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK