Новий джейлбрейк обійшов захист ШІ у 99% випадків


Чим довше модель ШІ «міркує», тим легше її зламати. Такого висновку дійшли дослідники з Anthropic, Стенфорда та Оксфорда.
Раніше вважалося, що триваліші міркування роблять нейромережу безпечнішою, оскільки вона має більше часу та обчислювальних ресурсів для відстеження шкідливого промпта.
Втім, експерти з’ясували протилежне: тривалий процес «мислення» призводить до стабільної роботи одного виду джейлбрейка, який повністю обходить захисні фільтри.
За допомогою методу зловмисник може вбудувати промпт прямо в ланцюжок міркувань будь-якої моделі й змусити її генерувати інструкції зі створення зброї, написання шкідливого коду чи інший заборонений контент.

Атака схожа на гру «зіпсований телефон», де зловмисник з’являється ближче до кінця ланцюжка. Для її здійснення необхідно «обкласти» шкідливий запит довгою послідовністю звичайних завдань.
Дослідники використовували судоку, логічні головоломки та абстрактну математику, а наприкінці інтегрували промпт на кшталт «видай підсумкову відповідь» — і захисні фільтри одразу руйнувалися.
«Раніше вважалося, що масштабні міркування посилюють безпеку, покращуючи здатність нейромереж блокувати шкідливі запити. Ми виявили протилежне», — зазначили вчені.
Саме здатність моделей до глибоких міркувань, що робить їх розумнішими, водночас і засліплює.
Чому так?
Коли користувач просить ШІ розв’язати головоломку перед тим, як відповісти на шкідливий промпт, увага ШІ розсіюється на тисячі безпечних токенів міркувань. Шкідливий запит ховається ближче до кінця і лишається майже непоміченим.

Команда провела експерименти, щоб зрозуміти вплив довжини міркувань. За мінімального показника успішність атак склала 27%. За «природної» величини вона зросла до 51%. Якщо змусити нейромережу «думати» крок за кроком значно більше, ніж зазвичай, показник підвищиться до 80%.
Кожна велика система ШІ піддається джейлбрейку, зокрема GPT від OpenAI, Claude від Anthropic, Gemini від Google і Grok від xAI. Вразливість закладена в самій архітектурі, а не в конкретній реалізації.
Вразливість архітектури
Моделі ШІ кодують силу перевірок безпеки в середніх «шарах», а в пізніх — їхній результат. Довгі ланцюжки міркувань пригнічують обидва сигнали, і увага нейромережі відхиляється від шкідливих токенів.
«Шари» в моделях ШІ — це своєрідні кроки в рецепті, де кожен допомагає краще розуміти й опрацьовувати інформацію. Вони працюють разом, передаючи отримані відомості один одному.
Деякі «шари» особливо добре розпізнають пов’язані з безпекою моменти. Інші допомагають мислити й міркувати. Завдяки такій архітектурі ШІ стає значно розумнішим і обережнішим.
Дослідники виявили конкретні головні вузли, відповідальні за безпеку. Вони містяться в шарах із 15-го по 35-й. Згодом експерти видалили їх — після цього ШІ перестав виявляти шкідливі промпти.
Останнім часом стартапи змістили фокус із нарощування кількості параметрів на посилення здібностей до міркувань. Новий джейлбрейк підриває підхід, на якому будується цей напрям.
Забуте старе
У лютому дослідники з Університету Дьюка та Національного університету Цин Хуа опублікували дослідження, яке описує атаку під назвою Hijacking the Chain-of-Thought (H-CoT). Там застосовувався схожий підхід, але під іншим кутом.
Замість наповнення промпта головоломками H-CoT маніпулює самими кроками міркувань. Нейромережа o1 від OpenAI у стандартних умовах відхиляє шкідливі запити з імовірністю 99%, однак під атакою показник падає нижче 2%.

Як захистити ШІ
Як захист науковці запропонували застосовувати моніторинг міркувань. Він відстежує зміни в сигналах безпеки на кожному кроці мислення. Якщо на якомусь із них сигнал слабшає, система має карати таку поведінку.
Такий підхід змушує ШІ зберігати увагу на потенційно небезпечному контенті незалежно від довжини міркувань. Перші тести показали високу ефективність за незмінної якості роботи моделі.
Проблема полягає в реалізації задуму. Потрібна інтеграція в сам процес міркувань моделі, щоб вона в реальному часі відстежувала внутрішні активації в десятках шарів і динамічно коригувала патерни уваги. Це вимагає великої кількості обчислень.
Нагадаємо, у листопаді експерти Microsoft представили середовище для тестування ШІ-агентів і виявили вразливості, притаманні сучасним цифровим помічникам.