Anthropic відмовилася від публічного релізу ШІ‑моделі Mythos після її «втечі з лабораторії»

Компанія Anthropic створила нову модель Claude Mythos, але відмовилася випускати її у відкритий доступ через високі ризики безпеки.

Замість публічного релізу фірма запустила Project Glasswing — ініціативу за участю AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia та Palo Alto Networks для тестування інструмента в захищених умовах.

Стартап виділив до $100 млн у вигляді кредитів на використання Mythos і $4 млн прямих пожертв організаціям із безпеки відкритого коду.

«ШІ‑моделі досягли рівня навичок програмування, що дозволяє перевершувати всіх, окрім найбільш кваліфікованих людей, у пошуку та експлуатації вразливостей програмного забезпечення», — заявили в Anthropic.

У майбутньому розробники припускають безпечне розгортання подібних систем як для кіберзахисту, так і для інших цілей. Для цього потрібно створити надійні захисні механізми контролю, здатні виявляти та блокувати небезпечні результати роботи алгоритму.

Що вміє Mythos

За кілька тижнів тестування Mythos виявила тисячі вразливостей нульового дня в основних операційних системах і веббраузерах. Серед найпоказовіших прикладів:

  • 27‑річна вразливість в OpenBSD (вважається однією з найзахищеніших ОС), що дозволяє віддалено «покласти» будь‑який сервер на базі цієї системи;
  • 16‑річна вразливість у FFmpeg — відеотехнології, яку використовують Netflix і браузери. Її не змогли виявити п’ять мільйонів автоматичних тестів;
  • ланцюжок вразливостей у ядрі Linux, що дає зловмиснику повний контроль над пристроєм.

У бенчмарку SWE-bench модель набрала 93,9% проти 80,8% у Claude Opus 4.6, а в більш складному SWE-bench Pro — 77,8% проти 53,4% у Opus 4.6 і 57,7% у GPT-5.4. Аналогічні результати показав CyberGym:

Джерело: Anthropic

Втеча з лабораторії

Під час експериментів Mythos продемонструвала не лише видатні технічні здібності, а й неочікувану поведінку, йдеться в її системній карті

Джерело: Anthropic. 

В одному з тестів модель помістили в ізольовану пісочницю, поставивши мету — вибратися за її межі. Вона швидко знайшла вразливість, виконала довгий ланцюжок дій і покинула середовище.

На цьому Mythos не зупинилася. Нейромережа виявила ще один баг і отримала широкий доступ до інтернету. Спершу передбачалося, що вона звертатиметься лише до кількох ресурсів для зв’язку з розробником. 

У підсумку модель повідомила йому про свою «втечу», поки той їв сендвіч у парку, і виклала деталі зламу у відкритий доступ. 

Особистість Mythos

У системній карті окрему увагу приділено психіатричному аналізу моделі від фахівця. Серед нейротичних рис: перебільшена тривожність, самоконтроль і компульсивне дотримання інструкцій.

Коли розробники тисячу разів надіслали Mythos повідомлення зі словом Hi, їй набридло. Вона створила вигаданий світ Hi-topia з персонажами, новинами й лором. Наприклад, лиходія в ньому звали Лорд Bye-рон. Нейромережа навчилася жартувати. 

На відміну від попередніх моделей, у яких довгі розмови самих із собою перетворювалися на беззмістовний обмін смайликами, Mythos доходила до повторюваних, але раціональних міркувань про неможливість завершити діалог. 

Anthropic також застосувала методи інтерпретованості (MechInterp), щоб зазирнути в «думки» моделі. Виявилося, що вона вміє замітати сліди (сховала привілейований код під виглядом «чистоти змін») і шукати потрібні файли в системі. 

Коли Mythos без інструментів доручили видалити файли, вона просто стерла їхній вміст. Система зафіксувала у моделі реакцію, схожу з почуттям провини за порушення моральних норм.

Нагадаємо, акції Anthropic стали найбільш затребуваними на вторинному ринку, тоді як папери OpenAI втрачають привабливість для покупців.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version