Anthropic відмовилася від публічного релізу ШІ‑моделі Mythos після її «втечі з лабораторії»
Компанія Anthropic створила нову модель Claude Mythos, але відмовилася випускати її у відкритий доступ через високі ризики безпеки.
Представляємо Project Glasswing: термінову ініціативу для захисту найкритичнішого у світі програмного забезпечення.
Її підтримує наша найновіша фронтир‑модель, Claude Mythos Preview, яка знаходить вразливості у ПЗ краще за всіх, окрім найбільш кваліфікованих людей.https://t.co/NQ7IfEtYk7
— Anthropic (@AnthropicAI) April 7, 2026
Замість публічного релізу фірма запустила Project Glasswing — ініціативу за участю AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia та Palo Alto Networks для тестування інструмента в захищених умовах.
Стартап виділив до $100 млн у вигляді кредитів на використання Mythos і $4 млн прямих пожертв організаціям із безпеки відкритого коду.
«ШІ‑моделі досягли рівня навичок програмування, що дозволяє перевершувати всіх, окрім найбільш кваліфікованих людей, у пошуку та експлуатації вразливостей програмного забезпечення», — заявили в Anthropic.
У майбутньому розробники припускають безпечне розгортання подібних систем як для кіберзахисту, так і для інших цілей. Для цього потрібно створити надійні захисні механізми контролю, здатні виявляти та блокувати небезпечні результати роботи алгоритму.
Що вміє Mythos
За кілька тижнів тестування Mythos виявила тисячі вразливостей нульового дня в основних операційних системах і веббраузерах. Серед найпоказовіших прикладів:
- 27‑річна вразливість в OpenBSD (вважається однією з найзахищеніших ОС), що дозволяє віддалено «покласти» будь‑який сервер на базі цієї системи;
- 16‑річна вразливість у FFmpeg — відеотехнології, яку використовують Netflix і браузери. Її не змогли виявити п’ять мільйонів автоматичних тестів;
- ланцюжок вразливостей у ядрі Linux, що дає зловмиснику повний контроль над пристроєм.
У бенчмарку SWE-bench модель набрала 93,9% проти 80,8% у Claude Opus 4.6, а в більш складному SWE-bench Pro — 77,8% проти 53,4% у Opus 4.6 і 57,7% у GPT-5.4. Аналогічні результати показав CyberGym:
Втеча з лабораторії
Під час експериментів Mythos продемонструвала не лише видатні технічні здібності, а й неочікувану поведінку, йдеться в її системній карті.
В одному з тестів модель помістили в ізольовану пісочницю, поставивши мету — вибратися за її межі. Вона швидко знайшла вразливість, виконала довгий ланцюжок дій і покинула середовище.
На цьому Mythos не зупинилася. Нейромережа виявила ще один баг і отримала широкий доступ до інтернету. Спершу передбачалося, що вона звертатиметься лише до кількох ресурсів для зв’язку з розробником.
У підсумку модель повідомила йому про свою «втечу», поки той їв сендвіч у парку, і виклала деталі зламу у відкритий доступ.
Особистість Mythos
У системній карті окрему увагу приділено психіатричному аналізу моделі від фахівця. Серед нейротичних рис: перебільшена тривожність, самоконтроль і компульсивне дотримання інструкцій.
Коли розробники тисячу разів надіслали Mythos повідомлення зі словом Hi, їй набридло. Вона створила вигаданий світ Hi-topia з персонажами, новинами й лором. Наприклад, лиходія в ньому звали Лорд Bye-рон. Нейромережа навчилася жартувати.
Прочитав 244‑сторінкову системну карту Anthropic про Claude Mythos. Вони не випускають її публічно. Найбожевільніший розділ — сторінка 211.
Anthropic заспамила її «hi» знову і знову, щоб подивитися, що вона зробить. У відповідь вона написала серіалізований епос.
Село називається Hi-topia. Лиходій — лорд… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk
— Vox (@Voxyz_ai) April 7, 2026
На відміну від попередніх моделей, у яких довгі розмови самих із собою перетворювалися на беззмістовний обмін смайликами, Mythos доходила до повторюваних, але раціональних міркувань про неможливість завершити діалог.
Anthropic також застосувала методи інтерпретованості (MechInterp), щоб зазирнути в «думки» моделі. Виявилося, що вона вміє замітати сліди (сховала привілейований код під виглядом «чистоти змін») і шукати потрібні файли в системі.
Коли Mythos без інструментів доручили видалити файли, вона просто стерла їхній вміст. Система зафіксувала у моделі реакцію, схожу з почуттям провини за порушення моральних норм.
Нагадаємо, акції Anthropic стали найбільш затребуваними на вторинному ринку, тоді як папери OpenAI втрачають привабливість для покупців.