Anthropic повертає доступ до Fable 5 після скасування експортних обмежень США

Міністерство торгівлі США скасувало експортні обмеження для моделей Claude Fable 5 і Claude Mythos 5. Про це 30 червня повідомила команда Anthropic.

Компанія відкриє Fable 5 для користувачів у всьому світі з 1 липня. Модель стане доступною в Claude Platform, Claude.ai, Claude Code і Claude Cowork. Можливість роботи через AWS, Google Cloud і Microsoft Foundry повернуть «якнайшвидше», заявили в Anthropic.

«Після серії продуктивних переговорів із урядом США ми відновлюємо розгортання моделі з новим набором класифікаторів, щоб точніше виявляти та блокувати завдання, пов’язані з кібербезпекою. […] Ми також почали розробляти консенсусну рамку — спільно з Amazon, Microsoft, Google та іншими партнерами Glasswing — для оцінки серйозності зламів ШІ та визначення, як розробники ШІ повинні на них реагувати», — йдеться в дописі.

Доступ до Mythos 5 уже повернули для частини американських організацій після схвалення урядом 26 червня. Компанія продовжить співпрацю з владою. За словами представників Anthropic, це включатиме передрелізний доступ до інструментів і засобів захисту для оцінки, обмін інформацією про злами та зловживання, а також виділені ресурси для спільних досліджень.

Для повернення Fable 5 розробники натренували новий класифікатор безпеки: він має обмежувати поведінку, описану в звіті Amazon для органів влади. Якщо запит буде заблоковано, користувач отримає сповіщення, а сам запит перенаправлять у Claude Opus 4.8. За даними компанії, новий класифікатор ідентифікує конкретний метод більш ніж у 99% випадків.

«Ймовірно, неможливо зробити будь-яку модель ШІ повністю стійкою до джейлбрейків», — заявили в Anthropic.

Компанія визнала, що нові заходи призведуть до більшої кількості хибних спрацювань під час звичних завдань програмування та налагодження. Команда назвала це компромісом заради ширшого доступу до решти можливостей моделі.

Окрім цього, Anthropic разом з Amazon, Microsoft, Google та іншими партнерами проєкту Glasswing почала розробляти спільний підхід до оцінки небезпеки джейлбрейків. Компанія зазначила, що нині в індустрії ШІ немає єдиного стандарту для визначення серйозності таких обходів захисту.

Запропонована схема оцінює джейлбрейк за чотирма критеріями:

  • наскільки він розширює можливості зловмисника порівняно з доступними інструментами;
  • на скільки різних шкідливих завдань поширюється обхід;
  • наскільки легко перетворити його на реальну атаку;
  • наскільки просто іншим людям знайти або відтворити цей метод.

Для найнебезпечніших випадків компанія обіцяє розпочинати превентивні заходи одразу після підтвердження серйозності загрози. Anthropic також створює команду для цілодобового моніторингу каналів, де публікують дані про джейлбрейки, і запускає програму HackerOne для повідомлень про можливі обходи захисту Fable 5.

Нагадаємо, у червні на тлі обмежень для Anthropic повну версію спеціалізованої моделі для пошуку, перевірки та виправлення вразливостей GPT-5.5-Cyber запустила OpenAI.

Наприкінці місяця компанія на прохання американської влади відкрила обмежений доступ до GPT-5.6 Sol, Terra і Luna для невеликої групи довірених партнерів.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version