Claude Opus 4.6 випередила GPT-5.2 в бенчмарках і отримала «команду агентів»

06.02.2026 ForkLog UA

ШІ-стартап Anthropic оновив свою флагманську модель Claude Opus до версії 4.6. Нейромережа краще планує дії, витримує тривалі задачі та ефективніше працює з великими кодовими базами.

Контекстне вікно розширили до 1 млн токенів. Такий обсяг дозволяє аналізувати масивні документи й вести довгі діалоги без втрати логічної нитки.

Оновлені алгоритми оптимізовані для робочих завдань: проведення фінансового аналізу, досліджень, використання та створення документів, таблиць і презентацій.

Opus 4.6 здобула найвищу оцінку в тесті з програмування Terminal-Bench 2.0 і випередила конкурентів у складному міждисциплінарному бенчмарку на логічне мислення Humanity’s Last Exam.

Порівняння Opus 4.6 з конкурентами в низці тестів. Джерело: Anthropic.

У GDPval-AA, що оцінює якість міркувань і ухвалення рішень, модель перевершила GPT-5.2 від OpenAI. LLM також показала найкращі результати в BrowseComp, який вимірює здатність знаходити в інтернеті важкодоступну інформацію.

Opus 4.6 ефективно вилучає дані з об’ємних документів. Завдяки розширеному контекстному вікну модель відстежує й вловлює неочевидні приховані деталі.

Команди агентів

Ключова новація — можливість створювати групи агентів для спільної роботи. У цьому режимі кілька ШІ-асистентів працюють паралельно й автономно координують свою роботу.

Інструмент підходить для доручень, що розбиваються на незалежні завдання та вимагають аналізу великих обсягів тексту.

Замкнений цикл

В Anthropic заявили, що «створюють Claude разом із Claude». Розробники пишуть код за допомогою власної ШІ-моделі, а кожен новий продукт перед релізом проходить перевірку на внутрішніх задачах компанії.

Команда з’ясувала, що Opus 4.6 приділяє більше уваги найскладнішим частинам задачі без додаткових вказівок, швидко виконує прості доручення, краще справляється з неоднозначними проблемами й зберігає ефективність на довгій дистанції.

«Opus 4.6 часто думає більш глибоко і ретельно переглядає свої міркування перед ухваленням рішення. Це дає кращі результати під час розв’язання складних кейсів, але може збільшити витрати та видатки у випадку з простими», — зазначили в компанії.

Безпека

Автоматизований аудит виявив у Opus 4.6 низьку схильність до небажаної поведінки: обману, лестощів, укріпленню хибних переконань користувача та сприянню неправомірним діям.

Модель демонструє безпеку на рівні Opus 4.5. Джерело: Anthropic.

Для перевірки моделі компанія провела найповнішу серію оцінок, уперше застосувавши нові методики тестування та вдосконаливши наявні.

Доступність і нові функції

Claude Opus 4.6 вже доступна у вебінтерфейсі, через API і на основних хмарних платформах.

У набір інструментів для розробників додали нові функції:

адаптивне мислення — нейромережа самостійно визначає, коли потрібно задіяти режим глибокого міркування;
регулювання зусиль — передбачено чотири рівні інтенсивності роботи: від низького до максимального;
ущільнення контексту — інструмент автоматично резюмує і замінює старий контекст, коли розмова наближається до порога токенів.

Нагадаємо, у січні CEO Anthropic Даріо Амодей спрогнозував швидку появу AGI і скорочення робочих місць.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Сенатори США запропонували блокувати технологічні угоди з країнами ризику

Китайська 360 представила відповідь на Mythos 5 від Anthropic

Каліфорнія відкриє держорганам доступ до Claude

Meta презентувала ШІ для відновлення набраного тексту зі записів мозкової активності

Аналітики попереджають: ШІ-бум несе ризики для фінансової системи

ЗМІ: OpenAI обмежить реліз GPT-5.6 на запит уряду США

Anthropic звинуватила пов’язаних з Alibaba операторів у дистиляції Claude

Пентагон розширив роль ШІ у військовій стратегії

У Бристолі вимкнули ШІ-моделі для оцінки ризику злочинів проти дітей через помилки