В DeepSeek представили конкурента Claude, ChatGPT і Gemini

Китайський ШІ-стартап DeepSeek опублікував прев’ю нової лінійки мовних моделей. Флагманська V4-Pro обійшла Claude Opus 4.6 і GPT-5.4, ставши найкращою відкритою системою.

Архітектура і масштаб

V4-Pro налічує близько 1,6 трлн параметрів, але на кожному кроці задіює лише 49 млрд. У другій версії — V4-Flash — загальний масштаб становить 284 млрд, із яких активуються 13 млрд.

Обидві моделі побудовані на архітектурі «суміші експертів» (Mixture of Experts, MoE): під час обробки кожного токена вмикається тільки релевантна частина підмереж. Такий підхід дешевший за повністю щільні архітектури, але не поступається їм у продуктивності.

Попереднє навчання відбулося на корпусі понад 32 трлн токенів. Далі розробники поетапно донавчали моделі, виділивши окремі блоки для кодування, математики, логіки та слідування інструкціям. Фінальна версія об’єднує ці навички за допомогою дистиляції.

Довгий контекст став дешевшим

Ключовою відмінністю V4 стала оптимізація обробки довгих послідовностей. Контекстне вікно в 1 млн токенів є й в інших моделей, але його використання зазвичай пов’язане з високою вартістю та затримками.

У DeepSeek заявили, що нова версія помітно знизила ресурсоємність таких операцій. Порівняно з V3.2, V4-Pro потребує близько 27% обчислень і 10% пам’яті KV-кеша під час роботи з максимальним контекстом. Для V4-Flash показники становлять приблизно 10% і 7% відповідно.

Джерело: Hugging Face.

Команда досягла результату завдяки гібридній архітектурі уваги: два механізми стискають дані та знижують навантаження під час роботи з довгими текстами. Також використано спеціальні гіперзв’язки для стабільності та оптимізатор Muon для прискорення навчання.

Режими міркування та агентні можливості

DeepSeek V4 підтримує три режими міркувань:

  1. Non-think — швидкі відповіді на прості запитання без додаткового аналізу.
  2. Think High — глибокий аналіз для складних завдань і планування.
  3. Think Max — максимальний режим: модель пропрацьовує кожен крок і перевіряє всі варіанти.

В агентних задачах режим Max тепер зберігає ланцюжок проміжних кроків у межах одного завдання. У попередній версії частина такого контексту губилася під час взаємодії з користувачем.

Результати тестування

За даними DeepSeek, флагманська версія демонструє результати, співставні з провідними системами в низці напрямів:

  • у завданнях з програмування на Codeforces модель досягла рейтингу 3206 — 23-тє місце серед активних програмістів світу, паритет із GPT-5.4;
  • у математиці показала 95,2 на HMMT 2026 і 89,8 на IMOAnswerBench, випередивши більшість конкурентів;
  • у знаннях SimpleQA Verified — 57,9 (Opus 4.6 — 46,2, але Gemini 3.1 Pro — 75,6).
  • у reasoning моделі відстають від GPT-5.4 і Gemini 3.1 Pro лише на три–шість місяців;
  • у внутрішньому тесті DeepSeek, що охоплює розробку, налагодження та рефакторинг, модель досягла 67% — між Sonnet 4.5 (47%) та Opus 4.5 (70%);
  • в агентних сценаріях і завданнях розробки V4-Pro-Max продемонструвала 80,6% на SWE Verified і 67,9% на Terminal Bench.
Джерело: Hugging Face.

V4 спеціально тренували на реальних сценаріях: аналіз даних, звіти, редагування документів, пошук в інтернеті з ітеративним використанням інструментів.

Для оцінки придатності моделі в реальній розробці стартап провів внутрішнє тестування на завданнях своїх інженерів. В опитуванні 85 розробників і дослідників 52% заявили, що готові використовувати V4-Pro як основну модель для кодування, ще 39% відзначили, що схиляються до такого рішення.

Нагадаємо, 23 квітня компанія OpenAI випустила GPT-5.5. Модель позиціонується як «новий рівень інтелекту для реальної роботи та керування агентами».

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version