Meta представила нову серію ШІ-моделей Llama 4
Корпорація Meta випустила нову лінійку відкритих ШІ-моделей Llama 4. Вони обходять конкурентів за низкою бенчмарків, свідчать дані внутрішніх тестів.
В основі серії лежить Llama 4 Behemoth — велика мовна модель (LLM) з 2 трлн параметрів. Вона перебуває у стадії навчання і поки не випущена. Дві її мультимодальні дистиляції — Maverick і Scout — доступні для розробників і користувачів.
ШІ-помічник Meta AI, доступний у різних продуктах компанії на кшталт WhatsApp, Messenger та Instagram, уже оновлений для використання Llama 4 у 40 країнах. Мультимодальні функції поки доступні тільки в США.
Стверджується, що Behemoth, або LLM-учитель двох інших моделей, перевершує GPT-4.5, Claude Sonnet 3.7 і Gemini 2.0 Pro в орієнтованих на STEM бенчмарках, на кшталт MATH-500 і GPQA Diamond.
«Це тільки початок для колекції Llama 4. Ми вважаємо, що найінтелектуальніші системи повинні бути здатні виконувати узагальнені дії, природно спілкуватися з людьми та вирішувати складні завдання, з якими вони раніше не стикалися. Наділення Llama надздібностями в цих галузях призведе до створення найкращих продуктів для людей на наших платформах і розширить можливості розробників з впровадження інновацій у наступні великі споживчі та бізнес-сфери», — йдеться в анонсі компанії.
Нова архітектура
Llama 4 — перша серія моделей, які використовують архітектуру Mixture of Experts (MoE). Так, у Maverick 128 «експертів» і 400 млрд загальних параметрів, але тільки 17 млрд активних. У Scout показники 16, 109 млрд і 17 млрд відповідно.

Згідно з внутрішніми тестами компанії, Maverick перевершує моделі на кшталт GPT-4o і Gemini 2.0 у деяких тестах програмування, міркувань, підтримки мов, довгих контекстів і зображень. Але нейромережа не дотягує до більш потужних і сучасних Gemini 2.5 Pro від Google, Claude 3.7 Sonnet від Anthropic і GPT-4.5 від OpenAI.
Maverick краще підходить для застосування як спільний помічник і чат. Сильні сторони Scout — узагальнення документів і міркування над великими базами. Остання здатна працювати на одному графічному процесорі Nvidia H100, тоді як для Maverick потрібна система Nvidia H100 DGX або еквівалентна їй.
Скандал навколо Llama 4
Maverick посіла друге місце в LLM Arena — тесті, у якому люди порівнюють роботу різних моделей і формують «користувацький» рейтинг.
Кілька дослідників звернули увагу, що в тестах брала участь спеціально оптимізована версія Maverick, недоступна розробникам. Версія для LLM Arena використовує більше емодзі та дає надзвичайно довгі відповіді.
Через це користувачам складно передбачити реальну продуктивність нейромережі в «побутових» умовах.
Спростування
Віцепрезидент із генеративного штучного інтелекту в Meta Ахмад Аль-Дахле спростував інформацію про налаштування моделі для конкретних тестів.
«Це просто неправда, і ми ніколи б так не вчинили», — наголосив він.
За словами керівника, «змінна якість, яку спостерігають люди, пов’язана з необхідністю стабілізувати реалізацію».
«Оскільки ми випустили моделі одразу ж, щойно вони були готові, ми очікуємо, що знадобиться кілька днів, щоб усі публічні впровадження були налаштовані», — додав він.
Нагадаємо, у листопаді 2024 року Meta відкрила свої ШІ-технології для урядових установ та оборонних підрядників США і союзників.
Раніше вона представила Movie Gen — ШІ-генератор для створення нових відео, редагування наявних і додавання звуку до них.