Нові ШІ-моделі від Alibaba обійшли GPT-4o в математиці

Alibaba запустила групу великих мовних моделей (LLM) з акцентом на математику під назвою Qwen2-Math, які «перевершують GPT-4o і Claude 3.5» у цій галузі.

«За останній рік ми доклали чимало зусиль для вивчення і розширення можливостей міркувань великих мовних моделей, приділяючи особливу увагу їхній здатності розв’язувати арифметичні та математичні задачі», — зазначила команда Qwen, що входить до складу підрозділу хмарних обчислень Alibaba.

Моделі Qwen2-Math випущені на базі представлених у червні LLM Qwen2. Стверджується, що флагманська Qwen2-Math-72B-Instruct перевершила американських конкурентів у математиці, зокрема GPT-4o від OpenAI, Claude 3.5 Sonnet від Anthropic, Gemini 1.5 Pro від Google і Llama-3.1-405B від Meta Platforms.

Порівняння Qwen2-Math з іншими ШІ-моделями. Джерело: Qwen.

На початку серпня ШІ-підрозділ Google DeepMind випустив експериментальну версію своєї провідної ШІ-моделі Gemini 1.5 Pro, яка привернула увагу громадськості через високі результати під час тестів.

«Ми сподіваємося, що Qwen2-Math зможе зробити свій внесок у наукову спільноту, розв’язуючи складні математичні задачі, які потребують багатоетапних логічних міркувань», — зазначили розробники.

Згідно з наданою інформацією, нові ШІ-моделі Alibaba протестовані на математичних завданнях англійською та китайською мовами. Вони включали:

  • GSM8K — це набір даних із ~8000 завдань для учнів початкової та середньої школи;
  • OlympiadBench — завдання високого рівня, що вимагають абстрактного мислення, логіки та математичних знань;
  • GaoKao — національний вступний іспит до вишів Китаю, вважається одним із найскладніших у світі.
Порівняння Qwen2-Math з іншими ШІ-моделями в різних тестах. Джерело: Qwen.

За словами команди, нові ШІ-моделі мають деякі обмеження через підтримку лише англійської мови. Найближчим часом планується випуск двомовних LLM, а пізніше — багатомовних.

Нагадаємо, у серпні стало відомо про роботу Alibaba над генератором зображень Tora.

Раніше техгігант анонсував випуск чат-бота зі штучним інтелектом Tongyi Qianwen.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK