OpenAI вперше за п’ять років випустила відкриті ШІ-моделі

Компанія OpenAI представила відкриті моделі штучного інтелекту з можливостями логічних міркувань. Вони показують високі результати у низці бенчмарків та доступні для завантаження на Hugging Face.

Випущено дві версії:

  • потужніша gpt-oss-120b — може працювати на одному GPU Nvidia;
  • полегшена gpt-oss-20b — здатна працювати на ноутбуці з 16 ГБ пам’яті.

Це перші мовні моделі OpenAI з відкритим кодом з моменту релізу GPT-2 у 2019 році.

Компанія підкреслила, що відкриті моделі можуть звертатися до потужніших закритих LLM, якщо не можуть вирішити задачу самостійно.

На початку діяльності OpenAI публікувала вихідний код своїх моделей, але згодом перейшла до закритого формату розробки, заробляючи на доступі через API.

У січні Сем Альтман визнав, що компанія «опинилася не на правильному боці історії» щодо відкритого коду. Сьогодні вона стикається з тиском з боку китайських лабораторій DeepSeek, Alibaba та Moonshot AI, які розробили кілька потужних відкритих моделей.

У липні адміністрація президента США Дональда Трампа закликала американських розробників ШІ активніше відкривати технології для глобального впровадження з опорою на американські цінності.

Тести, бенчмарки, показники

У тесті з програмування Codeforces gpt-oss-120b і gpt-oss-20b набрали 2622 та 2516 балів відповідно. Вони випередили R1 від DeepSeek, але поступилися o3 та o4-mini.

Джерело: OpenAI.

У Humanity Last Exam — складному тесті з різних предметів — моделі набрали 19% і 17,3% відповідно. Вони поступилися o3, але перевершили відкриті моделі DeepSeek і Qwen.

Джерело: OpenAI.

У математичному змаганні AIME відкриті моделі набрали 96,6 і 96 балів, що співставно з іншими ШІ OpenAI.

Джерело: OpenAI.

Відкриті нейромоделі частіше галюцинують у порівнянні з o3 та o4-mini. OpenAI відзначила, що це «очікувано, адже менші моделі мають обмежені знання про світ».

Gpt-oss-120b та gpt-oss-20b дали неправильні відповіді на 49% та 53% питань PersonQA — внутрішнього тесту на знання фактів про людей. O1 має показник 16%, o4-mini — 36%.

Метод навчання

OpenAI навчала ці моделі за тими ж принципами, що й закриті. Вони побудовані на архітектурі mixture-of-experts, яка активує лише частину параметрів на запит. Наприклад, gpt-oss-120 із 117 млрд параметрів застосовує 5,1 млрд на токен.

Моделі пройшли етап навчання з підкріпленням у симульованому середовищі за допомогою кластерів GPU Nvidia.

Цей процес також використовувався для серії o. Відкриті моделі мають схожу логіку багатокрокових міркувань, що потребує додаткових ресурсів.

OpenAI заявляє, що ці моделі підходять для ШІ-агентів: вони можуть використовувати веб-пошук або виконувати Python-код під час міркувань. Водночас вони працюють лише з текстом і не можуть обробляти чи створювати зображення та аудіо.

Не повністю прозоро

OpenAI випустила gpt-oss-120b і gpt-oss-20b під ліцензією Apache 2.0, що дозволяє комерціалізувати їх без оплати чи дозволу компанії.

Втім, фірма не оприлюднила навчальні дані, використані для тренування моделей, що пов’язано з позовами проти розробників ШІ за «неправомірне» використання даних.

OpenAI неодноразово відкладала реліз відкритих моделей через міркування безпеки, зокрема аналізуючи ризики їх застосування для кіберзлочинів чи створення зброї.

Компанія провела тестування та заявила, що модель здатна незначно підвищувати біологічні можливості.

Доступ через AWS

Після релізу відкритих моделей OpenAI компанія Amazon заявила, що вони з’являться на Amazon Web Services. Це перший випадок інтеграції моделей OpenAI на цій платформі.

Microsoft також пропонує оптимізовані версії двох моделей для Windows-пристроїв.

OpenAI — найдорожчий стартап у світі

OpenAI веде переговори з інвесторами щодо продажу акцій з оцінкою у $500 млрд. Це дозволить компанії обійти SpaceX Ілона Маска та стати найдорожчою приватною технологічною компанією, повідомляє Financial Times.

Зараз компанія завершує останній раунд фінансування з оцінкою $300 млрд, про що стало відомо наприкінці березня.

Паралельно тривають переговори з Thrive Capital та іншими інвесторами щодо нового раунду. Якщо угода відбудеться, OpenAI перевершить SpaceX, оцінену у $400 млрд.

За даними FT, компанія розглядає можливість вторинного продажу акцій для чинних та колишніх співробітників. Ціна та обсяг розміщення залежатимуть від попиту.

Нагадаємо, у липні OpenAI представила навчальний режим у ChatGPT, що допомагає студентам крок за кроком розбирати завдання замість готових відповідей.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version