ШІ вперся в стелю: стартапи шукають способи подальшого масштабування

Майбутня ШІ-модель від OpenAI покаже менший приріст продуктивності порівняно з попередниками. Про це пише The Information з посиланням на джерела.

За інформацією видання, Orion досягла рівня GPT-4 після проходження 20% навчання. Це говорить про те, що приріст продуктивності GPT-5 порівняно з GPT-4 буде меншим, ніж від GPT-3 до GPT-4.

«Orion не краща за попередника у вирішенні деяких завдань. Вона добре себе показує в роботі з мовними завданнями, але не перевершує попередні моделі в кодуванні», — розповіли виданню співробітники стартапу.

Найбільш помітні поліпшення нейромережі зазвичай відбуваються на ранніх етапах навчання. У наступний період прогрес сповільнюється. Таким чином, 80% часу, що залишилися, навряд чи дадуть істотний приріст продуктивності, зазначили джерела The Information.

ШІ вперся в стелю

Не надто оптимістичні результати OpenAI вказують на більш фундаментальну проблему, що стоїть перед усією галуззю: вичерпання високоякісних даних для навчання.

В опублікованому в червні дослідженні низки експертів стверджується, що ШІ-компанії використають усі загальнодоступні текстові матеріали в період між 2026 і 2032 роками. Це стане критичною точкою для традиційних підходів до розвитку штучного інтелекту.

«Наші результати показують, що поточні тенденції розвитку LLM не можуть бути підтримані тільки шляхом традиційного масштабування даних», — стверджують автори роботи.

У дослідженні наголошується на необхідності розробки альтернативних підходів до вдосконалення нейромереж на кшталт генерації синтетичних даних або використання закритої інформації.

У The Information звернули увагу, що стратегія навчання LLM, яка застосовується сьогодні, на загальнодоступних текстових даних із вебсайтів, книжок та інших джерел досягла точки спадної віддачі, оскільки «розробники вичавили з цього типу інформації все, що могли».

Рішення є

OpenAI та інші гравці кардинально змінюють підходи до розробки ШІ.

«На тлі уповільнення темпів поліпшення GPT, індустрія, схоже, зміщує акцент із масштабування під час навчання на оптимізацію моделей після їхнього початкового навчання. Цей підхід може призвести до формування нових законів масштабування», — повідомляє The Information.

Для досягнення стану безперервного поліпшення OpenAI розділяє розробку моделей на два різні напрямки:

  • Серія О — сфокусована на можливостях міркування. Такі моделі працюють зі значно вищою інтенсивністю обчислень і призначені для розв’язання складних завдань. Вимоги до обчислень значні: операційні витрати вшестеро вищі порівняно з поточними моделями. Однак розширені можливості міркувань виправдовують збільшення витрат для конкретних застосунків, які потребують аналітичного опрацювання;
  • паралельно розвивається серія GPT, орієнтована на загальні завдання комунікації. Модель використовує ширшу базу знань.

Під час АМА-сесії директор із продуктів OpenAI Кевін Вайль зазначив, що в майбутньому планується об’єднання обох розробок.

Застосування синтетичних даних небезпечне

Підхід до розв’язання проблеми дефіциту даних через їх штучне створення може становити ризик для якості інформації. Про це йдеться в дослідженні низки експертів із різних університетів Великої Британії.

На їхню думку, таке рішення в кінцевому підсумку може повністю відокремити ШІ від реальності та призвести до «колапсу моделі». Проблема полягає у використанні нейромережею неперевірених даних для формування навчального набору наступного покоління штучного інтелекту.

Для розв’язання проблеми OpenAI розробляє механізми фільтрації для підтримки якості інформації, інтегруючи різні методи перевірки для відділення високоякісного контенту від потенційно проблемного.

Оптимізація після навчання — ще один актуальний підхід. Дослідники розробляють методи підвищення продуктивності нейромережі після початкової фази налаштування, не покладаючись тільки на розширення набору інформації.

Раніше ЗМІ повідомили про плани OpenAI запустити наступну передову ШІ-модель під кодовою назвою Orion до грудня. Пізніше глава компанії Сем Альтман спростував цю інформацію.

Підходи інших компаній

Низка вчених, дослідників та інвесторів повідомили Reuters, що методи, які лежать в основі роботи нещодавно презентованої ШІ-моделі o1, «можуть змінити перегони озброєнь» у сфері штучного інтелекту.

У вересні OpenAI представила велику мовну модель o1, навчену методом із підкріпленням для виконання складних міркувань. Нейромережа вміє думати — вона здатна створити довгий внутрішній ланцюжок думок під час аналізу запитання, заявила компанія.

Співзасновник ШІ-стартапів Safe Superintelligence (SSI) і OpenAI Ілля Суцкевер зазначив, що результати навчання з використанням великого обсягу немаркованих даних «досягли піка».

«2010 роки були століттям масштабування, а зараз ми знову повернулися в часи чудес і відкриттів. Усі шукають нове», — зазначив він.

Суцкевер відмовився поділитися подробицями роботи його нової компанії SSI, зазначивши лише саму наявність альтернативного підходу до розширення масштабів попереднього навчання.

Джерела Reuters зазначили, що дослідники з великих ШІ-лабораторій стикаються із затримками та незадовільними результатами в прагненні створити більшу мовну модель, що перевершує GPT-4 від OpenAI, випущену майже два роки тому.

Вони намагаються застосувати техніку поліпшення нейромереж під час так званої фази «виведення». Наприклад, замість надання однієї відповіді ШІ спочатку генерує кілька варіантів і вибирає найкращий.

Нагадаємо, у жовтні ЗМІ повідомили про роботу OpenAI над власним ШІ-чипом.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version