Потужніший за Meta та OpenAI: китайський стартап DeepSeek презентував ШІ-модель

27.12.2024 ForkLog UA

Китайський ШІ-стартап DeepSeek представив власну велику мовну модель, яка перевершила за тестами конкурентів від Meta та OpenAI.

🚀 Introducing DeepSeek-V3!

Biggest leap forward yet:
⚡ 60 tokens/second (3x faster than V2!)
💪 Enhanced capabilities
🛠 API compatibility intact
🌍 Fully open-source models & papers

🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) December 26, 2024

DeepSeek V3 має 671 млрд параметрів. Для порівняння, у Llama 3.1 405B показник 405 млрд. Число відображає здатність ШІ адаптуватися до більш складних варіантів застосування і давати відповіді точніше.

Порівняння DeepSeek V3 з конкурентами. Джерело: DeepSeek.

Компанія з Ханчжоу навчила нейромережу за два місяці та $5,58 млн, використовуючи значно менше обчислювальних ресурсів (2048 графічних процесорів) порівняно з більшими технологічними компаніями. Вона обіцяє надання кращого співвідношення ціна/якість на ринку.

💰 API Pricing Update

🎉 Until Feb 8: same as V2!
🤯 From Feb 8 onwards:
Input: $0.27/million tokens ($0.07/million tokens with cache hits)
Output: $1.10/million tokens

🔥 Still the best value in the market!

🐋 3/n pic.twitter.com/OjZaB81Yrh
— DeepSeek (@deepseek_ai) December 26, 2024

У майбутньому заплановано додавання мультимодальності та «інших передових функцій».

Член команди OpenAI Андрій Карпаті зазначив, що DeepSeek продемонструвала вельми дивовижні дослідження і розробки в умовах обмежених ресурсів.

DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B
— Andrej Karpathy (@karpathy) December 26, 2024

«Чи означає це, що вам не потрібні великі кластери GPU для прикордонних LLM? Ні, але ви повинні бути впевнені, що не витрачаєте те, що у вас є. Це виглядає як хороша демонстрація того, що ще багато чого належить зробити як з даними, так і з алгоритмами», — додав він.

Раніше DeepSeek представила «конкурента o1 від OpenAI» — розумну «надпотужну» ШІ-модель DeepSeek-R1-Lite-Preview.

Нагадаємо, у липні китайська компанія Kuaishou відкрила ШІ-модель для генерації відео Kling для всіх охочих.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Waymo відкликає близько 3800 роботаксі після виїзду на затоплену вулицю

Anthropic та OpenAI заборонили вторинну торгівлю своїми акціями

Google представила ШІ-курсор, Googlebook і пакет Gemini Intelligence

Інфляція через ШІ створює проблему для техногігантів

Співзасновник OpenAI понад рік збирав компромат на Сема Альтмана

Unitree презентувала пілотованого робота GD01 вартістю від $650 000

Google фіксує зростання використання ШІ кіберзлочинцями

Макроаналітик назвав Ethereum «паливом» для ШІ-агентів

OpenAI презентувала конкурента Mythos і три голосові моделі