DeepSeek представив технологію стиснення тексту для ШІ

Китайський ШІ-стартап DeepSeek анонсував новий мультимодальний ШІ, здатний обробляти великі та складні документи, використовуючи значно менше токенів.

DeepSeek-OCR застосовує візуальне сприйняття як спосіб стиснення інформації.

Система створена на основі «дослідження ролі візуальних енкодерів» у задачах стиснення тексту для великих мовних моделей (LLM). Такий підхід дозволяє нейромережам обробляти величезні обсяги даних без пропорційного зростання обчислювальних витрат.

«За допомогою DeepSeek-OCR ми показали, що стиснення тексту через візуальні представлення скорочує кількість токенів у 7–20 разів на різних етапах контексту. Це відкриває перспективний напрям для вирішення проблеми довгої історії в LLM», — повідомили в компанії.

DeepSeek-OCR складається з двох ключових компонентів:

  • DeepEncoder — енкодер;
  • DeepSeek3B-MoE-A570M — декодер.

DeepEncoder виступає основним обчислювальним ядром моделі. Енкодер зберігає низьку активність під час обробки зображень високої роздільної здатності, одночасно забезпечуючи суттєве стиснення токенів.

Декодер є моделлю Mixture-of-Experts з 570 млн параметрів і відповідає за відновлення вихідного тексту. Архітектура ділить нейромережу на кілька незалежних підмереж — «експертів», кожна з яких спеціалізується на своїй частині даних, спільно вирішуючи загальне завдання.

DeepSeek-OCR здатний аналізувати складний візуальний контент, таблиці, формули та геометричні схеми. Компанія зазначає, що це робить модель особливо корисною для фінансової сфери та наукових досліджень.

За даними розробників, DeepSeek-OCR досягав 97% точності декодування, а при коефіцієнті стиснення 20× зберігав близько 60% інформації. Це демонструє здатність моделі мінімізувати втрати даних навіть при екстремальному стисненні.

На еталонному тесті OmniDocBench, що оцінює розуміння різноманітних документів, DeepSeek-OCR перевершив провідні моделі оптичного розпізнавання тексту, включно з GOT-OCR 2.0 та MinerU 2.0, при цьому використавши значно менше токенів.

Нагадаємо, у серпні стартап оновив свою флагманську ШІ-модель V3.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version