Apple представила ШІ-модель для зчитування контексту з екрана

02.04.2024 ForkLog UA

Дослідники Apple розробили нову ШІ-систему, здатну розуміти контекст.

Згідно з опублікованими документами, функція дає змогу більш природно взаємодіяти з голосовими помічниками.

Система отримала назву Reference Resolution As Language Modeling (ReALM) — «вирішення посилань як моделювання мов». Вона використовує LLM для вирішення проблеми розпізнавання посилань. Це дає змогу ReALM домогтися значного приросту продуктивності порівняно з наявними методами.

«Здатність розуміти контекст, включно з посиланнями, дуже важлива для розмовного асистента. Найважливішим кроком у забезпеченні справжньої свободи рук під час використання голосових помічників є можливість ставити запитання про те, що відображається на екрані», — повідомила команда дослідників Apple.

Для роботи з екранними посиланнями ReALM використовує реконструкцію дисплея за допомогою синтаксичного аналізу об’єктів на ньому та їхнього місця розташування для створення текстового представлення, що передає візуальну схему.

ШІ-модель розроблена спеціально для поліпшення можливостей Siri шляхом врахування даних на дисплеї та поточних завдань. Вона категоризує інформацію на три сутності: екранну, розмовну і фонову.

Порівняння ШІ-моделей за ефективністю розпізнавання сутностей. Джерелоі: arxive.org.

Згідно з дослідницькою роботою Apple, ШІ-система не поступається за своїми можливостями GPT-4. Продуктивність найменшої моделі ReALM від Apple можна порівняти з чат-ботом від OpenAI, а більші істотно перевершують його.

Нагадаємо, в лютому CEO Apple Тім Кук розкрив плани корпорації щодо використання генеративного ШІ.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Безкоштовний VPN для Chrome збирав дані з діалогів між користувачами та ШІ-ботами

OpenAI запустила магазин застосунків у ChatGPT

Luma випустила ШІ-редактор відео Ray3 Modify

CEO Tether назвав ШІ-бульбашку головною загрозою для біткоїна

Google представила ШІ-модель Gemini 3 Flash

OpenAI запустила новий генератор зображень GPT Image 1.5

Nvidia випустила відкриті ШІ‑моделі Nemotron 3 для агентів

Merriam‑Webster обрав «slop» словом року 2025

Tesla розпочала випробування роботаксі без людей у салоні