Amazon випустила ШІ-модель для спілкування голосом


Компанія Amazon представила нову генеративну ШІ-модель Nova Sonic для спілкування голосом. Її продуктивність можна порівняти з передовими рішеннями від OpenAI та Google за швидкістю, розпізнаванням мови і якістю розмови, стверджують у компанії.
Amazon назвала Nova Sonic «найекономічнішою» голосовою моделлю ШІ на ринку — приблизно на 80% дешевше GPT-4o від OpenAI. Вона доступна через платформу для розробників Bedrock.
«Компоненти» нейромережі вже використовуються в оновленому помічнику Alexa+. Вона під час двостороннього діалогу здатна говорити «у відповідний момент», враховуючи паузи та переривання з боку мовця.
Nova Sonic використовує «архітектуру єдиної моделі», яка нібито краща за підхід, що має на увазі об’єднання окремих рішень для розпізнавання мови, її перетворення на текст, генерації відповіді та перетворення її на аудіо.
Стверджується, що Nova Sonic менше помиляється в розпізнаванні мови порівняно з конкурентами. Вона добре розуміє наміри користувача навіть у тому разі, якщо той бурмоче, неправильно вимовляє слова або перебуває в галасливих обставинах.
У бенчмарку Multilingual LibriSpeech, що вимірює розпізнавання мови різними мовами та діалектами, Nova Sonic досягла коефіцієнта помилок 4,2% з англійської, французької, італійської, німецької та іспанської мов. Це означає, що приблизно чотири з кожних 100 слів вона розуміла неправильно.
У Augmented Multi Party Interaction, що вимірює взаємодію з кількома учасниками, Nova Sonic виявилася на 46,7% точнішою за GPT-4o-transcribe від OpenAI. Вона також має найкращу в індустрії швидкість: середня затримка сприйняття становить 1,09 секунди.
Компанія вважає, що за допомогою її нового рішення можна створювати різні інструменти на кшталт ботів для обслуговування клієнтів або ШІ-агентів для туристичної галузі.
Нагадаємо, у квітні Amazon оновила відеогенератор Nova Reel до версії 1.1. Користувачі можуть створювати «багатокадрові» ролики тривалістю до двох хвилин із «послідовністю стилю».
У грудні 2024 року компанія представила нове покоління ШІ-моделей Amazon Nova для широкого спектра завдань. Нейромережі здатні обробляти текст, зображення і відео.