Google випустила Flash TTS 3.1, Robotics‑ER 1.6 та нативний Gemini для macOS

Корпорація Google випустила Gemini 3.1 Flash TTS — оновлену модель синтезу мовлення на базі покоління Gemini 3. Вона вирізняється поліпшеною якістю звуку, виразністю та точнішим керуванням, а також підтримує понад 70 мов.

Мережа ШІ дає змогу розробникам, компаніям і звичайним користувачам створювати застосунки з голосовим ШІ-інтерфейсом.

 Gemini 3.1 Flash TTS уже доступна:

  • для розробників — у режимі попереднього доступу через Gemini API та Google AI Studio;
  • для підприємств — у Vertex AI;
  • для користувачів Workspace — через сервіс Google Vids.

Поліпшена якість мовлення та керованість

Модель набрала 1211 балів у рейтингу Artificial Analysis TTS. Показник сформовано на основі вподобань тисяч респондентів, які брали участь у сліпому тестуванні якості аудіо.

Джерело: Google.

Компанія Artificial Analysis віднесла модель до групи найпривабливіших рішень завдяки поєднанню високоякісного синтезу мовлення та низької вартості.

LLM вирізняється здатністю генерувати природні діалоги за участі кількох спікерів.

Нові аудіотеги

У версії 3.1 Flash TTS з’явилися аудіотеги — інструмент для керування стилем, темпом і манерою мовлення.

«Перші розробники та корпоративні тестувальники вже бачать результати роботи 3.1 Flash TTS, відзначаючи її вражаючу керованість і виразність. Вони розповіли нам, як аудіотеги забезпечують новий рівень творчої точності, перетворюючи простий текст на високоякісне голосове виконання», — йдеться в блозі компанії.

Модель ШІ для робототехніки

Паралельно з Gemini 3.1 Flash TTS корпорація представила Gemini Robotics-ER 1.6. Ця ШІ-модель покликана надати роботам змогу виконувати складні завдання в реальних умовах завдяки поліпшеним когнітивним функціям і «втіленому» мисленню.

Мережа спеціалізується на просторовому сприйнятті, плануванні дій та оцінці їхньої успішності. Вона демонструє помітні покращення порівняно з попередницею та Gemini 3.0 Flash під час виконання завдань, пов’язаних із просторовим і фізичним мисленням.

Gemini Robotics-ER 1.6 може інтерпретувати дані зі складних вимірювальних приладів і зчитувати показники крізь оглядові вікна. Цю можливість фахівці Google DeepMind розробили спільно з Boston Dynamics для потреб промислового сектору.

«Такі можливості дозволяють автономно бачити, розуміти й реагувати на реальні виклики», — прокоментував віцепрезидент проєкту Spot у Boston Dynamics Марко да Сільва.

У тестах на виявлення загроз безпеки новинка випередила Gemini 3.0 Flash на 6% у текстових сценаріях і на 10% під час аналізу відео.

Інтеграція LLM у реальні робочі процеси вже розпочалася: Boston Dynamics інтегрувала Gemini та Gemini Robotics-ER 1.6 у власну платформу Orbit AIVI-Learning.

Gemini на macOS

Крім того, Google випустила нативний застосунок Gemini для macOS. Він доступний за натисканням Option + Space. Серед функцій — можливість поділитися вікном для миттєвої передачі контексту.

Застосунок підтримує генерацію зображень за допомогою Nano Banana, створення відео з Veo та інші звичні інструменти.

Нагадаємо, у квітні Google представила Gemma 4 — нове сімейство відкритих моделей ШІ для просунутих міркувань і агентних робочих процесів.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version