Google випустила Flash TTS 3.1, Robotics‑ER 1.6 та нативний Gemini для macOS


Корпорація Google випустила Gemini 3.1 Flash TTS — оновлену модель синтезу мовлення на базі покоління Gemini 3. Вона вирізняється поліпшеною якістю звуку, виразністю та точнішим керуванням, а також підтримує понад 70 мов.
Мережа ШІ дає змогу розробникам, компаніям і звичайним користувачам створювати застосунки з голосовим ШІ-інтерфейсом.
Gemini 3.1 Flash TTS уже доступна:
- для розробників — у режимі попереднього доступу через Gemini API та Google AI Studio;
- для підприємств — у Vertex AI;
- для користувачів Workspace — через сервіс Google Vids.
Поліпшена якість мовлення та керованість
Модель набрала 1211 балів у рейтингу Artificial Analysis TTS. Показник сформовано на основі вподобань тисяч респондентів, які брали участь у сліпому тестуванні якості аудіо.

Компанія Artificial Analysis віднесла модель до групи найпривабливіших рішень завдяки поєднанню високоякісного синтезу мовлення та низької вартості.
LLM вирізняється здатністю генерувати природні діалоги за участі кількох спікерів.
Нові аудіотеги
У версії 3.1 Flash TTS з’явилися аудіотеги — інструмент для керування стилем, темпом і манерою мовлення.
«Перші розробники та корпоративні тестувальники вже бачать результати роботи 3.1 Flash TTS, відзначаючи її вражаючу керованість і виразність. Вони розповіли нам, як аудіотеги забезпечують новий рівень творчої точності, перетворюючи простий текст на високоякісне голосове виконання», — йдеться в блозі компанії.
Модель ШІ для робототехніки
Паралельно з Gemini 3.1 Flash TTS корпорація представила Gemini Robotics-ER 1.6. Ця ШІ-модель покликана надати роботам змогу виконувати складні завдання в реальних умовах завдяки поліпшеним когнітивним функціям і «втіленому» мисленню.
Мережа спеціалізується на просторовому сприйнятті, плануванні дій та оцінці їхньої успішності. Вона демонструє помітні покращення порівняно з попередницею та Gemini 3.0 Flash під час виконання завдань, пов’язаних із просторовим і фізичним мисленням.
Gemini Robotics-ER 1.6 може інтерпретувати дані зі складних вимірювальних приладів і зчитувати показники крізь оглядові вікна. Цю можливість фахівці Google DeepMind розробили спільно з Boston Dynamics для потреб промислового сектору.
«Такі можливості дозволяють автономно бачити, розуміти й реагувати на реальні виклики», — прокоментував віцепрезидент проєкту Spot у Boston Dynamics Марко да Сільва.
У тестах на виявлення загроз безпеки новинка випередила Gemini 3.0 Flash на 6% у текстових сценаріях і на 10% під час аналізу відео.
Інтеграція LLM у реальні робочі процеси вже розпочалася: Boston Dynamics інтегрувала Gemini та Gemini Robotics-ER 1.6 у власну платформу Orbit AIVI-Learning.
Gemini на macOS
Крім того, Google випустила нативний застосунок Gemini для macOS. Він доступний за натисканням Option + Space. Серед функцій — можливість поділитися вікном для миттєвої передачі контексту.
Застосунок підтримує генерацію зображень за допомогою Nano Banana, створення відео з Veo та інші звичні інструменти.
Нагадаємо, у квітні Google представила Gemma 4 — нове сімейство відкритих моделей ШІ для просунутих міркувань і агентних робочих процесів.