Google розробить ШІ-модель для генерації звуку до відео

18.06.2024 ForkLog UA

Компанія Google DeepMind розробляє технологію на базі штучного інтелекту для створення саундтреків до відео.

Дослідницький підрозділ Google у сфері ШІ та інші організації вже створювали моделі для відео, але вони не здатні генерувати під них звукові ефекти. Для цих цілей DeepMind використовує технологію V2A (video-to-audio).

«Моделі для генерації відео розвиваються неймовірними темпами, але багато сучасних систем не створюють звукову доріжку. Одним із наступних важливих кроків на шляху до генерації фільмів є поява саундтреків до цих німих відеороликів», — йдеться в повідомленні DeepMind.

Технологія V2A від DeepMind використовує промпти в поєднанні з відео для створення музики, звукових ефектів і діалогів. Наприклад: «Пульсуюча під водою медуза, морське життя, океан». Дифузійна ШІ-модель, що лежить в основі V2A, навчена на базі звуків, розшифровок діалогів і відеокліпів.

Для створення звуку до відео використовувалися такі підказки: кінематограф, трилер, фільм жахів, музика, напруга, атмосфера, кроки по бетону.

DeepMind зазначає, що технологія поки що не ідеальна, а звук не можна назвати високоякісним і переконливим. Перед повноцінним запуском V2A потрібні доопрацювання і тестування.

Нагадаємо, у лютому OpenAI представила нову генеративну ШІ-модель Sora, яка дає змогу перетворювати текст на відео.

У червні вчені з Гарварду і DeepMind створили віртуального щура зі штучним інтелектом як мозком.

Раніше дочірня компанія Google представила генеративну ШІ-модель Genie для створення ігор.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

OpenAI випустила полегшену версію «ШІ-програміста» Codex

CEO Microsoft AI: до масової ШІ-автоматизації роботи «білих комірців» залишилось 18 місяців

ШІ-оновлення Google: Gemini Deep Think, ШІ-математик і рушій розробки ліків

Lightning Labs запустила інструменти для ШІ-агентів у Lightning Network

Абоненти T-Mobile отримають ШІ-переклад дзвінків без встановлення застосунків

В Threads додали ШІ-інструмент для налаштування рекомендацій Dear Algo

Coinbase запустила інфраструктуру гаманців для ШІ-агентів

CZ спрогнозував еру ШІ-агентів у криптоіндустрії

Stripe презентувала систему платежів для ШІ-агентів на USDC і x402