Захват і недоліки – OpenAI представила Sora

16.02.2024 ForkLog UA

15 лютого компанія OpenAI представила нову генеративну модель штучного інтелекту Sora, яка дає змогу перетворювати текст на відео. Інструмент викликав захват у соцмережах, однак до повноцінного запуску йому належить чимало доопрацювань.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Sora здатна на основі простих текстових підказок генерувати відеоролики тривалістю до 60 секунд з роздільною здатністю до 1080p. Вони можуть містити кілька персонажів, певні типи руху і точні деталі об’єкта і фону.

В основі інструменту лежать дослідження GPT і DALL-E 3. Вона працює за так званою дифузійною моделлю – перетворює вихідне зображення на статистичний шум, а потім перетворює його, покроково цей шум видаляючи.

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) February 15, 2024

Розробники визнають, що на цьому етапі у Sora все ще є низка недоліків. Їй складно точно змоделювати фізику комплексної сцени – вона плутається в причинно-наслідкових зв’язках.

«Наприклад, людина може відкусити шматочок печива, але після цього на ньому може не залишитися сліду від укусу», – пояснюють в OpenAI.

У інструменту є проблеми з просторовими деталями. Отриманий результат може не відповідати заданим напрямкам, помилятися, де право і ліворуч.

Поки Sora доступна «червоній команді» тестувальників, а також обраним дизайнерам, художникам і кінематографістам.

Реакція соцмереж

Інструмент викликав захоплення в соцмережах і вже увійшов у тренди X з понад 173 000 постів.

Для наочної демонстрації можливостей моделі CEO OpenAI Сем Альтман почав приймати запити користувачів на генерацію відео. На момент написання він поділився загалом дев’ятьма роликами, створеними Sora.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

Експерти в галузі ШІ зазначили, що можливості Sora «позбавляють дару мови».

I don’t even know what to say…

These clips generated by OpenAI’s Sora model have me speechless.

We knew good AI text-to-video would come, but this quickly? Unreal.

We’re stepping into a new world.

Buckle up. pic.twitter.com/zP7b5fKw5x
— Mckay Wrigley (@mckaywrigley) February 15, 2024

За словами старшого наукового співробітника Nvidia Джима Фана, Sora набагато більше, ніж просто ще одна «творча іграшка», на кшталт DALL-E 3. Він визначив її як «фізичний рушій, керований даними», оскільки модель АІ не просто генерує абстрактне відео, а також інтуїтивно створює фізику об’єктів у самій сцені.

If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024

Водночас низка користувачів висловила побоювання, що подібні до Sora інструменти посилять проблему діпфейків.

OpenAI, the builders of ChatGPT, have built Sora. A text to video AI system that creates 60 sec videos. It’s not yet available but is causing significant concern around its deep fake potential use. The issue isn’t just video content but how it’s used. https://t.co/Qujz3TfeH2
— Ian McLintock (@ian_mcl) February 16, 2024

На думку одного з користувачів, великим соцмережам потрібно задуматися над вбудованим захистом від реалістичних підробок. Окремо він виділив загрозу підміни відеодоказів злочинів.

Open AI launched #Sora that gives almost realistic text to video GAI:
1. Deep fake detection becomes super important against spread of misinformation (platforms like X should've in-built debunker of deep fakes)
2. Courts will have a hard time with video evidence as proof of crime
— TheShunyaLab (@theshunyalab) February 16, 2024

Інший юзер заявив про необхідність технології зворотного проєктування De-AI, щоб уникнути неправильної інтерпретації контенту.

This is amazing! But we badly need a De-AI reverse engineering technology to avoid misinterpretation and deepfake generation to avoid misuse.#Sora #OpenAI #AI #DeepFake https://t.co/hazxryNlHI
— Neeraj Chauriya🇮🇳 (@neerajchauriya) February 16, 2024

Раніше OpenAI почала тестувати функцію «пам’яті» для чат-бота ChatGPT, яка зберігає обговорювану в розмовах інформацію для поліпшення взаємодії з користувачем.

При цьому компанія активно протидіє використанню своїх продуктів у незаконних цілях.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Bit Digital відмовиться від майнінгу біткоїна заради ШІ та Ethereum

Кількість завантажень Sora обвалилася на 32% після рекордного старту

YouTube і Deezer почали чистки ШІ-спаму

Tesla запускає виробництво роботів Optimus замість електрокарів Model S і X

Масштабне оновлення Chrome: бокова панель Gemini, Nano Banana та «Персональний інтелект»

WLD злетів на 40% на тлі новин про біометричну соцмережу від OpenAI

OpenAI запустила Prism — безкоштовного наукового асистента на базі GPT‑5.2

Ethereum готує запуск стандарту ERC-8004 для створення глобального ринку ШІ-агентів

Техгіганти ділять майбутнє: чи витіснять ШІ‑гаджети смартфони?