Захват і недоліки – OpenAI представила Sora

15 лютого компанія OpenAI представила нову генеративну модель штучного інтелекту Sora, яка дає змогу перетворювати текст на відео. Інструмент викликав захват у соцмережах, однак до повноцінного запуску йому належить чимало доопрацювань.

Sora здатна на основі простих текстових підказок генерувати відеоролики тривалістю до 60 секунд з роздільною здатністю до 1080p. Вони можуть містити кілька персонажів, певні типи руху і точні деталі об’єкта і фону.

В основі інструменту лежать дослідження GPT і DALL-E 3. Вона працює за так званою дифузійною моделлю – перетворює вихідне зображення на статистичний шум, а потім перетворює його, покроково цей шум видаляючи.

Розробники визнають, що на цьому етапі у Sora все ще є низка недоліків. Їй складно точно змоделювати фізику комплексної сцени – вона плутається в причинно-наслідкових зв’язках.

«Наприклад, людина може відкусити шматочок печива, але після цього на ньому може не залишитися сліду від укусу», – пояснюють в OpenAI.

У інструменту є проблеми з просторовими деталями. Отриманий результат може не відповідати заданим напрямкам, помилятися, де право і ліворуч.

Поки Sora доступна «червоній команді» тестувальників, а також обраним дизайнерам, художникам і кінематографістам.

Реакція соцмереж

Інструмент викликав захоплення в соцмережах і вже увійшов у тренди X з понад 173 000 постів.

Для наочної демонстрації можливостей моделі CEO OpenAI Сем Альтман почав приймати запити користувачів на генерацію відео. На момент написання він поділився загалом дев’ятьма роликами, створеними Sora.

Експерти в галузі ШІ зазначили, що можливості Sora «позбавляють дару мови».

За словами старшого наукового співробітника Nvidia Джима Фана, Sora набагато більше, ніж просто ще одна «творча іграшка», на кшталт DALL-E 3. Він визначив її як «фізичний рушій, керований даними», оскільки модель АІ не просто генерує абстрактне відео, а також інтуїтивно створює фізику об’єктів у самій сцені.

Водночас низка користувачів висловила побоювання, що подібні до Sora інструменти посилять проблему діпфейків.

На думку одного з користувачів, великим соцмережам потрібно задуматися над вбудованим захистом від реалістичних підробок. Окремо він виділив загрозу підміни відеодоказів злочинів.

Інший юзер заявив про необхідність технології зворотного проєктування De-AI, щоб уникнути неправильної інтерпретації контенту.

Раніше OpenAI почала тестувати функцію «пам’яті» для чат-бота ChatGPT, яка зберігає обговорювану в розмовах інформацію для поліпшення взаємодії з користувачем.

При цьому компанія активно протидіє використанню своїх продуктів у незаконних цілях.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK