Розробники навчили Midjourney генерувати текст

Компанія Midjourney анонсувала нову модель ШІ-інструменту для створення зображень, яка отримала можливість генерувати осмислений текст.

Згідно з повідомленням у Discord-каналі, Midjourney V6 позиціюється як «капітальний ремонт» і в рази перевершує попередника, випущеного в березні цього року.

«Точніше дотримання рекомендацій, а також довгі підказки, поліпшена зв’язність і знання моделі», — описали нову версію нейромережі розробники.

Одним із найважливіших компонентів V6 є можливість генерації осмисленого тексту, а не набору символів, як це було раніше. Однак розробники зазначили, що це не основний елемент моделі.

Завдяки поліпшенням Midjourney тепер може скласти конкуренцію провідним генеративним моделям на кшталт DALL-E 3 та Ideogram.

Порівняння генеративних ШІ-моделей. Джерело: Decrypt.

Через нові можливості шоста версія ШІ стала трохи повільнішою і дорожчою, але розробники пообіцяли попрацювати над її продуктивністю в майбутньому.

Midjourney V6, навчена з нуля на суперкластерах ШІ, також може похвалитися поліпшеними модулями масштабування в «тонкому» і «творчому» режимах, що підвищують роздільну здатність зображення вдвічі.

Альфа-версія нейромережі підтримує кілька нових аргументів, зокрема «-ar» для зміни роздільної здатності, «-chaos» для вибору варіацій генерації зображень, «-stylize» для зміни творчого стилю (що меншим є значення, то швидше нейромережа видасть результат, жертвуючи деталізацією).

«Вам доведеться заново навчитися підказувати», — попередила команда проєкту.

Інші функції на кшталт зуму і панорамування з’являться під час релізу моделі.

Поки що взяти участь у тестування Midjourney V6 можна на Discord-сервері, надсилаючи бажаний запит у чат.

«Команда проєкту ввімкнула системи модерації та забезпечуватиме дотримання стандартів нашої спільноти з підвищеною суворістю. Не будьте придурками та не створюйте образи, які провокують драму», — підкреслили розробники.

Користувачі вже почали ділиться отриманими результатами.

Більшість відзначає високий ступінь деталізації у створених зображень навіть без апскейла.

Для демонстрації можливостей Midjourney один із користувачів попросив згенерувати «92-річного зморшкуватого злого старого в студійному світлі».

Раніше Google представила глобальне оновлення для чат-бота Bard, яке покликане розширити можливості нейромережі. Апдейт отримав назву Gemini.

Нагадаємо, у листопаді ШІ-стартап Anthropic анонсував нову модель Claude 2.1 зі збільшеним контекстним вікном на 200 000 токенів, еквівалентним 500 сторінкам тексту.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK