Розробники навчили Midjourney генерувати текст
Компанія Midjourney анонсувала нову модель ШІ-інструменту для створення зображень, яка отримала можливість генерувати осмислений текст.
Згідно з повідомленням у Discord-каналі, Midjourney V6 позиціюється як «капітальний ремонт» і в рази перевершує попередника, випущеного в березні цього року.
«Точніше дотримання рекомендацій, а також довгі підказки, поліпшена зв’язність і знання моделі», — описали нову версію нейромережі розробники.
Одним із найважливіших компонентів V6 є можливість генерації осмисленого тексту, а не набору символів, як це було раніше. Однак розробники зазначили, що це не основний елемент моделі.
Завдяки поліпшенням Midjourney тепер може скласти конкуренцію провідним генеративним моделям на кшталт DALL-E 3 та Ideogram.
Через нові можливості шоста версія ШІ стала трохи повільнішою і дорожчою, але розробники пообіцяли попрацювати над її продуктивністю в майбутньому.
Midjourney V6, навчена з нуля на суперкластерах ШІ, також може похвалитися поліпшеними модулями масштабування в «тонкому» і «творчому» режимах, що підвищують роздільну здатність зображення вдвічі.
Альфа-версія нейромережі підтримує кілька нових аргументів, зокрема «-ar» для зміни роздільної здатності, «-chaos» для вибору варіацій генерації зображень, «-stylize» для зміни творчого стилю (що меншим є значення, то швидше нейромережа видасть результат, жертвуючи деталізацією).
«Вам доведеться заново навчитися підказувати», — попередила команда проєкту.
Інші функції на кшталт зуму і панорамування з’являться під час релізу моделі.
Поки що взяти участь у тестування Midjourney V6 можна на Discord-сервері, надсилаючи бажаний запит у чат.
«Команда проєкту ввімкнула системи модерації та забезпечуватиме дотримання стандартів нашої спільноти з підвищеною суворістю. Не будьте придурками та не створюйте образи, які провокують драму», — підкреслили розробники.
Користувачі вже почали ділиться отриманими результатами.
Більшість відзначає високий ступінь деталізації у створених зображень навіть без апскейла.
Для демонстрації можливостей Midjourney один із користувачів попросив згенерувати «92-річного зморшкуватого злого старого в студійному світлі».
Раніше Google представила глобальне оновлення для чат-бота Bard, яке покликане розширити можливості нейромережі. Апдейт отримав назву Gemini.
Нагадаємо, у листопаді ШІ-стартап Anthropic анонсував нову модель Claude 2.1 зі збільшеним контекстним вікном на 200 000 токенів, еквівалентним 500 сторінкам тексту.