Кінець чи друге дихання: як нейромережі змінюють світ образотворчого мистецтва

20.10.2022 ForkLog UA

Образотворче мистецтво завжди було одним з найвизначніших продуктів людської культури. Протягом багатьох століть воно дозволяло людям самовиражатися та розповідати історії.

Спочатку виник печерний живопис, згодом — написані олією картини та фотографія. Наразі ж прийшла ера “образотворчого” штучного інтелекту (ШІ) й, зокрема, нейронних мереж.

Ми з’ясували, які ШІ-моделі використовуються для роботи з картинками та чи можуть подібні системи замінити художників.

Дослідники почали застосовувати алгоритми для створення зображень у 1950-1960 роках.
Нейронні мережі дозволяють копіювати стилі художників, перетворювати ескізи в фотореалістичні ілюстрації, “оживляти” портрети та створювати нові зображення.
Вартість розробки та навчання алгоритму варіюється від нуля до сотень мільйонів доларів.

Коротка історія ШІ-мистецтва

Історію мистецтва, яке було згенероване ШІ, можна прослікувати від відкриття машинної графіки до винаходу комп’ютера. Тоді дослідники використовували базові алгоритми для створення простих візерунків та форм.

У 1967 році німецький математик та вчений Фрідер Наке розробив портфоліо під назвою Matrix Multiplications, яке складалося з 12 зображень. Він створив квадратну матрицю та заповнив її числами, що послідовно помножувалися самі на себе.

Дослідник перевів отримані результати в образи заданих інтервалів, де кожному значенню присвоїв візуальний знак певної форми та кольору. Потім він помістив фігури до растру відповідно до значень матриці.

У своїх працях Наке часто використовув генератор випадкових чисел і, ймовірно, частково автоматизував процес множення.

Зображення з портфоліо Matrix Multiplications, яке було створене Фрідером Наке. Дані: Tate.

У 1973 році художник Гарольд Коен розробив набір алгоритмів AARON, який був здатен намалювати “від руки” певні об’єкти. Він виявив, що система стала створювати раніше невідомі форми.

Спершу програма генерувала абстрактні картини, а згодом навчилася малювати складніші фігури, зокрема каміння, рослини та людей.

Картина, що згенерував AARON. Дані: New Atlas.

З 1990 року дослідники та художники стали використовувати ШІ-моделі в робототехніці, навчаючи машини створенню картин та скульптур.

У 2015 році інженер Google Олександр Мордвинцев запустив програму комп’ютерного зору DeepDream, яка використовує згорткову нейронну мережу для пошуку та покращення патернів у зображеннях за допомогою алгоритмічної парейдолії.

Принцип роботи системи полягає в викривленні оригінальної картинки відповідно до того, які фрагменти нагадують моделі ті чи інші знайомі об’єкти.

Коли Google опублікувала підхід та відкрила вихідний код алгоритму, на ринці з’явилася велика кількість інструментів і сервісів, які дозволяють усім бажаючим перетворювати власні фото в “психоделічні” зображення.

Оригінальне зображення (зліва) та оброблене за допомогою DeepDream (зправа). Дані: MartinThoma.

У 2022 році ШІ-мистецтво використовується в різноманітних сферах, включно з маркетингом, модою і розвагами.

Обкладинка друкованого видання Cosmopolitan, створена за допомогою алгоритму DALL-E 2 від OpenAI. Дані: Cosmopolitan.

Моделі також допомагають створювати картини:

Картина Théâtre D’opéra Spatial, створена Джейсоном Алленом за допомогою алгоритму Midjourney. Дані: Motherboard.

Нейромережі для роботи з зображеннями

2022 рік може увійти до історії культури як час, коли ШІ-мистецтво стало мейнстрімом. Справжній бум якісних інструментів, які побудовані на базі різних алгоритмів, робить нейротворчість доступною для всіх, у кого є смартфон із підключенням до інтернету.

ШІ-моделі дозволяють копіювати стилі художників, перетворювати ескізи на фотореалістичні ілюстрації, “оживляти” портрети та створювати нові зображення. Для різних завдань використовуються різні інструменти.

Нейронна передача стилю (NST) — це метод на базі згорткових нейромереж, який дозволяє створити картину, що імітує інше зображення за манерою виконання. Користувач може перетворити фото собаки, яка біжить, на гравюру Кацусіки Хокусаю або згенерувати “Мона Лізу”, нібито написану Яном Вермером.

Оригінальне фото контенту (зліва), зображення з бажаним стилем (по центру) та результат (зправа). Дані: Instapainting.

За створення нових витворів мистецтва чи картин з використанням стилю інших зображень відповідають генеративні змагальні мережі (GAN). Це є алгоритми, які складаються одразу з двох моделей: генератора, який створює контент, та дискрімінатора, який його оцінює.

Системи на базі GAN можуть малювати зображення, які схожі на картинки з набору навчальних даних, зокрема облич людей, морд котів, меблів та інших об’єктів.

Обличчя неіснуючих людей, створені генеративною змагальною нейромережею. Дані: This Person Does Not Exist.

Також генеративні змагальні мережі допомагають «оживити», наприклад, ескіз пейзажу.

Проте наразі найпопулярнішими інструментами для створення витворів мистецтва є ШІ-генератори зображень за текстом, які використовують мовні моделі на кшталт OpenAI GPT-3.

Зображення, згенеровані за допомогою Stable Diffusion. Дані: Lexica.

Гасло подібних систем — “надрукуй та отримай”. Користувачеві необхідно задати будь-який запит природною мовою на кшталт “Лама з дредами в костюмі астронавта”. Алгоритм згенерує картинку відповідно до нього.

Зображення за запитом «Лама з дредами в костюмі астронавта». Дані: Midjourney.

Текстові описи можуть складатися з величезної кількості слів, додавання чи видалення яких здатне суттєво змінити результат. Вони відіграють провідну роль у створенні зображень. Існують навіть спеціальні маркетплейси, де бажаючі можуть за гроші придбати запит для конкретного стилю картинки.

Розробники навчають ШІ-генератори на великих масивах зображень та їхніх текстових описах, тренуючи модель шукати між ними зв’язок. Також вони часто використовують процес дифузії — алгоритм починає генерацію з набору випадкових точок та поступово покращує зображення, наближаючи його до заданої підказки та позбавляючись шуму.

Більшість популярних ШІ-генераторів мають обмеження на створення контенту: вони не можуть зображувати оголеність, насилля, реалістичні обличчя чи політичних діячів. Серед таких інструментів — OpenAI DALL-E 2, Google Imagen і Midjourney. Інколи їхнє використання платне.

Проте існують системи без подібних обмежень, наприклад Stable Diffusion. Компанія-розробник інструменту Stability AI заявила, що модель не має фільтрів та вміє створювати будь-який контент.

Картинка з зображенням Дональда Трампа, створена за допомогою Stable Diffusion. Дані: Lexica.

Генератори зображень за текстом можна використовувати для вдосконалення готових витворів мистецтва. У серпні OpenAI представила функцію Outpainting, яка дозволяє DALL-E 2 розширювати картини за допомогою підказок.

Картина Яна Вермера «Дівчина з перловою сережкою» та її розширена версія, створена за допомогою DALL-E 2. Дані: OpenAI.

Яка вартість розробки нейромережі?

Це максимально неоднозначне питання. Відповідь на нього: від нуля до декількох сотень мільйонів доларів.

Почнемо з того, що для створення та навчання ШІ-алгоритму потрібні знання. Користувачам без навичок програмування та бажання витрачати кошти на курси спершу варто розібратися з принципами роботи нейромереж. Існує багато безкоштовних статей, ресурсів і сервісів на кшталт освітнього Google-проєкту Teachable Machine, які можуть допомогти в цьому.

Також знадобляться знання мови програмування, наприклад, Python, і бібліотека для розробки та тренування нейронних мереж — TensorFlow, PyTorch тощо.

Окрім того, необхідно зібрати навчальний датасет під конкретне завдання: його можна створити самостійно, взяти з відкритих джерел або придбати. Для розробки генератора зображень за запитом потрібен набір картинок та їхніх текстових описів.

Точність роботи моделі безпосередньо залежить від якості та кількості даних. Також на це впливають витрачені обчислювальні ресурси та обладнання, яке використовується.

За наявності всього вищеперерахованого можна створити нейромережу для роботи з зображеннями безкоштовно.

Проте великі компанії на кшталт Meta, Amazon, Apple, Microsoft та Alphabet інвестують в подібні продукти десятки мільярдів доларів. Витрати включають дослідження, розробку, тренування, перевірку працездатності, розгортання, комерціалізацію та підтримку технології. Іноді на цей процес витрачають роки, а в результаті проєкт можуть закрити чи, навпаки, — зробити його незамінним.

Переваги та недоліки образотворчих ШІ-алгоритмів

Серед плюсів використання нейромереж для створення витворів мистецтва можна виділити генерацію реалістичних даних. Такі зображення можуть застосовуватися в кіно, рекламі, іграх та інших сферах.

ШІ-алгоритми нестандартно “думають”. Вони здатні створювати невідомі раніше образи, незвично компонувати об’єкти чи оригінально змішувати текстури. Таке мистецтво може стати джерелом натхнення для більш значущих проєктів.

Завдяки постійній модернізації технологій і даних ШІ-мистецтво також розвивається та постійно привносить нові ідеї.

Крім того, алгоритми здатні прискорити рішення деяких завдань. За допомогою нейромереж можна створювати логотипи, кліпи та використовувати їх у маркетингових цілях.

Серед мінусів варто виділити відсутність людських емоцій. Іноді це є перевагою, проте в процесі створення художнього твору багатьом людям потрібна історія.

Через обмеженість навчальних наборів даних ШІ-мистецтво може стати нудним. Без постійної модернізації та тренування на нових датасетах зображення, які генеруються, почнуть повторюватися та втратять унікальність.

Також розробники не можуть контролювати творчий процес нейромереж. Після тренування алгоритм представить результат на базі встановлених параметрів. Якщо він не влаштує користувача, модель необхідно буде перенавчати.

Проте головні проблеми використання ШІ стосуються етики. Розробники не завжди можуть контролювати поширення та застосування технології. Алгоритми не можна вважати авторами, але відповідальність за їхню некоректну “поведінку” лежить на творцях останніх.

Через доступність технології зловмисники можуть за допомогою ШІ створювати зображення для введення людей в оману, викрадення їхніх особистих даних та поширення мови ворожнечі.

Чи замінять нейромережі художників?

Колись новим віянням мистецтва вважалася фотографія. Через майже 200 років існування вона не замінила художників та творців мистецтва, а змусила їх розиватися та пристосовуватися.

Це створило нове покоління творчих людей. Художники та фотографи почали разом працювати над витворами, здатними дивувати, залучати та наштовхнути на думки про красу.

Мистецтво, хоч в якій формі воно проявляється, змушає людей відчувати. Й існує багато простору для нових художніх проявів, здатних викликати раніше не відомі відчуття.

Творці генеративного ШІ можуть трохи змістити існуючі форми творчості, проте не знищать їх.

Інструменти на кштал DALL-E 2, Stable Diffusion та Midjourney, ймовірно, продовжать трансформуватися та допоможуть діячам мистецтва доповнити свої роботи.

За достатнього та постійного розвитку нейромереж люди зможуть регулярно використовувати технологію для натхнення та розширення власних ідейних можливостей.

Читайте біткоїн-новини ForkLog UA у нашому Telegram — новини криптовалют, курси та аналітика.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

GoMining передбачила новий сплеск інтересу до біткоїн-майнінгу

TeraWulf і Fluidstack запустять масштабний ШІ-проєкт за підтримки Google

ШІ створив нові антибіотики для резистентних інфекцій

Генеративний ШІ зменшив трафік криптомедіа у Східній Європі

Думка: ШІ-агенти стануть основними користувачами Ethereum

ЗМІ: Apple готує ШІ-робота та оновлену Siri

Трамп назвав умови продажу урізаних версій Blackwell до Китаю

ЗМІ: OpenAI профінансує конкурента Neuralink

ЗМІ: Perplexity запропонувала купити Google Chrome за $34,5 млрд