Загальний штучний інтелект вже тут: інтерв’ю із CEO Pheon Юрієм Фіцджеральдом

Індустрія штучного інтелекту (ШІ) стрімко розвивається. Це підтверджує, зокрема, прийняття технології серед простих користувачів. Інструменти на кшталт ChatGPT, Stable Diffusion та ElevenLabs дозволили мільйонам людей у всьому світі взаємодіяти з ШІ.

Чи є в ChatGPT ознаки інтелекту? Чи залишаться люди без роботи через технологію? Чи етично використовувати ШІ на війні? Про це й не тільки ForkLog AI поспілкувався із засновником стартапу із цифрового клонування людини Pheon, а в минулому — власником аутсорсингової компанії Hey Machine Learning, Юрою Фіцджеральдом [Jura Fitzgerald].

Про ChatGPT

ChatGPT. Про нього говорять буквально всі. Що ти думаєш з приводу технології?

Я гадаю, це чудова технологія. Вона з’явилася не вчора, до цього довго йшли. Еволюція зайняла років п’ять [з моменту появи першої версії GPT]. І наразі ми в точці, коли є ChatGPT, GPT 3.5, а незабаром вийде і четверта версія.

Google також проводить якісь досліди зі своєю мовною моделлю. Вони, найімовірніше, використовують LaMDA. Один із вдалих експериментів — застосування мовної моделі у функції планування.

Тобто, мовній моделі дається завдання, наприклад, «мені потрібно принести пляшку пива». Потім мовна модель генерує алгоритм дії: «під’їхати до холодильника — підняти руку — відкрити двері — узяти пляшку — закрити двері — розвернутися — привезти пляшку».

Далі цей алгоритм парситься та виконується. Результати вийшли добрі.

Це можна назвати проявом інтелекту?

Мовні моделі, зокрема GPT, це вже хороший прояв інтелекту. Років п’ять тому, коли ШІ виконував вузькоспеціалізовані завдання, я говорив: «Люди зрозуміють, що штучний інтелект уже прийшов, коли алгоритми виконуватимуть більш широкий спектр завдань, якщо не краще за людину, то хоча б на рівні».

ChatGPT та GPT зокрема — величезний крок у цьому напрямі. По суті, це одна модель, яка добре вирішує багато завдань, навіть ті, які й не передбачалися.

Це така мультизадачна штука, яка розвиватиметься в напрямі мультимодальності, тобто, вона поєднуватиме різні алгоритми в єдині системи. Точніше це вже відбувається. Може ви бачили серіал Nothing Forever на Twitch? Де поєднали генератор зображень та текстову модель, які безперервно створюють сценарій та малюють зображення.

Якщо ці моделі існують давно, у чому секрет успіху ChatGPT?

На мій погляд, зручний інтерфейс для взаємодії є дуже вдалим моментом. Це як було з [протоколом] HTTP. Його зручно дивитися та налагоджувати, уже потім на нього начепили всім знайомий нам інтернет.

OpenAI примітні тим, що вони де-факто монополісти. Як піонери технології, у них чудова команда та практично необмежені ресурси від Microsoft [завдяки угоді на $10 млрд].

Я впевнений, що там не вся сума у вигляді грошей. Дуже багато вирішує сервіс Azure та їхні сервери, до яких OpenAI має безлімітний доступ.

Зараз це особливо цінно, бо банально не вистачає обчислювальних потужностей. У Amazon і Google їх немає в достатній кількості. Навіть ми, як невеликий стартап, якому багато серверів не треба, регулярно стикаємось із проблемами. На кшталт, ось наші гроші, але їх не можуть узяти, бо немає доступних ресурсів.

І наразі звичайному стартапу дуже складно конкурувати у фундаментальному напрямі діалогових моделей. Натренувати її з нуля — дорого, дуже дорого, і таких ресурсів у невеликих стартапів немає.

Тому ChatGPT — дуже сильна монополія.

Про синтетичних людей

Якщо вже мова зайшла про ваш стартап, Pheon, розкажи про нього докладніше.

Це digital-cloning стартап. Технологія клонування людей, створення цифрових копій. По суті, згенероване відео, на якому людина виглядає і звучить так само, як у житті, і говорить приблизно те саме, що й оригінал.

Допустимо, клон Ілона Маска. На запитання: «Де ти працюєш?» він відповість: «Я – CEO Tesla Motors, SpaceX, Neuralink, Twitter» і що там у нього ще є.

Як у вас народилася така ідея?

Починалося все з пошуку. На цьому етапі ми перебирали всі можливі варіанти ШІ-продуктів із новими та перспективними технологіями. Назбирали багато варіантів, з яких обрали п’ять найкращих та презентували профільним інвесторам.

Ідея із цифровими людьми викликала найбільший інтерес, тому вирішили на ній сфокусуватися.

Окрім цього, про неї давно вже говорять, знімають серіали на кшталт «Чорного дзеркала». До нас [в Hey Machine Learning] приходив замовник, який хотів щось подібне зробити — «оживити» покійного дідуся. Ми дослідили можливі варіанти, але тоді із цим все було погано.

Наразі питання технологічного ризику не стоїть. У тому чи іншому вигляді вони вже існують.

Синтетичні люди — перспективна ніша?

Це як GPS, коли перестала бути суто військовою системою та «пішла в народ». На її основі з’явилися сервіси на кшталт Uber, Glovo, Google Maps, отримала розвиток галузь дронів.

Отак і з цифровими людьми — фундаментальна технологія, поверх якої можна будувати багато різних застосувань. Можна оцифровувати знаменитостей та пов’язати їхні копії з освітніми курсами, вивченням мов. Наприклад, вивчити іспанську з Бейонсе.

Це може бути консалтингова історія. Багато юридичних кейсів на кшталт відкриття компанії за законами штату Делавер, подання податкової декларації та складання звітів піддаються формалізації. Такий обсяг роботи, з яким людина не впорається, легко зробить цифровий юрист.

Ще приклад — коуч-мотиватор, який допомагає досягати мети на кшталт регулярного відвідування спортзалу. Він зможе нагадувати про необхідність ходити на тренування, контролювати виконання вправ на різні частини тіла, сперечатися про певні моменти.

І є багато застосувань, про які ми й не здогадуємось. Ця індустрія тільки-но починає з’являтися. Ми наразі знаходимося в пошуку великого ринку для цієї історії.

Як відбувається процес цифрового клонування? Припустимо, я селебріті, хочу створити свою копію. Що мені для цього потрібно зробити?

Ми вже маємо рішення для селф-онбордингу, де можна створити клон. Зараз це в простому варіанті, де ти описуєш коротку біографію людини, важливі факти про неї, характер. І завантажуєш відео, зняте хоч із селфі-камери смартфона, де вона щось каже.

Ці дані використовуються нейромережами для того, щоб згенерувати персональні відеовідповіді.

Звучить доволі просто. Пригадую кейс, коли оцифрували словацького баскетболіста Луку Дончича. Його довго фотографували в студії під різними кутами, записували зразки голосу тощо. Чи сильно ваш підхід страждає в якості кінцевого результату?

На початку ми також мали високі вимоги до контенту. Для цього треба було орендувати студію, що в Америці не дешево. Сплатити роботу оператора, продюсера, декілька годин знімати контент, налаштувати ідеальне світло, положення голови в кадрі.

Згодом вимоги до контенту знизилися до селфі-відео на п’ять секунд.

Чи маєте ви захист від несанкціонованого використання? Щоб не створювали клонів зірок та не розповсюджували за їх допомогою токсичний контент?

Звичайно. Наші нейромережі фільтрують контент. Є модель, яка тренується на таких датасетах, щоб мінімізувати кількість непристойного, грубого чи токсичного контенту. Це щодо текстових запитів.

У відео все це може вирішуватися водяними знаками, дисклеймерами в самому застосунку.

Але поки що в технології генерування є низка обмежень. Іноді в певних кадрах можуть з’явитися артефакти, роздільна здатність картинки також обмежена. Тобто за такими маркерами можна визначити чи реальний контент.

Але це питання часу, коли технологія в 99% випадків буде відмінною від відео, що записано на камеру.

Ви фіксували спроби згенерувати щось неприйнятне? Чи помічали помилки самого застосунку?

Нерідкий випадок, коли приходить людина створювати двійника, але замість свого селфі завантажує відео з якимось каченятами. Або записує YouTube разом з інтерфейсом.

Хоч ми і спростили поріг входу, для великої кількості користувачів зняти якісний контент — це не простий процес. Через низку технічних та психологічних причин.

Якщо хтось скопіює образ, скажімо, Кім Кардаш’ян без дозволу. Хто відповідатиме за це?

Якщо ти робиш свій застосунок й генеруєш контент, то й повинен володіти правами на використання образу.

У нас була ситуація з AppStore, коли ми зробили застосунок під одного селебріті. Apple відхилила заявку та запросила документи, що підтверджують права на використання образу.

Ми їм надіслали відповідні папери і, у результаті, застосунок допустили до публікації.

На UGC-майданчиках відповідальність за контент лежить на користувачах. Платформа має лише модерувати. У разі виникнення спірних ситуацій необхідно розбиратися, порушені права чи ні.

Про війну

Основна частина вашої команди була зосереджена в Харкові. Як початок повномасштабного вторгнення вплинув на роботу?

Це риторичне питання для всіх, хто на початку війни був в Україні. Звісно, на нас це вплинуло негативно. Порушилися процеси, на перший план вийшли питання безпеки. З Харкова довелося евакуюватися.

Частина людей роз’їхалася. А я великий противник дистанційної роботи: вважаю, що команда має працювати разом, бо швидкість комунікації та саме спілкування дуже вирішують.

Чимало крутих ідей з’являється у випадкових діалогах. Та й банально щось пояснити, показати, проговорити робочі моменти — це швидше робити у форматі віч-на-віч.

Вам вдалося зберегти склад команди?

У нас одна людина пішла воювати. Решта команди збереглася.

Чи вдалося вам через рік повернути минулий темп роботи?

Так, перфоманс повернувся до довоєнного рівня. Важко було перші декілька місяців.

Говорячи про війну, як ти вважаєш, на скільки етично використовувати ШІ на полі бою?

Абсолютно припустимо, чому ні? Чому людський інтелект етично використовувати, а штучний — ні? Їхня відмінність лише в тому, що людський — народився, а штучний — зібрали.

І якщо роботи зможуть воювати один з одним, люди перестануть страждати. Але це утопія.

Про загальний ШІ

Зараз ШІ став масовим явищем, хоча ще зовсім недавно він був більш цікавий ґікам і цільовій спільноті. Що змінилося останніми роками?

Років 5 тому я виступав із презентацією про ШІ в Харківському національному університеті радіоелектроніки. Утім, відтоді вона не втратила актуальності. З’явилися якісь нові напрацювання, ті ж самі Diffusion або ChatGPT.

Попередником цього стало залізо, доступність обчислювальних потужностей. Органічно росте ком’юніті, з’являється більше спеціалістів, «зірок» галузі. Відповідно, ця спільнота й робить більше досліджень, більше нових та якісних інструментів.

Стає більше даних, їх стало простіше зберігати та дешевше обробляти. Тобто передумова — це економіка.

Як на тебе, чи був якийсь переломний момент, або все розвивалося своєю чергою?

А що таке переломний момент?

Сталося щось таке, що поділило на «до» та «після».

А що таке «до» та що таке «після»?

Наприклад, коли вийшла DALL-E і виявилося, що зображення можна генерувати за текстовим запитом.

DALL-E далеко не перший, було багато інших рішень. Вони були гіршими за якістю, генерували більш «ЛСД-шні» зображення.

Звичайно DALL-E, GPT — це майлстоуни. Певною мірою це все переломні моменти. Але для мене це одна природна безперервна еволюція.

Років п’ять тому ми обговорювали чат-ботів та говорили, що ця технологія вже відходить на задній план. Ти міг тоді припустити, що у 2023 році чат-бот буде настільки популярним?

Я тоді не думав, що чат-бот є зручним інтерфейсом для штучного інтелекту.

Але й зараз є невелика різниця між тим, що людина спілкується з іншою людиною чи ботом. Навіть дуже розумним роботом.

Тут уже присутній психологічний бар’єр. Дружба – це не просто листування. Це тривалий процес вибудовування стосунків, наявність спільних моментів, спогадів, захоплень.

Спілкування у форматі листування — одна зі складових дружби. І чат-боти її не замінюють.

Але навіть у поточному вигляді вони можуть створювати певну прив’язаність. Особливо це помітно серед самотніх людей, які шукають підтримку.

Втім, все це еволюціонуватиме та обростатиме психологічними факторами. Таким чином роботи будуть сприйматися більш живими.

А якщо не як спілкування, а як обслуговування. Якби тобі подавав страви в ресторані робот, ти б почував себе комфортно?

Звичайно, є потреба в людському спілкуванні, але й водночас немає претензій до ботів. Я нещодавно заходив у кафешку, де за готування відповідають машини. Там працює, усього одна людина, яка встановлює капсули з макаронами та соусами в цих роботів. Вони все це змішують, підігрівають, готують, а ти спостерігаєш за процесом і через 15 хвилин у тебе готове замовлення.

Їжа до смаку нічим не відрізняється від страв шеф-кухаря. Це, звичайно, не «Мішлен», скоріше ближче до домашніх макарошок. Але це звичайна, їстівна їжа.

Вишукана кухня теж може прийти до цього в процесі природної еволюції.

Так, приємно, коли приходить офіціант, дбає про комфорт гостя. Машини поки що не можуть їх замінити, бо немає таких технологій. 

Які сектори ШІ ти вважаєш найбільш перспективними?

Та загалом ШІ дуже перспективна галузь. Як сказав Ендрю Ин, штучний інтелект — це нова електрика.

Що розвиватиметься? З того, що зараз у тренді, власне, мовні моделі. Вони стануть фундаментом для ШІ. Якщо говорити про вектор розвитку — мультимодальність.

Поверх моделей будуть додаватися нові інтерфейси, окрім текстових. Це можуть бути системи ухвалення рішень для роботів, генератори сценаріїв для відео, військові технології.

Наскільки сильно автоматизація вплине на ринок праці? Чи залишаться люди без роботи?

Без діла люди не залишаться. А роботу можна вигадати з будь-якої діяльності. Можна перекваліфікуватися, наприклад, на тестувальника.

Якісь області почнуть трансформуватися. З очевидного — копірайтинг.

Незважаючи на те, що алгоритми можуть створити великі обсяги зображень, дизайнерів вони не замінять. Вони трансформують ремесло.

З тим же GPT — запит необхідно правильно сформувати. Тож може з’явитися така робота — промпт-інжиніринг. Фахівець, який формуватиме правильне завдання для ШІ.

На даний момент людина має велику перевагу. З нього можна спитати, коли щось пішло не так. Із чат-ботом так не вийде. Це ще одна причина, чому люди не скоро залишаться без роботи.

Я нещодавно побачив світлину в інтернеті, де в магазині з роботами-пилососами прибиральниця миє підлоги. Я завжди згадую її, коли кажуть, що люди залишаться без роботи.

Дані: Twitter-аккаунт Keisinger.

Що на рахунок загального ШІ, як швидко він настане? І чи потрібний він нам взагалі?

Він уже з’явився. Той самий GPT — це AGI.

На темі «що таке загальний ШІ» можна спекулювати, бо немає єдиної думки. У моєму розумінні, це одна система, один мозок, архітектура, яка може вирішувати широкий спектр завдань.

ChatGPT є такою. Вона вирішує широкий спектр завдань, яким навіть не навчалася. І ця здатність набиратиме обертів.

У теорії ChatGPT зміг би пройти тест Тюрінга, і звичайна людина не здогадалася б із ким спілкується?

Навіть у нас є люди, які спілкуються з клоном, та запитують: “Ти жива людина? Давай поспілкуємося по телефону». І скидають у чат свій номер.

У людей присутні сумніви. Отже тест Тюрінга на цьому етапі пройдено.

Років п’ять тому AGI був дуже дурним. Та й зараз йому далеко до людини. Але мине якийсь час і ШІ зрівняється з людьми. Це чудово, це привнесе розвиток.

Наразі дослідники та математики дуже обмежені в когнітивних здібностях. Ми маємо бар’єр: розмір мозку, кількість нейронів. І ми не можемо його подолати.

А в штучного інтелекту буде перевага, він зможе знаходити більш глибокі закономірності, про які ми навіть не підозрюємо. Вигадувати нові сенси, недоступні людського розуму.

AGI зможе створювати якісь нові прилади, генерувати нові поняття, і всім від цього буде добре.

Якщо роботи, звісно, нас усіх не знищать. Але хороша новина в тому, що це навряд чи станеться за нашого життя.

Інтерв’ю взяли Богдан Камінський та Марина Глайборода

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK