Колишні інженери Google презентували ШІ для роботів «без навчання»

Стартап Physical Intelligence, заснований колишніми інженерами Google, представив модель π0․7. Розробники заявили про «якісний стрибок» у здатності ШІ узагальнювати навички й виконувати завдання, яким його не навчали безпосередньо.

Система належить до класу «зір—мова—дія» (Vision-Language-Action, VLA) і призначена для керування роботами. 

На відміну від попередніх рішень, π0․7 продемонструвала ознаки композиційного узагальнення — здатності комбінувати раніше засвоєні навички для розв’язання нових завдань.

Під час експериментів модель показала низку неочікуваних можливостей. Зокрема, π0.7 змогла керувати новим типом робота та складати футболки, попри відсутність навчальних даних для цієї конкретної платформи.

Результати співставні з рівнем операторів, які мають сотні годин досвіду телекерування, зазначили розробники. 

Інструмент також зміг розібратися з використанням раніше незнайомих пристроїв, зокрема кухонної техніки. Наприклад, робот виконав частину завдання з приготування батату в аерофритюрниці, хоча подібних сценаріїв у навчальній вибірці не було.

За словами розробників, це стало можливим завдяки об’єднанню розрізнених навичок — подібно до того, як мовні моделі комбінують знання з різних доменів.

Керування через мову і контекст

Однією з ключових відмінностей π0.7 стала можливість керувати не лише через команди «що робити», а й через уточнення «як робити».

Модель приймає:

  • текстові інструкції;
  • метадані (наприклад, швидкість і якість виконання);
  • візуальні підцілі — зображення очікуваного результату кроку.

Деякі з підцілей допоміжна система може створювати прямо під час роботи. Це дає роботу змогу коригувати поведінку без додаткового навчання.

Такий підхід дає змогу об’єднувати дані з різних джерел — відео, телеметрію з роботів і автономно зібрані епізоди — в єдину навчальну систему.

Перший крок до «універсальних» роботів

У Physical Intelligence зазначили, що раніше подібні моделі потребували донавчання під кожне завдання — як ранні версії мовних моделей. Натомість π0.7 працює «з коробки» та адаптується до нових сценаріїв через мову.

Команда підкреслила: такий рівень узагальнення довго вважався сильною стороною LLM, але в робототехніці залишався недосяжним.

Попри прогрес, модель поки не завжди впорається зі складними завданнями без покрокових підказок. Втім за послідовних інструкцій якість виконання помітно зростає.

У майбутньому такі інструкції допоможуть навчати більш автономні машини, здатні діяти без людини. У Physical Intelligence вважають, що π0.7 демонструє перші ознаки переходу до універсальних роботів, які адаптуються до нових умов без ручного налаштування під кожне завдання.

Нагадаємо, у лютому компанія Carbon Robotics випустила ШІ-модель Large Plant Model, яка вміє розпізнавати види рослин для боротьби з бур’янами. 

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version