Колишні інженери Google презентували ШІ для роботів «без навчання»


Стартап Physical Intelligence, заснований колишніми інженерами Google, представив модель π0․7. Розробники заявили про «якісний стрибок» у здатності ШІ узагальнювати навички й виконувати завдання, яким його не навчали безпосередньо.
Наша новітня модель, π0.7, має кілька цікавих емерджентних можливостей: вона може керувати новим роботом, щоб складати сорочки, для чого у нас не було даних зі складання сорочок, розібратися, як користуватися приладом, за допомогою мовних підказок, і виконувати широкий спектр спритнісних завдань — усе в одній моделі! pic.twitter.com/s9NxKfb7pe
— Physical Intelligence (@physical_int) 16 квітня 2026
Система належить до класу «зір—мова—дія» (Vision-Language-Action, VLA) і призначена для керування роботами.
На відміну від попередніх рішень, π0․7 продемонструвала ознаки композиційного узагальнення — здатності комбінувати раніше засвоєні навички для розв’язання нових завдань.
Під час експериментів модель показала низку неочікуваних можливостей. Зокрема, π0.7 змогла керувати новим типом робота та складати футболки, попри відсутність навчальних даних для цієї конкретної платформи.
Композиційне узагальнення є ключовою можливістю великих моделей на кшталт LLM, але в робототехніці воно залишалося невловимим. Ще одна емерджентна здатність, яку ми виявили, — керувати новим роботом (UR5e) для складання футболок, хоча у нас не було жодних даних зі складання білизни на цьому роботі. pic.twitter.com/lAXYag002Z
— Physical Intelligence (@physical_int) 16 квітня 2026
Результати співставні з рівнем операторів, які мають сотні годин досвіду телекерування, зазначили розробники.
Інструмент також зміг розібратися з використанням раніше незнайомих пристроїв, зокрема кухонної техніки. Наприклад, робот виконав частину завдання з приготування батату в аерофритюрниці, хоча подібних сценаріїв у навчальній вибірці не було.
За словами розробників, це стало можливим завдяки об’єднанню розрізнених навичок — подібно до того, як мовні моделі комбінують знання з різних доменів.
Керування через мову і контекст
Однією з ключових відмінностей π0.7 стала можливість керувати не лише через команди «що робити», а й через уточнення «як робити».
Модель приймає:
- текстові інструкції;
- метадані (наприклад, швидкість і якість виконання);
- візуальні підцілі — зображення очікуваного результату кроку.
Деякі з підцілей допоміжна система може створювати прямо під час роботи. Це дає роботу змогу коригувати поведінку без додаткового навчання.
π0.7 обробляє різні підказки, які не лише кажуть, що робити, а й як це робити, включно з багатою мовою та мультимодальною інформацією, такою як зображення візуальних підцілей. Під час тестування ці зображення може створювати легка світова модель. pic.twitter.com/cbdovdVjBG
— Physical Intelligence (@physical_int) 16 квітня 2026
Такий підхід дає змогу об’єднувати дані з різних джерел — відео, телеметрію з роботів і автономно зібрані епізоди — в єдину навчальну систему.
Перший крок до «універсальних» роботів
У Physical Intelligence зазначили, що раніше подібні моделі потребували донавчання під кожне завдання — як ранні версії мовних моделей. Натомість π0.7 працює «з коробки» та адаптується до нових сценаріїв через мову.
Команда підкреслила: такий рівень узагальнення довго вважався сильною стороною LLM, але в робототехніці залишався недосяжним.
Попри прогрес, модель поки не завжди впорається зі складними завданнями без покрокових підказок. Втім за послідовних інструкцій якість виконання помітно зростає.
У майбутньому такі інструкції допоможуть навчати більш автономні машини, здатні діяти без людини. У Physical Intelligence вважають, що π0.7 демонструє перші ознаки переходу до універсальних роботів, які адаптуються до нових умов без ручного налаштування під кожне завдання.
Нагадаємо, у лютому компанія Carbon Robotics випустила ШІ-модель Large Plant Model, яка вміє розпізнавати види рослин для боротьби з бур’янами.