Nvidia представила систему для навчання роботів


Дослідники Nvidia, Carnegie Mellon University та Каліфорнійського університету в Берклі представили ENPIRE — фреймворк, що дає змогу агентам ШІ для програмування покращувати політики керування роботами на реальному обладнанні.
Система запускає замкнений цикл: робот виконує завдання, середовище автоматично оцінює результат і повертається у вихідний стан, а агент ШІ аналізує помилки, переписує код і запускає наступну серію випробувань.
Як працює ENPIRE
У робототехніці навчання на реальному обладнанні залишається дорогим і повільним процесом. Після невдалої спроби потрібно повернути сцену у вихідний стан, перевірити результат, змінити алгоритм і знову провести тест. Зазвичай частина цієї роботи потребує участі інженерів.
ENPIRE переносить у фізичний світ підхід, який у Nvidia називають AutoResearch: агенти ШІ пишуть код, тестують його та вдосконалюють у наступних ітераціях. Втім, на відміну від цифрового середовища, тут кожен експеримент пов’язаний із реальними роботами, камерами, об’єктами, помилками захоплення, тертям та іншими фізичними обмеженнями.
Фреймворк складається з чотирьох модулів:
- Environment відповідає за автоматичне скидання сцени, перевірку результату, логування та інтерфейси безпеки;
- Policy Improvement запускає покращення політики керування;
- Rollout оцінює політику на одному або кількох фізичних роботах;
- Evolution дає змогу агентам аналізувати логи, шукати ідеї в літературі, змінювати інфраструктуру навчання та виправляти код.
Після первинного налаштування середовища цикл може йти без постійного нагляду людини. Агент отримує дані з відео, траєкторій і функції винагороди, пропонує нову гіпотезу, змінює код, тестує результат на роботові та зберігає зміни, якщо вони покращують показник.
Навіщо потрібні автоматична перевірка й скидання
Ключовий елемент ENPIRE — автоматизація двох операцій: перевірки результату і повернення сцени у вихідний стан. Перша потрібна, щоб система могла самостійно визначити, чи виконано завдання. Наприклад, у сценарії з кабельною стяжкою функція оцінювання поєднувала детектор, сегментаційну модель і перевірку за двома камерами. Так агент отримував сигнал успіху або помилки без ручної розмітки кожного прогона.
Автоматичне скидання дає змогу запускати багато спроб поспіль. Після невдалої дії робот має повернути об’єкт або сцену в стан, придатний для наступного експерименту. Без цього навчання на реальному обладнанні швидко впирається в необхідність постійної участі людини.
Як зазначили в Decrypt, на першому етапі людина допомагає агентові створити постійні інструменти — процедуру скидання і функцію винагороди. Після цього їх використовують повторно, а агент бере на себе подальше поліпшення політики.
Що показали на роботах
У реальних експериментах команда тестувала ENPIRE на кількох завданнях маніпуляції. Push-T перевіряє, чи може робот штовхати Т-подібний об’єкт у задану зону. Pin Insertion вимагає вставляти штифти у отвори діаметром 4 мм. Також показані встановлення GPU і операції з кабельною стяжкою.

На сторінці проєкту Nvidia вказано, що в реальних завданнях маніпуляції система успішно справлялася із завданням у 99% випадків, якщо агентові давали до восьми спроб з урахуванням попередніх помилок. Показник відображає здатність системи відновлюватися після невдач і повторювати дії з огляду на контекст, а не точність однієї ізольованої спроби.
Як агентів для програмування команда порівняла Codex на GPT-5.5, Claude Code на Opus 4.7 і Kimi Code на Kimi K2.6. Оцінювання проходило в бенчмарку AutoEnvBench на завданнях Push-T і Pin Insertion.

Дослідники також перевірили ENPIRE в RoboCasa — симуляторі побутових завдань на кшталт відкривання шаф, шухляд і вмикання або вимикання об’єктів на кухні. У цих сценаріях ENPIRE перевершив GR00T від Nvidia та CaP-X — агентну систему, що використовує інструменти, але не запускає повний цикл автоматичного дослідження.
Вісім роботів пришвидшили навчання
Окремий блок роботи присвячений масштабуванню на парк роботів. Nvidia провела експеримент на восьми роботизованих станціях із двома маніпуляторами. Кожна мала власні обладнання, комп’ютер і агента ШІ для програмування.
Станції обмінювалися результатами через Git: вдала ідея або зміна коду могли швидко поширюватися між агентами. Такий підхід дозволив скоротити час навчання. За даними Decrypt, перехід від одного робота до восьми зменшив час освоєння Push-T приблизно з п’яти до двох годин. Для Pin Insertion час знизився з понад 90 хвилин до близько 40 хвилин.
Обмеження
Автори підкреслили, що масштабування не розв’язує всіх проблем. Коли агенти читають логи, пишуть код, налагоджують його або чекають на відповідь базової мовної моделі, роботи та обчислювальні ресурси використовуються не повністю. Із ростом числа роботів зростає активність GPU, але середнє завантаження самих роботів знижується. Команди агентів витрачають більше часу на узагальнення результатів інших гілок і координацію, а не лише на фізичні прогони.
Ще одне обмеження — зростання споживання токенів. Більший парк роботів швидше приводить політику до робочого стану, але потребує більше токенів через читання логів, обмін ідеями та координацію між агентами.
Крім того, ENPIRE поки показано на обмеженому наборі завдань маніпуляції. Його результати не означають, що роботи вже можуть самостійно опановувати довільні фізичні навички у відкритому середовищі без інженерної підготовки.
Нагадаємо, у червні Nvidia представила Isaac GR00T Reference Humanoid Robot — дослідницький референс-дизайн для розробки й тестування навичок гуманоїдних роботів. У конфігурацію увійшли корпус Unitree H2 Plus і тактильні п’ятипалі кисті Sharpa Wave.
Раніше Unitree представила «першого у світі готового до серійного виробництва» пілотованого робота. Андроїд здатен пересуватися на двох і чотирьох кінцівках.