Alibaba презентувала набір ШІ-моделей для керування роботами


Alibaba представила Qwen-Robot Suite — набір ШІ-моделей для роботів і завдань у фізичному середовищі: Qwen-RobotNav для навігації, Qwen-RobotManip для дій з об’єктами та Qwen-RobotWorld для прогнозування розвитку сцени. Команда описала проєкт як «повний стек для втіленого штучного інтелекту».
Introducing the Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, three foundation models, a full stack for embodied intelligence.
Qwen-RobotNav — the gateway to mobility.
• Unifies 5 navigation tasks in one model: instruction following, point-goal,… pic.twitter.com/noumjTtTeS— Qwen (@Alibaba_Qwen) June 16, 2026
Йдеться про програмні моделі, що мають допомагати фізичним агентам сприймати довкілля, планувати дії та виконувати команди природною мовою. Qwen-Robot Suite уже проходить пілотні випробування в окремих корпоративних клієнтів Alibaba Cloud у сфері робототехніки.
Навіщо Alibaba виводить Qwen у фізичний світ
Великі мовні та мультимодальні моделі вже вміють працювати з текстом, зображеннями, відео й мовленням, але цього недостатньо для роботів. Фізичним агентам потрібно не лише розуміти команду, а й перетворювати її на рух, враховувати простір, властивості об’єктів, обмеження сенсорів і наслідки дій.
В Alibaba це називають напрямом physical AI, або «втіленого ШІ». У такій парадигмі модель має працювати не лише з цифровими даними, а й із фізичним середовищем: переміщуватися, знаходити об’єкти, керувати маніпуляторами та прогнозувати, що відбудеться після дії.
Qwen-RobotNav: п’ять завдань навігації в одній моделі
Qwen-RobotNav відповідає за навігацію. Модель об’єднує п’ять груп завдань:
- виконання інструкцій;
- рух до заданої точки;
- пошук об’єктів;
- відстеження цілі;
- автономне водіння.
За даними Alibaba, Qwen-RobotNav побудована на базі Qwen3-VL і навчена на 15,6 млн зразків, пов’язаних із плануванням маршрутів і візуально-мовним міркуванням.
Компанія заявила про 76,5% успішності на VLN-CE RxR і 90% на EVT-Bench. В Alibaba також уточнили, що модель може працювати як інструмент для більших агентних систем: верхньорівнева модель планує задачу, а Qwen-RobotNav відповідає за переміщення.

У демонстраціях Alibaba описує сценарії на кшталт пошуку загубленого предмета в приміщенні чи перевірки, чи відкритий конкретний об’єкт у будівлі. У таких завданнях робот має не просто рухатися, а збирати візуальні докази та повертати відповідь користувачу.
Qwen-RobotManip: дії з об’єктами
Qwen-RobotManip призначена для фізичних дій з об’єктами. Модель має допомагати роботам брати, переміщати й розміщувати предмети, а також переносити навички між різними типами пристроїв.

Одна з ключових проблем робототехніки полягає в тому, що роботи описують дії по-різному. Маніпулятор, дворукова платформа, робот із рукою чи мобільна система використовують різні системи координат, шарніри та формати команд. Qwen-RobotManip намагається привести ці дані до спільного представлення, щоб навчання на одному типі робота допомагало іншому.
Для навчання Alibaba використала понад 38 100 годин даних. До цього обсягу увійшли 11 320 годин відкритих робототехнічних даних, 1933 години відео дій людини від першої особи та 24 808 годин синтетичних роботичних демонстрацій, створених на основі таких відео.
Компанія заявила, що модель посіла перше місце в RoboChallenge Table30 v1 у треку універсальних моделей. За даними Alibaba, Qwen-RobotManip також продемонструвала стійкість до нових інструкцій, незнайомих об’єктів і перенесення навичок між різними роботами.
Qwen-RobotWorld: модель світу для роботів
Qwen-RobotWorld — відеомодель світу, керована природною мовою. Вона має прогнозувати, як розвиватиметься сцена після заданої дії.

Наприклад, модель отримує поточне спостереження і текстову команду, а тоді генерує імовірний майбутній стан середовища. Підхід придатний для маніпуляцій, автономного водіння, навігації, планування та створення синтетичних навчальних даних для роботів.
Для навчання Qwen-RobotWorld команда зібрала корпус Embodied World Knowledge. Він містить 8,6 млн пар «відео-текст» і понад 200 млн кадрів, охоплює більш як 20 типів роботизованих платформ і понад 500 категорій дій.
Alibaba заявила, що Qwen-RobotWorld посіла перше місце в EWMBench і DreamGen Bench, а також перевершила всі відкриті моделі у WorldModelBench і PBench. У технічному описі також стверджується, що модель демонструє високу узгодженість із базовими фізичними закономірностями — рухом, збереженням маси, рідинами та гравітацією.
До масових роботів ще далеко
Попри заявлені результати, Qwen-Robot Suite поки лишається набором моделей, а не готовою споживчою робототехнічною платформою. Реальне впровадження наштовхується на шум сенсорів, знос приводів, нестандартні ситуації, помилки сприйняття й величезну кількість рідкісних сценаріїв. Багато бенчмарків, на яких порівнюють такі системи, проходять у симуляції або в обмежених експериментальних умовах.
Alibaba також не розкрила вартість доступу, строки публічного запуску та список клієнтів, які вже тестують Qwen-Robot Suite.
Нагадаємо, у квітні Alibaba Cloud представила агентну модель Qwen3.6-Plus із контекстним вікном 1 млн токенів і підтримкою зовнішніх інструментів.