ByteDance представила ШІ-мозок для побутових роботів

Компанія ByteDance, що володіє TikTok, презентувала систему GR-3 — мультимодальну ШІ-модель типу «зір-мова-дія», яка виконує роль мозку для роботів. Вона дозволяє їм розуміти людські команди й виконувати повсякденні дії — наприклад, прибирати стіл або вішати одяг.

GR-3 забезпечує роботів здатністю працювати з незнайомими об’єктами, орієнтуватися в новому середовищі та реагувати на абстрактні поняття — як-от розмір чи просторове розташування. Система дає змогу виконувати завдання за єдиною мовною інструкцією, без необхідності попереднього навчання на конкретних предметах.

У демонстраційному відео робот ByteMini з двома руками вставляє вішалку в сорочку та акуратно розміщує її на стійці.

У технічному звіті команда зазначила, що робот успішно працює з одягом із короткими рукавами, хоча в тренувальних даних були лише речі з довгими. Система може знаходити об’єкти не лише за назвою, а й за характеристиками на кшталт «велика тарілка» або «той, що зліва».

ByteDance використала кількарівневий підхід до навчання GR-3, який включає:

  • спільне навчання на масштабних датасетах зображень і тексту;
  • дофінетинг на людських траєкторіях, зібраних через VR-пристрої;
  • налаштування моделі методом імітації дій андроїда.

«Ми сподіваємося, що GR-3 стане кроком до створення універсальних роботів, які зможуть допомагати людям у повсякденному житті», — зазначили розробники.

Нагадаємо, у січні стартап Perplexity AI запропонував ByteDance об’єднати американський TikTok, саму Perplexity та нових інвесторів у спільну юридичну структуру.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK