ByteDance представила ШІ-мозок для побутових роботів


Компанія ByteDance, що володіє TikTok, презентувала систему GR-3 — мультимодальну ШІ-модель типу «зір-мова-дія», яка виконує роль мозку для роботів. Вона дозволяє їм розуміти людські команди й виконувати повсякденні дії — наприклад, прибирати стіл або вішати одяг.
GR-3 забезпечує роботів здатністю працювати з незнайомими об’єктами, орієнтуватися в новому середовищі та реагувати на абстрактні поняття — як-от розмір чи просторове розташування. Система дає змогу виконувати завдання за єдиною мовною інструкцією, без необхідності попереднього навчання на конкретних предметах.
У демонстраційному відео робот ByteMini з двома руками вставляє вішалку в сорочку та акуратно розміщує її на стійці.
🚀🚀🚀 Ever wondered what it takes for robots to handle real-world household tasks? long-horizon execution, deformable object dexterity, and unseen object generalization — meet GR-3, ByteDance Seed’s new Vision-Language-Action (VLA) model!
GR-3 is a generalizable… pic.twitter.com/zECRjaXC0J
— Xiao Ma (@yusufma555) July 22, 2025
У технічному звіті команда зазначила, що робот успішно працює з одягом із короткими рукавами, хоча в тренувальних даних були лише речі з довгими. Система може знаходити об’єкти не лише за назвою, а й за характеристиками на кшталт «велика тарілка» або «той, що зліва».
ByteDance використала кількарівневий підхід до навчання GR-3, який включає:
- спільне навчання на масштабних датасетах зображень і тексту;
- дофінетинг на людських траєкторіях, зібраних через VR-пристрої;
- налаштування моделі методом імітації дій андроїда.
«Ми сподіваємося, що GR-3 стане кроком до створення універсальних роботів, які зможуть допомагати людям у повсякденному житті», — зазначили розробники.
Нагадаємо, у січні стартап Perplexity AI запропонував ByteDance об’єднати американський TikTok, саму Perplexity та нових інвесторів у спільну юридичну структуру.