ManualVLA: фреймворк, улучшающий роботизированное планирование с помощью мультимодальных руководств

Diagrama o captura de pantalla que muestra la arquitectura ManualVLA, con un robot manipulando piezas de LEGO junto a una interfaz que genera manuales paso a paso con imágenes, texto e indicaciones de posición.

ManualVLA: фреймворк, улучшающий роботизированное планирование с помощью мультимодальных инструкций

Модели Видение-Язык-Действие (VLA) выделяются своей способностью к обобщению, но спотыкаются при столкновении с сложными задачами, требующими четкого целевого состояния, такими как сборка конструкций или реорганизация объектов. Их основная проблема — координация планирования высокого уровня с точной манипуляцией. Чтобы решить это, представлен ManualVLA, унифицированный фреймворк, который позволяет модели VLA выводить процесс как из результата что, преобразовывая абстрактные цели в последовательности исполняемых действий. 🤖

Архитектура с двумя экспертами и направленным рассуждением

ManualVLA основан на архитектуре Mixture-of-Transformers (MoT). Вместо прямого отображения сенсорных восприятий на моторные команды, он вводит crucial промежуточный шаг. Сначала эксперт по планированию генерирует промежуточные мультимодальные инструкции. Эти инструкции интегрируют изображения, пространственные указания и текстовые инструкции. Затем процесс Manual Chain-of-Thought (ManualCoT) направляет эти инструкции к эксперту по действиям. Каждый шаг инструкции предоставляет явные условия управления, в то время как его латентное представление служит неявным руководством для точной манипуляции.

Ключевые компоненты системы:

Эксперт-планировщик: Генерирует подробные инструкции, разбирающие конечную задачу на понятные и исполняемые шаги.
ManualCoT: Механизм рассуждения, структурирующий и передающий информацию из инструкции эксперту по выполнению действий.
Эксперт по действиям: Переводит мультимодальные инструкции в точные и скоординированные роботизированные движения.

ManualVLA достигает в среднем на 32% более высокой успешности по сравнению с лучшей предыдущей иерархической моделью в задачах сборки LEGO и реорганизации объектов.

Автоматическая генерация обучающих данных

Обучение эксперта по планированию требует большого количества данных инструкций, сбор которых вручную очень затратен. Чтобы преодолеть это препятствие, команда разработала набор инструментов цифрового двойника на основе техники 3D Gaussian Splatting. Этот набор автоматически производит данные инструкций высокого качества, что позволяет эффективно и масштабируемо обучать планировщик без зависимости от обширных человеческих аннотаций.

Преимущества набора инструментов цифрового двойника:

Создание реалистичных и разнообразных синтетических данных для обучения моделей сложного планирования.
Значительное снижение нагрузки и затрат, связанных со сбором данных из реального мира.
Возможность тестирования и уточнения инструкций в симулированной среде перед физическим выполнением.

Последствия и будущие перспективы

Этот подход не только улучшает то, как роботы планируют и выполняют сложные задачи манипуляции, но и упрощает процесс их программирования для следования инструкциям с нуля. Закрывая разрыв между конечной целью и необходимыми шагами для ее достижения, ManualVLA представляет значительный прогресс к более автономным и способным роботам. Фреймворк устанавливает новый парадигму, где генерация четких процедур является центральной для надежной и устойчивой роботизированной манипуляции. 🧩