1 Archivos adjunto(s)
ManualVLA mejora la planificación robótica con manuales multimodales
Los modelos Visión-Lenguaje-Acción (VLA) muestran una gran capacidad para generalizar en tareas robóticas. Sin embargo, cuando deben completar tareas complejas que requieren un estado objetivo definido, como ensamblar LEGO o reorganizar objetos, les cuesta coordinar la planificación de alto nivel con la manipulación precisa. Para resolver esto, presentamos ManualVLA, un marco unificado que permite a un modelo VLA inferir el proceso cómo a partir del resultado qué, transformando metas en procedimientos ejecutables.
Un marco con dos expertos y un razonamiento guiado
ManualVLA se construye sobre una arquitectura Mixture-of-Transformers (MoT). En lugar de mapear entradas sensoriales directamente a acciones, primero un experto en planificación genera manuales intermedios. Estos manuales son multimodales e incluyen imágenes, indicaciones de posición e instrucciones de texto. Luego, un proceso de razonamiento Manual Chain-of-Thought (ManualCoT) alimenta estos manuales al experto en acción. Cada paso del manual proporciona condiciones de control explícitas, mientras que su representación latente ofrece una guía implícita para manipular con precisión.
Generación automática de datos para entrenar
Recopilar datos manuales para entrenar al experto en planificación supone una gran carga. Para aliviarla, desarrollamos un kit de herramientas de gemelo digital basado en 3D Gaussian Splatting. Este kit genera automáticamente datos de manuales de alta fidelidad que se usan para entrenar al planificador. En pruebas del mundo real, ManualVLA logra una tasa de éxito promedio un 32% más alta que el mejor modelo jerárquico anterior en tareas de ensamblaje LEGO y reorganización de objetos.
Así que, si alguna vez te has quejado de que las instrucciones de montaje son confusas, imagina tener que programar a un robot para que las siga y, de paso, las genere desde cero.