Los modelos Visión-Lenguaje-Acción (VLA) dominan la manipulación estática, pero su rendimiento cae en escenarios dinámicos con objetivos en movimiento. Este cuello de botella se debe a la falta de datos de entrenamiento específicos y a arquitecturas que dependen de observaciones de un solo instante, limitando su razonamiento espacio-temporal. Presentamos DOMINO, un dataset masivo para manipulación dinámica, y PUMA, una arquitectura VLA que integra flujo óptico histórico para una percepción con conciencia del movimiento. 🤖

Brazo robótico interactuando con un cubo en movimiento sobre una superficie, ilustrando manipulación dinámica.

Metodología: Dataset DOMINO y Arquitectura PUMA para Predicción Implícita 🧠

DOMINO es un benchmark integral con 35 tareas de complejidad jerárquica, más de 110.000 trayectorias expertas y un sistema de evaluación multidimensional. Para explotar estos datos, proponemos PUMA, una arquitectura que supera la limitación de la observación única. PUMA integra de forma novedosa flujo óptico histórico centrado en la escena y world queries especializadas. Este diseño acopla la percepción del contexto histórico con una predicción de corto horizonte, permitiendo al modelo inferir implícitamente estados futuros de los objetos en movimiento, lo que es crucial para interactuar con ellos con éxito.

Conciencia Dinámica: Una Mejora que Trasciende lo Dinámico ⚡

Los resultados muestran que PUMA logra una mejora absoluta del 6.3% en tasa de éxito sobre los baselines en tareas dinámicas. Más allá, el entrenamiento con datos dinámicos de DOMINO genera representaciones espacio-temporales robustas que mejoran el rendimiento incluso en tareas de manipulación estática. Esto sugiere que la conciencia dinámica no es un módulo especializado, sino una capacidad fundamental que enriquece la comprensión general del robot sobre su entorno.

¿Cómo pueden los modelos VLA (Visión-Lenguaje-Acción) superar las limitaciones de la manipulación estática para manejar de forma robusta la interacción dinámica en tiempo real con objetos en movimiento?

(PD: Simular robots es divertido, hasta que deciden no seguir tus órdenes.)

DOMINO y PUMA: Avanzando en la Manipulación Robótica Dinámica con VLA

Metodología: Dataset DOMINO y Arquitectura PUMA para Predicción Implícita 🧠

Conciencia Dinámica: Una Mejora que Trasciende lo Dinámico ⚡