DOMINO et PUMA : Avançant dans la Manipulation Robotique Dynamique avec VLA

Publié le 17 March 2026 | Traduit de l'espagnol

Les modèles Visión-Lenguaje-Acción (VLA) dominent la manipulation statique, mais leur performance chute dans des scénarios dynamiques avec des objectifs en mouvement. Ce goulot d'étranglement est dû au manque de données d'entraînement spécifiques et à des architectures qui dépendent d'observations d'un seul instant, limitant leur raisonnement espace-temporel. Nous présentons DOMINO, un dataset massif pour la manipulation dynamique, et PUMA, une architecture VLA qui intègre un flux optique historique pour une perception consciente du mouvement. 🤖

Brazo robótico interactuando con un cubo en movimiento sobre una superficie, ilustrando manipulación dinámica.

Méthodologie : Dataset DOMINO et Architecture PUMA pour Prédiction Implicite 🧠

DOMINO est un benchmark complet avec 35 tâches de complexité hiérarchique, plus de 110.000 trajectoires expertes et un système d'évaluation multidimensionnel. Pour exploiter ces données, nous proposons PUMA, une architecture qui surmonte la limitation de l'observation unique. PUMA intègre de manière novatrice un flux optique historique centré sur la scène et des world queries spécialisées. Ce design couple la perception du contexte historique avec une prédiction à court horizon, permettant au modèle d'inférer implicitement les états futurs des objets en mouvement, ce qui est crucial pour interagir avec eux avec succès.

Conscience Dynamique : Une Amélioration qui Transcende le Dynamique ⚡

Les résultats montrent que PUMA obtient une amélioration absolue de 6,3 % en taux de succès par rapport aux baselines dans les tâches dynamiques. Au-delà, l'entraînement avec les données dynamiques de DOMINO génère des représentations spatio-temporelles robustes qui améliorent les performances même dans les tâches de manipulation statique. Cela suggère que la conscience dynamique n'est pas un module spécialisé, mais une capacité fondamentale qui enrichit la compréhension générale du robot de son environnement.

Comment les modèles VLA (Visión-Lenguaje-Acción) peuvent-ils surmonter les limitations de la manipulation statique pour gérer de manière robuste l'interaction dynamique en temps réel avec des objets en mouvement ?

(PD : Simuler des robots est amusant, jusqu'à ce qu'ils décident de ne pas suivre tes ordres.)