DOMINO e PUMA: Avançando na Manipulação Robótica Dinâmica com VLA

Publicado em 17 de March de 2026 | Traduzido do espanhol

Os modelos Visão-Linguagem-Ação (VLA) dominam a manipulação estática, mas seu desempenho cai em cenários dinâmicos com objetivos em movimento. Esse gargalo se deve à falta de dados de treinamento específicos e a arquiteturas que dependem de observações de um único instante, limitando seu raciocínio espaço-temporal. Apresentamos DOMINO, um dataset massivo para manipulação dinâmica, e PUMA, uma arquitetura VLA que integra fluxo óptico histórico para uma percepção com consciência do movimento. 🤖

Braço robótico interagindo com um cubo em movimento sobre uma superfície, ilustrando manipulação dinâmica.

Metodologia: Dataset DOMINO e Arquitetura PUMA para Previsão Implícita 🧠

DOMINO é um benchmark integral com 35 tarefas de complexidade hierárquica, mais de 110.000 trajetórias expertas e um sistema de avaliação multidimensional. Para explorar esses dados, propomos PUMA, uma arquitetura que supera a limitação da observação única. PUMA integra de forma inovadora fluxo óptico histórico centrado na cena e world queries especializadas. Esse design acopla a percepção do contexto histórico com uma previsão de curto horizonte, permitindo ao modelo inferir implicitamente estados futuros dos objetos em movimento, o que é crucial para interagir com eles com sucesso.

Consciência Dinâmica: Uma Melhoria que Transcende o Dinâmico ⚡

Os resultados mostram que PUMA alcança uma melhoria absoluta de 6,3% na taxa de sucesso sobre os baselines em tarefas dinâmicas. Além disso, o treinamento com dados dinâmicos de DOMINO gera representações espaço-temporais robustas que melhoram o desempenho mesmo em tarefas de manipulação estática. Isso sugere que a consciência dinâmica não é um módulo especializado, mas uma capacidade fundamental que enriquece a compreensão geral do robô sobre seu ambiente.

Como os modelos VLA (Visão-Linguagem-Ação) podem superar as limitações da manipulação estática para lidar de forma robusta com a interação dinâmica em tempo real com objetos em movimento?

(PD: Simular robôs é divertido, até que decidem não seguir suas ordens.)