I modelli Visione-Lingua-Azione (VLA) dominano la manipolazione statica, ma le loro prestazioni calano in scenari dinamici con obiettivi in movimento. Questo collo di bottiglia è dovuto alla mancanza di dati di addestramento specifici e ad architetture che dipendono da osservazioni di un solo istante, limitando il loro ragionamento spazio-temporale. Presentiamo DOMINO, un dataset massiccio per la manipolazione dinamica, e PUMA, un'architettura VLA che integra flusso ottico storico per una percezione con consapevolezza del movimento. 🤖
Metodologia: Dataset DOMINO e Architettura PUMA per Predizione Implicita 🧠
DOMINO è un benchmark integrale con 35 compiti di complessità gerarchica, oltre 110.000 traiettorie esperte e un sistema di valutazione multidimensionale. Per sfruttare questi dati, proponiamo PUMA, un'architettura che supera la limitazione dell'osservazione unica. PUMA integra in modo innovativo flusso ottico storico centrato sulla scena e world queries specializzate. Questo design accoppia la percezione del contesto storico con una predizione a breve orizzonte, permettendo al modello di inferire implicitamente stati futuri degli oggetti in movimento, ciò che è cruciale per interagire con essi con successo.
Consapevolezza Dinamica: Un Miglioramento che Trascende il Dinamico ⚡
I risultati mostrano che PUMA ottiene un miglioramento assoluto del 6.3% nel tasso di successo rispetto ai baseline in compiti dinamici. Oltre, l'addestramento con dati dinamici di DOMINO genera rappresentazioni spazio-temporali robuste che migliorano le prestazioni anche in compiti di manipolazione statica. Questo suggerisce che la consapevolezza dinamica non è un modulo specializzato, ma una capacità fondamentale che arricchisce la comprensione generale del robot del suo ambiente.
Come possono i modelli VLA (Visione-Lingua-Azione) superare le limitazioni della manipolazione statica per gestire in modo robusto l'interazione dinamica in tempo reale con oggetti in movimento?
(PD: Simulare robot è divertente, finché decidono di non seguire i tuoi ordini.)