ManualVLA: un framework che migliora la pianificazione robotica con manuali multimodali

Pubblicato il 16 January 2026 | Tradotto dallo spagnolo
Diagramma o screenshot che mostra l'architettura ManualVLA, con un robot che manipola pezzi LEGO accanto a un'interfaccia che genera manuali passo-passo con immagini, testo e indicazioni di posizione.

ManualVLA: un framework che migliora la pianificazione robotica con manuali multimodali

I modelli Visione-Lingua-Azione (VLA) si distinguono per la loro capacità di generalizzare, ma inciampano quando affrontano compiti complessi che richiedono uno stato obiettivo chiaro, come assemblare strutture o riorganizzare oggetti. La loro principale sfida è coordinare la pianificazione di alto livello con la manipolazione precisa. Per risolvere questo, viene presentato ManualVLA, un framework unificato che permette a un modello VLA di dedurre il processo come a partire dal risultato cosa, trasformando obiettivi astratti in sequenze di azioni eseguibili. 🤖

Architettura con due esperti e ragionamento guidato

ManualVLA si basa su un'architettura Mixture-of-Transformers (MoT). Invece di mappare direttamente le percezioni sensoriali ai comandi motori, introduce un passaggio intermedio cruciale. Primo, un esperto di pianificazione genera manuali intermedi e multimodali. Questi manuali integrano immagini, indicazioni spaziali e istruzioni testuali. Poi, un processo di Manual Chain-of-Thought (ManualCoT) canalizza questi manuali verso un esperto di azione. Ogni passo del manuale fornisce condizioni di controllo esplicite, mentre la sua rappresentazione latente serve come guida implicita per manipolare con esattezza.

Componenti chiave del sistema:
  • Esperto Pianificatore: Genera manuali dettagliati che scompongono il compito finale in passi comprensibili ed eseguibili.
  • ManualCoT: Un meccanismo di ragionamento che struttura e alimenta le informazioni del manuale all'esperto di esecuzione delle azioni.
  • Esperto in Azione: Traduce le istruzioni multimodali del manuale in movimenti robotici precisi e coordinati.
ManualVLA raggiunge un tasso di successo medio del 32% più alto rispetto al miglior modello gerarchico precedente in compiti di assemblaggio LEGO e riorganizzazione di oggetti.

Generare dati di addestramento in modo automatico

Addestrare l'esperto di pianificazione richiede una grande quantità di dati di manuali, la cui raccolta manuale è molto costosa. Per superare questo ostacolo, il team ha sviluppato un kit di strumenti di gemello digitale basato sulla tecnica di 3D Gaussian Splatting. Questo kit produce automaticamente dati di manuali ad alta fedeltà, permettendo di addestrare il pianificatore in modo efficiente e scalabile senza dipendere da annotazioni umane estensive.

Vantaggi del kit di gemello digitale:
  • Creare dati sintetici realistici e variati per addestrare modelli di pianificazione complessi.
  • Ridurre drasticamente il carico e il costo associato alla raccolta di dati del mondo reale.
  • Permettere di testare e raffinare i manuali in un ambiente simulato prima dell'esecuzione fisica.

Implicazioni e prospettive future

Questo approccio non solo migliora come i robot pianificano ed eseguono compiti di manipolazione complessi, ma semplifica anche il processo di programmarli per seguire istruzioni da zero. Chiudendo il divario tra l'obiettivo finale e i passi necessari per raggiungerlo, ManualVLA rappresenta un significativo avanzamento verso robot più autonomi e capaci. Il framework stabilisce un nuovo paradigma in cui la generazione di procedure chiare è centrale per ottenere una manipolazione robotica robusta e affidabile. 🧩