視覚-言語-行動 (VLA) モデルは静的マニピュレーションを支配していますが、動く目標物を含む動的シナリオでは性能が低下します。このボトルネックは、特定のトレーニングデータの不足と、単一の瞬間観測に依存するアーキテクチャによるものであり、空間的・時間的推論を制限しています。私たちは、動的マニピュレーションのための大規模データセットDOMINOと、動きを意識した知覚を実現するための歴史的オプティカルフローを統合したPUMAというVLAアーキテクチャを紹介します。🤖
方法論: データセット DOMINO とアーキテクチャ PUMA で暗黙的予測 🧠
DOMINO は、階層的複雑さを持つ35タスク、11万以上のエキスパート軌跡、多角的評価システムを備えた包括的なベンチマークです。これらのデータを活用するために、私たちは単一観測の制限を超えるアーキテクチャPUMAを提案します。PUMAは、シーン中心の歴史的オプティカルフローとworld queriesを革新的に統合します。この設計は、歴史的コンテキストの知覚を短いホライゾンの予測と結合し、モデルが移動物体将来の状態を暗黙的に推論できるようにします。これにより、それらとの成功した相互作用が可能になります。
動的意識: 動的を超えた改善 ⚡
結果から、PUMAは動的タスクでベースラインに対して成功率を絶対値6.3%向上させることが示されました。さらに、DOMINOの動的データによるトレーニングは、頑健な時空間表現を生成し、静的マニピュレーションタスクのパフォーマンスさえ向上させます。これは、動的意識が専門モジュールではなく、ロボットが環境を一般的に理解するための基本的な能力であることを示唆しています。
VLA (視覚-言語-行動) モデルはどのように静的マニピュレーションの制限を克服し、移動物体とのリアルタイム動的相互作用を頑健に扱うことができるでしょうか?
(PD: ロボットをシミュレートするのは楽しいが、彼らが命令に従わなくなったら。)