ДОМИНО и PUMA: Продвигаясь в динамической роботизированной манипуляции с VLA

Модели Visión-Lenguaje-Acción (VLA) доминируют в статической манипуляции, но их производительность падает в динамических сценариях с движущимися объектами. Это узкое место обусловлено отсутствием специфических данных для обучения и архитектурами, зависящими от наблюдений в один момент времени, что ограничивает их пространственно-временное рассуждение. Мы представляем DOMINO, массивный датасет для динамической манипуляции, и PUMA, архитектуру VLA, которая интегрирует исторический оптический поток для восприятия с осознанием движения. 🤖

Brazo robótico interactuando con un cubo en movimiento sobre una superficie, ilustrando manipulación dinámica.

Методология: Датасет DOMINO и архитектура PUMA для неявного предсказания 🧠

DOMINO — это комплексный бенчмарк с 35 задачами иерархической сложности, более 110.000 экспертных траекторий и многомерной системой оценки. Для использования этих данных мы предлагаем PUMA, архитектуру, преодолевающую ограничение единственного наблюдения. PUMA новаторски интегрирует исторический оптический поток, центрированный на сцене, и специализированные world queries. Этот дизайн связывает восприятие исторического контекста с предсказанием короткого горизонта, позволяя модели неявно выводить будущие состояния движущихся объектов, что критически важно для успешного взаимодействия с ними.

Динамическое осознание: Улучшение, выходящее за рамки динамики ⚡

Результаты показывают, что PUMA достигает абсолютного улучшения на 6,3% в показателе успеха по сравнению с базовыми моделями в динамических задачах. Более того, обучение на динамических данных DOMINO генерирует robustные пространственно-временные представления, которые улучшают производительность даже в задачах статической манипуляции. Это предполагает, что динамическое осознание — не специализированный модуль, а фундаментальная способность, обогащающая общее понимание роботом своего окружения.

Как модели VLA (Visión-Lenguaje-Acción) могут преодолеть ограничения статической манипуляции, чтобы надежно справляться с динамическим взаимодействием в реальном времени с движущимися объектами?

(ПС: Симулировать роботов весело, пока они не решают не выполнять твои приказы.)