도미노와 푸마: VLA를 활용한 동적 로봇 조작 기술의 진보

비전-언어-행동(VLA) 모델들은 정적 조작에서 우위를 점하지만, 움직이는 목표물이 있는 동적 시나리오에서는 성능이 저하됩니다. 이 병목 현상은 특정 훈련 데이터의 부족과 단일 순간 관찰에 의존하는 아키텍처로 인해 발생하며, 이는 공간-시간적 추론을 제한합니다. 우리는 동적 조작을 위한 대규모 데이터셋인 DOMINO와 움직임 인식 지각을 위한 역사적 광학 흐름을 통합한 VLA 아키텍처인 PUMA를 제시합니다. 🤖

Brazo robótico interactuando con un cubo en movimiento sobre una superficie, ilustrando manipulación dinámica.

방법론: 암시적 예측을 위한 DOMINO 데이터셋과 PUMA 아키텍처 🧠

DOMINO는 계층적 복잡성을 가진 35개의 작업, 110,000개 이상의 전문가 궤적, 그리고 다차원 평가 시스템을 포함한 포괄적인 벤치마크입니다. 이러한 데이터를 활용하기 위해, 단일 관찰의 한계를 초월하는 아키텍처인 PUMA를 제안합니다. PUMA는 장면 중심의 역사적 광학 흐름과 world queries를 혁신적으로 통합합니다. 이 설계는 역사적 맥락 지각을 단기 예측과 결합하여, 모델이 움직이는 물체의 미래 상태를 암시적으로 추론할 수 있게 하며, 이는 성공적인 상호작용에 필수적입니다.

동적 인식: 동적을 초월하는 개선 ⚡

결과는 PUMA가 동적 작업에서 베이스라인 대비 성공률 6.3%의 절대적 개선을 달성함을 보여줍니다. 그 이상으로, DOMINO의 동적 데이터로 훈련된 모델은 정적 조작 작업에서도 성능을 향상시키는 견고한 공간-시간 표현을 생성합니다. 이는 동적 인식이 전문화된 모듈이 아니라 로봇의 환경 이해를 풍부하게 하는 근본적인 능력임을 시사합니다.

VLA(비전-언어-행동) 모델들이 정적 조작의 한계를 어떻게 극복하여 움직이는 물체와의 실시간 동적 상호작용을 견고하게 처리할 수 있을까요?

(PD: 로봇 시뮬레이션은 재미있어요, 당신의 명령을 따르지 않기로 결정할 때까지.)