ManualVLA: 매뉴얼 기반 멀티모달 매뉴얼로 로봇 계획을 향상시키는 프레임워크

Diagrama o captura de pantalla que muestra la arquitectura ManualVLA, con un robot manipulando piezas de LEGO junto a una interfaz que genera manuales paso a paso con imágenes, texto e indicaciones de posición.

ManualVLA: 다중 모달 매뉴얼로 로봇 계획을 향상시키는 프레임워크

비전-언어-행동(VLA) 모델들은 일반화 능력으로 두각을 나타내지만, 조립 구조물이나 재배치 객체와 같은 명확한 목표 상태를 요구하는 복잡한 작업에서 어려움을 겪습니다. 그들의 주요 도전은 고수준 계획과 정밀한 조작을 조정하는 것입니다. 이를 해결하기 위해 ManualVLA가 제시되며, 이는 단일 프레임워크로 VLA 모델이 결과 무엇에서 과정 어떻게를 추론하여 추상적인 목표를 실행 가능한 행동 시퀀스로 변환할 수 있게 합니다. 🤖

두 전문가와 가이드된 추론 아키텍처

ManualVLA는 Mixture-of-Transformers (MoT) 아키텍처를 기반으로 합니다. 감각 지각을 직접 모터 명령으로 매핑하는 대신, 중요한 중간 단계를 도입합니다. 먼저 계획 전문가가 중간 다중 모달 매뉴얼을 생성합니다. 이 매뉴얼은 이미지, 공간 지시 및 텍스트 지침을 통합합니다. 그런 다음 Manual Chain-of-Thought (ManualCoT) 프로세스가 이 매뉴얼을 행동 전문가로 전달합니다. 매뉴얼의 각 단계는 명시적 제어 조건을 제공하며, 그 잠재 표현은 정확한 조작을 위한 암시적 가이드로 작용합니다.

시스템의 주요 구성 요소:

계획 전문가: 최종 작업을 이해하고 실행 가능한 단계로 분해하는 상세한 매뉴얼을 생성합니다.
ManualCoT: 매뉴얼 정보를 구조화하고 행동 실행 전문가에게 공급하는 추론 메커니즘입니다.
행동 전문가: 매뉴얼의 다중 모달 지침을 정밀하고 조정된 로봇 움직임으로 변환합니다.

ManualVLA는 LEGO 조립 및 객체 재배치 작업에서 이전 최고의 계층적 모델보다 평균 성공률이 32% 더 높습니다.

자동화된 훈련 데이터 생성

계획 전문가를 훈련시키려면 대량의 매뉴얼 데이터가 필요하며, 수동 수집은 매우 비용이 많이 듭니다. 이 장애물을 극복하기 위해 팀은 3D Gaussian Splatting 기술을 기반으로 한 디지털 트윈 툴킷을 개발했습니다. 이 툴킷은 고忠実도 매뉴얼 데이터를 자동으로 생성하여 광범위한 인간 주석 없이 효율적이고 확장 가능한 계획자 훈련을 가능하게 합니다.

디지털 트윈 툴킷의 장점:

복잡한 계획 모델 훈련을 위한 현실적이고 다양한 합성 데이터를 생성합니다.
실제 세계 데이터 수집과 관련된 부하와 비용을 급격히 줄입니다.
물리적 실행 전에 시뮬레이션 환경에서 매뉴얼을 테스트하고 정제할 수 있게 합니다.

함의와 미래 전망

이 접근법은 로봇이 복잡한 조작 작업을 계획하고 실행하는 방식을 개선할 뿐만 아니라, 처음부터 지침을 따르도록 프로그래밍하는 과정을 단순화합니다. 최종 목표와 이를 달성하기 위한 필요한 단계 간의 격차를 메우면서, ManualVLA는 더 자율적이고 유능한 로봇으로의 중요한 발전을 나타냅니다. 이 프레임워크는 명확한 절차 생성이 견고하고 신뢰할 수 있는 로봇 조작의 핵심이라는 새로운 패러다임을 확립합니다. 🧩