단일 RGB 카메라로부터 3D 바디 메쉬를 정확하게 복원하는 것은 디지털 휴머노이드를 애니메이션화하는 데 필수적이지만, 현재 방법들처럼 SAM 3D Body는 인터랙티브 애플리케이션에 너무 느립니다. 우리는 Fast SAM 3D Body를 제시합니다. 재학습 없이 추론을 재구성하여 실시간 속도를 달성하는 가속 프레임워크입니다. 의존성을 분리하고 프루닝을 적용하여 특징 추출의 병렬화와 최적화된 디코딩을 가능하게 합니다. 더 중요하게는, 메쉬의 반복적 조정을 직접 매핑으로 대체하여 SMPL 매개변수로의 변환을 10,000배 이상 가속화합니다. 이는 처음으로 휴머노이드의 실시간 시각 텔레오퍼레이션을 가능하게 합니다. 🚀
기술적 분해: 병렬화, 프루닝 및 직접 매핑 ⚙️
가속의 핵심은 세 가지 혁신에 있습니다. 첫째, 원본 프로세스의 직렬 공간 의존성을 분리하여 이미지의 여러 크롭에서 특징을 병렬로 추출할 수 있게 합니다. 둘째, 트랜스포머 아키텍처를 인식한 프루닝을 적용하여 디코딩의 지연을 급격히 줄입니다. 휴머노이드 애플리케이션에 가장 영향력이 큰 세 번째는 느린 메쉬 반복 조정(최적화)을 인코더 특징으로부터 SMPL 매개변수로의 직접 피드포워드 매핑으로 대체하는 것입니다. 휴머노이드 제어 프레임워크와 호환되는 이 직접 변환은 해당 단계를 4자릿수 이상 가속화하며, LSPET과 같은 벤치마크에서 비교 가능하거나 우수한 충실도를 유지합니다.
휴머노이드 애니메이션 및 제어의 미래 🤖
이 발전은 기술을 초월하여 즉각적인 실용적 문을 엽니다. 단일 RGB 스트림으로부터 실시간 SMPL 키네마틱스를 얻는 능력은 웨어러블 챌벗이나 센서 없이 휴머노이드 텔레오퍼레이션을 가능하게 하여 애니메이션용 모션 캡처를 크게 단순화합니다. 또한, 휴머노이드가 비디오에서 인간 행동을 관찰하며 학습할 수 있는 강화학습을 위한 직접적인 조작 정책 수집을 허용합니다. Fast SAM 3D Body는 시각적으로 제어되고 우리로부터 자연스럽게 학습하는 인터랙티브하고 현실적인 디지털 휴머노이드의 비전을 가까이 가져옵니다.
Fast SAM 3D Body는 프로덕션 환경에서 디지털 휴머노이드의 실시간 제어를 위한 모션 캡처의 지연 및 정밀도 제한을 어떻게 극복할 수 있습니까?
(PD: 디지털 휴머노이드는 리깅에 대해 불평하지 않는 장점이 있습니다.)