Точная реконструкция 3D-модели тела из одной RGB-камеры критически важна для анимации цифровых гуманоидов, но текущие методы, такие как SAM 3D Body, слишком медленны для интерактивных приложений. Мы представляем Fast SAM 3D Body — фреймворк ускорения, который без необходимости переобучения переформулирует инференс для достижения реального времени. За счет разделения зависимостей и применения обрезки он позволяет параллельную экстракцию признаков и оптимизированную декодировку. Что важнее всего, он заменяет итеративную подгонку сетки на прямое отображение, ускоряя преобразование в параметры SMPL более чем в 10 000 раз. Это впервые делает возможной визуальную телеперацию гуманоида в реальном времени. 🚀
Технический разбор: Параллелизация, обрезка и прямое отображение ⚙️
Ядро ускорения заключается в трех инновациях. Во-первых, разделяются последовательные пространственные зависимости исходного процесса, что позволяет параллельную экстракцию признаков из нескольких вырезок изображения. Во-вторых, применяется обрезка, учитывающая архитектуру трансформера, для резкого снижения задержки в декодировании. Третья и наиболее значимая для приложений гуманоидов инновация — замена медленной итеративной подгонки сетки (оптимизации) на прямое прямолинейное отображение от признаков энкодера к параметрам SMPL. Это прямое преобразование, совместимое с фреймворками управления гуманоидами, является ключом, ускоряющим эту конкретную стадию более чем на четыре порядка величины, сохраняя сопоставимую и даже превосходящую точность на бенчмарках вроде LSPET.
Будущее анимации и управления гуманоидами 🤖
Этот прорыв выходит за рамки технического, открывая немедленные практические возможности. Способность получать кинематику SMPL в реальном времени из единого RGB-потока позволяет телеперацию гуманоидов без жилетов или носимых сенсоров, значительно упрощая захват движения для анимации. Кроме того, это позволяет прямой сбор политик манипуляции для обучения с подкреплением, где гуманоид может учиться, наблюдая за действиями человека на видео. Fast SAM 3D Body приближает видение интерактивных и реалистичных цифровых гуманоидов, управляемых визуально и обучающихся от нас естественным образом.
Как Fast SAM 3D Body может преодолеть ограничения по задержке и точности в захвате движения для управления цифровыми гуманоидами в реальном времени в производственных средах?
(ПС: Цифровые гуманоиды имеют преимущество — они никогда не жалуются на риггинг.)