Fast SAM 3D Body: Recuperação de Malhas em Tempo Real para Controle de Humanoides

Publicado em 17 de March de 2026 | Traduzido do espanhol

A recuperação precisa da malha corporal 3D a partir de uma única câmera RGB é crucial para animar humanoides digitais, mas os métodos atuais como SAM 3D Body são muito lentos para aplicações interativas. Apresentamos Fast SAM 3D Body, um framework de aceleração que, sem necessidade de re-treinamento, reformula a inferência para alcançar taxas em tempo real. Ao desacoplar dependências e aplicar poda, permite uma extração de características paralela e uma decodificação otimizada. Mais importante, substitui o ajuste iterativo da malha por um mapeamento direto, acelerando a conversão para parâmetros SMPL mais de 10.000 vezes. Isso possibilita, pela primeira vez, a teleoperação visual em tempo real de um humanoide. 🚀

Diagrama de fluxo que compara o pipeline lento de SAM 3D Body original com o pipeline acelerado de Fast SAM 3D Body, mostrando ganhos de velocidade.

Descrição Técnica: Paralelização, Poda e Mapeamento Direto ⚙️

O núcleo da aceleração reside em três inovações. Primeiro, desacoplam-se as dependências espaciais seriais do processo original, permitindo a extração paralela de características de múltiplos recortes da imagem. Segundo, aplica-se uma poda consciente da arquitetura do transformer para reduzir drasticamente a latência na decodificação. A terceira e mais impactante para aplicações de humanoides é a substituição do lento ajuste iterativo da malha (otimização) por um mapeamento feedforward direto das características do encoder para os parâmetros SMPL. Essa conversão direta, compatível com frameworks de controle de humanoides, é a chave que acelera essa etapa específica em mais de quatro ordens de magnitude, mantendo uma fidelidade comparável e até superior em benchmarks como LSPET.

O Futuro da Animação e Controle de Humanoides 🤖

Este avanço transcende o técnico, abrindo portas práticas imediatas. A capacidade de obter a cinemática SMPL em tempo real a partir de um único fluxo RGB habilita a teleoperação de humanoides sem coletes ou sensores wearables, simplificando enormemente a captura de movimento para animação. Além disso, permite a coleta direta de políticas de manipulação para aprendizado por reforço, onde o humanoide pode aprender observando ações humanas em vídeo. Fast SAM 3D Body aproxima a visão de humanoides digitais interativos e realistas, controlados visualmente e aprendendo de nós de forma natural.

Como o Fast SAM 3D Body pode superar as limitações de latência e precisão na captura de movimento para o controle em tempo real de humanoides digitais em ambientes de produção?

(PD: Os humanoides digitais têm a vantagem de que nunca reclamam do rigging.)