La récupération précise de la maille corporelle 3D à partir d'une seule caméra RGB est cruciale pour animer des humanoïdes numériques, mais les méthodes actuelles comme SAM 3D Body sont trop lentes pour des applications interactives. Nous présentons Fast SAM 3D Body, un cadre d'accélération qui, sans nécessiter de réentraînement, reformule l'inférence pour atteindre des taux en temps réel. En découplant les dépendances et en appliquant une taille, il permet une extraction de caractéristiques parallèle et une décodification optimisée. Plus important encore, il remplace l'ajustement itératif de la maille par un mappage direct, accélérant la conversion en paramètres SMPL plus de 10 000 fois. Cela permet, pour la première fois, la téléopération visuelle en temps réel d'un humanoïde. 🚀
Décomposition Technique : Parallélisation, Taille et Mappage Direct ⚙️
Le cœur de l'accélération réside dans trois innovations. Premièrement, les dépendances spatiales sérielles du processus original sont découplées, permettant l'extraction parallèle de caractéristiques de multiples recadrages de l'image. Deuxièmement, une taille consciente de l'architecture du transformer est appliquée pour réduire drastiquement la latence dans la décodification. La troisième, la plus impactante pour les applications d'humanoïdes, est le remplacement de l'ajustement itératif lent de la maille (optimisation) par un mappage feedforward direct des caractéristiques de l'encodeur vers les paramètres SMPL. Cette conversion directe, compatible avec les cadres de contrôle d'humanoïdes, est la clé qui accélère cette étape spécifique de plus de quatre ordres de grandeur, tout en maintenant une fidélité comparable et même supérieure sur des benchmarks comme LSPET.
L'Avenir de l'Animation et du Contrôle des Humanoïdes 🤖
Cette avancée transcende le technique, ouvrant des portes pratiques immédiates. La capacité d'obtenir la cinématique SMPL en temps réel à partir d'un unique flux RGB permet la téléopération d'humanoïdes sans gilets ou capteurs portables, simplifiant enormément la capture de mouvement pour l'animation. De plus, elle permet la collecte directe de politiques de manipulation pour l'apprentissage par renforcement, où l'humanoïde peut apprendre en observant des actions humaines en vidéo. Fast SAM 3D Body rapproche la vision d'humanoïdes numériques interactifs et réalistes, contrôlés visuellement et apprenant de nous de manière naturelle.
Comment Fast SAM 3D Body peut-il surmonter les limitations de latence et de précision dans la capture de mouvement pour le contrôle en temps réel d'humanoïdes numériques dans des environnements de production ?
(PS : Les humanoïdes numériques ont l'avantage de ne jamais se plaindre du rigging.)