La reconstrucción 3D de interacciones entre personas y escenas a partir de vídeos o imágenes suele generar resultados visualmente plausibles pero físicamente inestables. Esta brecha entre percepción y simulación impide su uso en motores de física y aplicaciones de IA encarnada. Presentamos HSImul3R, un marco unificado que cierra esta brecha mediante optimización bidireccional con supervisión activa del simulador físico, produciendo reconstrucciones listas para simulación y transferibles a robots humanoides reales. 🚀
Optimización Bidireccional con Supervisión del Simulador Físico ⚙️
HSImul3R integra el simulador físico como supervisor activo en un pipeline de dos direcciones. En la dirección forward, un Refuerzo Learning dirigido a la escena optimiza la dinámica humana bajo una supervisión dual: fidelidad al movimiento capturado y estabilidad de los contactos con los objetos. En la dirección inversa, la Optimización Directa por Recompensa de Simulación utiliza la retroalimentación del simulador sobre estabilidad gravitatoria y éxito de la interacción para refinar la geometría de la escena. Este ciclo conjunto asegura que tanto el avatar humano como los objetos cumplan las leyes físicas.
Un Avance Crucial para la Robótica y el Metaverso 🤖
Este trabajo trasciende la mera visualización, dotando a los humanoides digitales de un fundamento físico esencial. Al producir reconstrucciones estables y simulables, permite entrenar agentes de IA en entornos realistas y transferir comportamientos directamente a robots físicos. Es un paso clave para desarrollar avatares en el metaverso que interactúen con coherencia física y para acelerar el aprendizaje de robots humanoides en tareas complejas del mundo real.
¿Cómo garantizar la estabilidad física y la coherencia biomecánica en la reconstrucción 3D de humanoides digitales a partir de vídeo, evitando artefactos como hundimientos en el suelo o penetraciones entre cuerpos y objetos?
(PD: Los humanoides digitales tienen la ventaja de que nunca se quejan del rigging.)