DVGT reconstruye mapas 3D densos para conducción autónoma
El modelo DVGT, o Driving Visual Geometry Transformer, genera mapas 3D densos de escenas de conducción directamente desde secuencias de imágenes. Lo hace sin depender de parámetros de cámara precisos ni de sensores externos como LiDAR. Para inferir la geometría, el modelo procesa la información usando tres mecanismos de atención distintos. Estos mecanismos analizan las relaciones dentro de una sola vista, entre múltiples vistas de una cámara y a lo largo del tiempo entre frames consecutivos. Esta aproximación le permite reconstruir geometría métrica precisa y adaptarse a diferentes configuraciones de cámara y escenarios.
El modelo integra atención espacial y temporal
La arquitectura del transformador en DVGT funciona combinando capas de atención intra-vista, inter-vista e inter-frame. La atención intra-vista captura detalles dentro de una imagen individual. La atención espacial entre vistas correlaciona puntos equivalentes en imágenes tomadas desde ángulos ligeramente distintos, lo que es clave para triangular la profundidad. Finalmente, la atención temporal entre frames rastrea cómo se mueven los puntos en la secuencia, lo que consolida la reconstrucción y ayuda a generar un mapa 3D coherente y denso del entorno.
Supera enfoques anteriores en varios benchmarks
Los resultados experimentales muestran que DVGT supera a modelos anteriores de reconstrucción 3D en múltiples datasets públicos de escenas de conducción. Su capacidad para manejar diferentes cámaras y producir geometría métrica sin calibración externa exacta representa un avance técnico.
El modelo demuestra ser robusto en condiciones variadas, lo que acerca un paso más a los sistemas de percepción que solo usan visión para entender la estructura 3D del mundo en tiempo real. A veces, parece que el coche entiende mejor el estacionamiento que algunos conductores después de un largo día.
Puedes ver el proyecto aquí.