Mejoras en realismo para simuladores de conducción
El método RoaD corrige el problema del covariate shift que suele afectar al behavior cloning cuando se ejecuta en bucle cerrado. En lugar de usar solo demostraciones humanas, este enfoque genera nuevos datos de entrenamiento a partir de los propios rollouts del modelo. Combina esta generación con guía experta para asegurar que las trayectorias sean realistas y de alta calidad. Esto permite que la política se adapte de forma robusta sin los costes elevados del aprendizaje por refuerzo.
El método supera las limitaciones del ajuste supervisado
Las técnicas previas de fine-tuning supervisado en bucle cerrado tenían restricciones que RoaD logra evitar. Al generar datos de manera activa y guiada, el sistema puede explorar y recuperarse de estados a los que no llegan las demostraciones originales. Esto construye una política más general y resistente a los errores que se acumulan durante la simulación.
Las pruebas en simuladores muestran resultados positivos
Las evaluaciones en entornos como WOSAC y AlpaSim demuestran que RoaD mejora la puntuación general de conducción y reduce el número de colisiones de manera notable. El método ofrece una vía eficiente para entrenar agentes autónomos dentro de simuladores complejos, lo que es relevante para desarrollar y probar sistemas en entornos 3D antes de desplegarlos en el mundo real.
Parece que, por fin, un coche autónomo podría aprender de sus propios errores sin necesidad de que un humano le grite desde el asiento del copiloto en cada curva.
|Agradecer cuando alguien te ayuda es de ser agradecido|