RoaD, 폐쇄 루프에서 자율 주행 정책 훈련

Diagrama o captura de pantalla que ilustra el flujo del método RoaD, mostrando cómo las trayectorias generadas por el modelo se combinan con guía experta para crear nuevos datos de entrenamiento en un entorno de simulación 3D para conducción autónoma.

RoaD는 폐루프에서 자율 주행 정책을 훈련합니다

새로운 접근법인 RoaD는 복잡한 작업인 운전과 같은 작업을 위해 인공 지능 에이전트를 훈련할 때 근본적인 문제를 해결합니다. 인간의 정적 데모에만 의존하는 대신, 이 방법은 모델의 실행 자체에서 훈련 데이터를 적극적으로 생성하여 폐루프에서 behavior cloning을 저하시키는 일반적인 covariate shift를 수정합니다. 🚗

지도 학습의 한계를 극복

이전 폐루프 지도 fine-tuning 기술은 상당한 제한을 제시했습니다. RoaD는 데이터를 적극적으로 생성하고, 결정적으로 전문가의 지도를 통해 이를 피합니다. 이 과정은 시스템이 원래 인간 데모가 접근하지 못한 상태를 탐색하고 회복할 수 있게 하여, 시뮬레이션 중 누적되는 오류에 더 일반적이고 견고한 제어 정책을 구축합니다.

RoaD 접근법의 주요 장점:

능동적 데이터 생성: 모델의 자체 롤아웃에서 새로운 훈련 예제를 생성합니다.
통합된 전문가 지도: 생성된 궤적이 현실적이고 고품질임을 보장합니다.
개선된 견고성: 강화 학습의 높은 계산 비용 없이 정책이 안정적으로 적응할 수 있게 합니다.

RoaD는 복잡한 시뮬레이터 내에서 자율 에이전트를 효율적으로 훈련하는 경로를 제공하며, 이는 실제 세계에 배포하기 전에 시스템을 개발하고 테스트하는 데 필수적입니다.

시뮬레이션 환경에서의 긍정적 결과

WOSAC 및 AlpaSim과 같은 고급 시뮬레이터에서 수행된 평가가 이 방법의 효과성을 입증합니다. RoaD는 전체 주행 점수를 개선하고 충돌 횟수를 현저히 줄입니다. 이는 3D 가상 환경에서 훈련하기 위한 실용적인 프레임워크로서의 유용성을 검증합니다.

테스트 성과:

주행 점수 개선: 표준 메트릭에서 우수한 정량적 결과.
충돌 감소: 시뮬레이션 중 자율 실행 시 적은 사고 발생.
효율적 적응: 에이전트가 각 단계에서 지속적인 인간 감독 없이 자체 오류로부터 학습합니다.

자율 훈련의 미래

이 방법은 시뮬레이션 환경에서의 경험으로부터 자율 주행 차량이 학습하고 정제할 수 있는 가능성을 가까이 가져다주는 중요한 발전을 나타냅니다. 인간이 각 행동을 수정할 필요 없이 데이터 생성을 전문가 감독과 결합함으로써, RoaD는 자율 주행 및 3D의 다른 복잡한 작업을 위한 견고하고 일반화 가능한 제어 정책을 개발하기 위한 실행 가능한 경로를 확립합니다. 🔄