
RoaD는 폐루프에서 자율 주행 정책을 훈련합니다
새로운 접근법인 RoaD는 복잡한 작업인 운전과 같은 작업을 위해 인공 지능 에이전트를 훈련할 때 근본적인 문제를 해결합니다. 인간의 정적 데모에만 의존하는 대신, 이 방법은 모델의 실행 자체에서 훈련 데이터를 적극적으로 생성하여 폐루프에서 behavior cloning을 저하시키는 일반적인 covariate shift를 수정합니다. 🚗
지도 학습의 한계를 극복
이전 폐루프 지도 fine-tuning 기술은 상당한 제한을 제시했습니다. RoaD는 데이터를 적극적으로 생성하고, 결정적으로 전문가의 지도를 통해 이를 피합니다. 이 과정은 시스템이 원래 인간 데모가 접근하지 못한 상태를 탐색하고 회복할 수 있게 하여, 시뮬레이션 중 누적되는 오류에 더 일반적이고 견고한 제어 정책을 구축합니다.
RoaD 접근법의 주요 장점:- 능동적 데이터 생성: 모델의 자체 롤아웃에서 새로운 훈련 예제를 생성합니다.
- 통합된 전문가 지도: 생성된 궤적이 현실적이고 고품질임을 보장합니다.
- 개선된 견고성: 강화 학습의 높은 계산 비용 없이 정책이 안정적으로 적응할 수 있게 합니다.
RoaD는 복잡한 시뮬레이터 내에서 자율 에이전트를 효율적으로 훈련하는 경로를 제공하며, 이는 실제 세계에 배포하기 전에 시스템을 개발하고 테스트하는 데 필수적입니다.
시뮬레이션 환경에서의 긍정적 결과
WOSAC 및 AlpaSim과 같은 고급 시뮬레이터에서 수행된 평가가 이 방법의 효과성을 입증합니다. RoaD는 전체 주행 점수를 개선하고 충돌 횟수를 현저히 줄입니다. 이는 3D 가상 환경에서 훈련하기 위한 실용적인 프레임워크로서의 유용성을 검증합니다.
테스트 성과:- 주행 점수 개선: 표준 메트릭에서 우수한 정량적 결과.
- 충돌 감소: 시뮬레이션 중 자율 실행 시 적은 사고 발생.
- 효율적 적응: 에이전트가 각 단계에서 지속적인 인간 감독 없이 자체 오류로부터 학습합니다.
자율 훈련의 미래
이 방법은 시뮬레이션 환경에서의 경험으로부터 자율 주행 차량이 학습하고 정제할 수 있는 가능성을 가까이 가져다주는 중요한 발전을 나타냅니다. 인간이 각 행동을 수정할 필요 없이 데이터 생성을 전문가 감독과 결합함으로써, RoaD는 자율 주행 및 3D의 다른 복잡한 작업을 위한 견고하고 일반화 가능한 제어 정책을 개발하기 위한 실행 가능한 경로를 확립합니다. 🔄