RoaD 在闭环中训练自动驾驶策略

一种新方法，称为RoaD，解决了训练人工智能代理执行复杂任务（如驾驶）时的根本问题。该方法不完全依赖静态的人类演示，而是主动从模型自身的执行中生成训练数据，从而纠正通常会降低闭环behavior cloning性能的covariate shift。🚗

之前的闭环监督fine-tuning技术存在显著限制。RoaD 通过主动生成数据并 crucially 由专家引导来避免这些限制。这一过程允许系统探索并从原始人类演示无法访问的状态中恢复，从而构建更通用且对模拟过程中累积错误更具鲁棒性的控制策略。

RoaD 方法的关键优势：

RoaD 为在复杂模拟器中训练自主代理提供了高效途径，这对于在现实世界部署前开发和测试系统至关重要。

在先进的模拟器如WOSAC和AlpaSim中进行的评估证明了该方法的有效性。RoaD 成功提高了整体驾驶分数，并显著减少了碰撞次数。这验证了其作为3D虚拟环境训练实用框架的效用。

测试成就：

该方法代表了重大进步，因为它使自动驾驶车辆能够在模拟环境中学习和精炼自身经验成为可能，而无需人类纠正每个动作。通过将数据生成与专家监督结合，RoaD为开发自动驾驶和其他3D复杂任务的鲁棒且可泛化控制策略铺平了可行之路。🔄