
RoaD 在闭环中训练自动驾驶策略
一种新方法,称为RoaD,解决了训练人工智能代理执行复杂任务(如驾驶)时的根本问题。该方法不完全依赖静态的人类演示,而是主动从模型自身的执行中生成训练数据,从而纠正通常会降低闭环behavior cloning性能的covariate shift。🚗
克服监督微调的局限性
之前的闭环监督fine-tuning技术存在显著限制。RoaD 通过主动生成数据并 crucially 由专家引导来避免这些限制。这一过程允许系统探索并从原始人类演示无法访问的状态中恢复,从而构建更通用且对模拟过程中累积错误更具鲁棒性的控制策略。
RoaD 方法的关键优势:- 主动数据生成:从模型自身的 rollout 中创建新的训练示例。
- 集成专家引导:确保生成的轨迹真实且高质量。
- 增强鲁棒性:允许策略稳定适应,而无需强化学习的昂贵计算成本。
RoaD 为在复杂模拟器中训练自主代理提供了高效途径,这对于在现实世界部署前开发和测试系统至关重要。
模拟环境中的积极结果
在先进的模拟器如WOSAC和AlpaSim中进行的评估证明了该方法的有效性。RoaD 成功提高了整体驾驶分数,并显著减少了碰撞次数。这验证了其作为3D虚拟环境训练实用框架的效用。
测试成就:- 驾驶分数提升:在标准指标上获得优越的定量结果。
- 碰撞减少:模拟自主执行期间的事故减少。
- 高效适应:代理从自身错误中学习,而无需人类在每个步骤的持续监督。
自主训练的未来
该方法代表了重大进步,因为它使自动驾驶车辆能够在模拟环境中学习和精炼自身经验成为可能,而无需人类纠正每个动作。通过将数据生成与专家监督结合,RoaD为开发自动驾驶和其他3D复杂任务的鲁棒且可泛化控制策略铺平了可行之路。🔄