研究人员发明RaWMPC框架 使自动驾驶无需专家数据也能实现可靠决策
分享
盖世汽车讯 随着模仿学习(IL)和大规模驾驶数据集的进步,端到端自动驾驶(E2E-AD)近年来取得了长足的进步。目前,基于模仿学习的方法已成为主流范式:模型依赖于专家提供的标准驾驶行为,并学习如何最小化自身行为与专家行为之间的差异。然而,这种“只像专家一样驾驶”的目标存在泛化能力有限的问题:当遇到专家示范分布之外的罕见或未曾见过的长尾场景时,由于缺乏先验经验,模型往往会做出不安全的决策。这就引出了一个根本性的问题:E2E-AD系统能否在没有任何专家行为监督的情况下做出可靠的决策?
据外媒报道,特伦托大学(University of Trento)和中山大学(Sun Yat-sen University)共同提出了一个名为风险感知世界模型预测控制(Risk-aware World Model Predictive Control,RaWMPC)的统一框架,旨在通过鲁棒控制解决这一泛化难题,而无需依赖专家示范。

图片来源:arxiv.org
RaWMPC框架并非模仿专家,而是利用世界模型来预测各种潜在行为的后果。通过明确评估这些行为的风险,RaWMPC选择风险较低的行为。为了确保世界模型即使在危险情况下也能准确预测结果,研究人员设计了一种风险感知交互策略。该策略在训练过程中系统地将世界模型暴露于危险驾驶行为中,从而使灾难性后果可预测,进而可避免。这是朝着为机器人和自主系统开发复杂世界模型预测控制迈出的重要一步。
RaWMPC的一个关键部分是其在测试时生成低风险行为的能力。这是通过一种自评估蒸馏方法实现的。该技术将训练良好的世界模型学习到的风险规避能力蒸馏到一个独立的生成行为提议网络中。值得注意的是,该蒸馏过程不需要任何专家演示,从而进一步使系统摆脱了专家数据的局限性。这种方法旨在通过关注安全性和鲁棒性而非纯粹的模仿来增强端到端自动驾驶的泛化能力。
大量实验表明,RaWMPC的性能优于现有最佳方法。这种性能提升不仅体现在标准驾驶场景(分布内)中,也体现在具有挑战性的分布外场景中。该框架还提供了更优的决策可解释性,有助于更好地理解为何选择某个特定行为。RaWMPC兼具增强的性能、泛化能力和可解释性,使其成为更安全的自动驾驶技术方面极具前途的发展方向。
欢欢@盖世汽车供应链
悠悠@盖世汽车
豆豆@盖世汽车






