—— 汽车产业链供需平台 ——
下载盖世APP

首页 > 资讯 > 新技术 > 小鹏汽车与北京大学合作 为自动驾驶引入新

小鹏汽车与北京大学合作 为自动驾驶引入新型视觉标记剪枝框架

盖世汽车 刘丽婷 2025-12-31 10:04:22
分享

盖世汽车讯 12月28日,小鹏汽车与北京大学合作的论文《FastDriveVLA:基于即插即用重构的端到端高效驾驶》已被AAAI 2026接收。AAAI 2026是全球顶尖的人工智能会议之一。

小鹏.jpg

图片来源:小鹏

该论文介绍了一种名为FastDriveVLA的高效视觉标记剪枝框架( efficient visual token pruning framework),专为端到端自动驾驶的视觉-语言-动作(VLA)模型而设计。这项工作提供了一种全新的视觉标记剪枝方法,使人工智能能够“像人一样驾驶”,仅关注关键的视觉信息,同时过滤掉无关数据。

随着人工智能大型模型的快速发展,VLA模型因其在复杂场景理解和动作推理方面的强大能力,正被广泛应用于端到端自动驾驶系统中。这些模型将图像编码成大量的视觉标记,作为模型“感知”世界并做出驾驶决策的基础。然而,处理大量的标记会增加车载计算负载,从而影响推理速度和实时性能。

虽然视觉标记剪枝已被公认为加速VLA推理的有效方法,但现有的方法,无论是基于文本-视觉注意力还是标记相似性,在实际驾驶场景中都存在局限性。为了解决这个问题,小鹏汽车和北京大学联合开发出FastDriveVLA,这是一种基于重构的新型标记剪枝框架,其灵感来源于人类驾驶员如何专注于相关的前景信息(例如车道、车辆、行人),而忽略非关键的背景区域。

小鹏2.png

图片来源:小鹏

该方法引入了一种对抗性的前景-背景重构策略,增强了模型识别和保留有价值标记的能力。在nuScenes自动驾驶基准测试中,FastDriveVLA在各种剪枝比例下均取得了最先进的性能。当视觉标记的数量从3249个减少到812个时,该框架在保持高规划精度的同时,计算量降低了近7.5倍。

这是小鹏汽车今年第二次在全球顶级人工智能会议上获得认可。今年6月,小鹏汽车在CVPR WAD大会上分享了其在自动驾驶基础模型方面的最新进展。在11月的技术日上,小鹏汽车发布了VLA 2.0架构,该架构取消了“语言翻译”步骤,实现了直接的视觉到动作生成,这一突破重新定义了传统的V-L-A流程。

展望未来,小鹏汽车将继续致力于实现L4级自动驾驶,加大对人工智能大模型技术的投入,加速将物理人工智能系统集成到车辆中,旨在为全球用户提供安全、高效、舒适的智能驾驶体验。

关注我们更多服务平台

添加社区公众号、小程序, APP, 随时随地云办公尽在掌握

联系我们
盖世汽车社区 盖世汽车中文资讯 盖世汽车会议 盖世汽车研究院 盖世大学堂 Automotive News Global Auto Sources 友情链接 Copyright@2007-2022 All Right Reserved.盖世汽车版权所有
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号 沪公网安备 31011402009699号 未经授权禁止复制或建立影像,否则将追究法律责任。