—— 汽车产业链供需平台 ——
下载盖世APP

首页 > 资讯 > 新技术 > 慕尼黑工业大学发明Transformer新架构 通过

慕尼黑工业大学发明Transformer新架构 通过多模态融合实现汽车系统的鲁棒性

盖世汽车 刘丽婷 2026-02-02 13:11:45
分享

盖世汽车讯 基于Transformer的架构在计算机视觉和自然语言处理等领域日益占据主导地位,但将其应用于安全至关重要的汽车系统则需要对可靠性给予严格关注。

据外媒报道,慕尼黑工业大学(Technical University of Munich)的Sven Kirchner、Nils Purschke及其同事,与Chengdong Wu和Alois Knoll合作,提出了一种构建容错Transformer的新框架来应对这一挑战。

transform.png

图片来源:https://arxiv.org/abs/2601.18850

该研究详细阐述了多模态基础模型如何利用汽车传感器固有的多样性和冗余性,即使在单个组件发生故障时也能维持系统的运行能力。通过将来自多个编码器的信息融合到一个共享的表示空间中,该团队展示了一种结构化嵌入冗余的途径,这是弥合前沿深度学习与自动驾驶严格安全要求之间差距的关键一步,最终将实现可认证系统的开发。

该框架利用多模态基础模型和结构冗余,旨在解决在自动驾驶等安全关键型应用中部署深度学习所面临的挑战。这种创新方法结合了独立的、特定模态的编码器,这些编码器将各自的数据融合到一个共享的潜在空间中,即使某个传感器模态发生故障,也能确保系统持续运行。实验表明,该方法能够有效地整合多种输入模态,从而保持对场景理解的一致性和可靠性,这对于自动驾驶车辆的感知至关重要。

该概念框架旨在弥合现代深度学习技术与既有功能安全实践之间的差距,并特别参考了ISO 26262标准。研究人员阐述了如何通过多模态基础模型利用传感器多样性和冗余性来提高容错能力,这对于自主系统至关重要。他们提出的架构利用多个独立的编码器,每个编码器专用于特定的输入模态,例如RGB图像、激光雷达点云或单目深度图,并将这些原始输入映射到一个公共的潜在空间。这个共享的潜在空间有助于实现故障运行行为,确保即使一个或多个传感器模态出现性能下降或故障,系统也能继续运行,尽管其性能可能会降低。

这项工作创新之处在于,它并非依赖传统的硬件或软件冗余,而是在表征层面嵌入冗余和多样性。研究团队正式定义了该系统:模态特定的编码器(Ei)将输入(Xi)映射到共享的潜在空间(Z),随后模态无关的解码器(Dj)将潜在表征转换为输出(Yj),例如语义分割或驾驶指令。

这种编码和解码的解耦实现了模块化、信号路径之间可验证的独立性以及可控的冗余,这与ISO 26262中概述的ASIL分解原则相呼应。该架构实现了固有冗余,即使在传感器故障的情况下也能保持可接受的性能,并通过融合互补数据流来增强信息丰富度,从而提高鲁棒性。

此外,研究证明,这种方法具有两大主要安全优势:在传感器发生故障时,仍能维持性能虽有所下降但仍可接受的运行状态;以及通过整合多种信息流来提高信噪比。编码器分支的独立性在结构上符合ISO 26262标准中关于避免共因故障的要求,而潜在空间融合机制则为多模态信号提供了隐式运行时仲裁。最终,这种多模态Transformer架构在表示层面系统性地嵌入了容错机制,为可认证的AI系统和更安全的自动驾驶技术铺平了道路。

用于汽车安全的多模态Transformer架构提升驾驶员安全

科学家们设计的新型多模态Transformer架构,旨在增强汽车系统的容错性和鲁棒性。该研究团队通过整合功能安全原则(特别是ISO 26262标准中概述的原则),解决了基于Transformer模型的关键应用挑战。他们开发了一种架构,该架构包含多个独立的、特定模态的编码器,每个编码器将原始传感器输入(例如RGB图像、激光雷达点云和单目深度图)映射到共享的潜在空间Z ⊆ Rd,从而支持在某个模态性能下降时仍能正常运行。这些编码器(表示为Ei : Xi → Z)从异构传感器数据中提取高级特征表示,有效地在表示层面嵌入了冗余信息。

研究结果证实了将系统分解为独立子系统的可行性,这与依赖冗余子系统和运行时监控的传统安全实践相呼应。形式上,该研究定义了模态特定的分支,记为Ei : Xi → Z,将原始输入映射到共享的潜在空间Z ⊆ Rd,从而促进基于注意力机制的融合和统一的、富含上下文信息的表示。下游任务则由与模态无关的解码器Dj : Z → Yj处理,其中Yj表示目标输出空间,例如语义分割图或3D边界框。数据表明,这种编码、融合和解码的显式解耦实现了模块化和信号路径之间可验证的独立性。

该研究重点强调了两项关键的安全优势:固有冗余性,即当一个模态发生故障时,其余编码器仍能维持性能;以及信息增强,即融合技术能够提高信噪比并降低不确定性。测量结果证实,编码器分支的独立性在结构上符合ISO 26262标准中关于冗余子系统避免共因故障的要求。

此外,该研究还详细介绍了该架构的实现,包括将激光雷达点云投影到相机图像平面上以生成稀疏深度图,随后对其进行精细化处理并与相机画面进行空间配准。此过程将激光雷达数据转换为与相机画面相同的表示域,确保对共享潜在空间的一致贡献。测试证明,该设计具有强大的回退能力,即使在相机输入质量下降的情况下也能保持对场景的一致理解,并且无需更改架构即可与现有的预训练视觉和语言模型无缝集成。

关注我们更多服务平台

添加社区公众号、小程序, APP, 随时随地云办公尽在掌握

联系我们
盖世汽车社区 盖世汽车中文资讯 盖世汽车会议 盖世汽车研究院 盖世大学堂 Automotive News Global Auto Sources 友情链接 Copyright@2007-2022 All Right Reserved.盖世汽车版权所有
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号 沪公网安备 31011402009699号 未经授权禁止复制或建立影像,否则将追究法律责任。