—— 汽车产业链供需平台 ——
下载盖世APP

首页 > 资讯 > 新技术 > 研究人员开发出新方法MonoXiver 可帮助AI使

研究人员开发出新方法MonoXiver 可帮助AI使用2D图像导航3D空间

盖世汽车 刘丽婷 2023-09-27 17:37:54
分享

盖世汽车讯 照片是二维(2D)的,但自动驾驶汽车和其他技术必须在三维(3D)世界中导航。据外媒报道,研究人员开发出新方法,可帮助人工智能(AI)从2D图像中提取3D信息,使摄像头成为对新兴技术更有用的工具。

该研究论文的合著者、北卡罗来纳州立大学(North Carolina State University)电气与计算机工程副教授Tianfu Wu表示:“现有的从2D图像中提取3D信息的技术还有进步的空间。此次研发的新方法称为MonoXiver,可以与现有技术结合使用,并使它们更加准确。”

新方法arXiv.jpg

图片来源:arXiv

这项工作对于自动驾驶汽车等应用十分有利。这是因为摄像头比用于导航3D空间的其他工具便宜,例如依靠激光测量距离的激光雷达。由于摄像头比其他技术更便宜,自动驾驶汽车的设计者可以安装多个摄像头,从而在系统中建立冗余。

但只有当自动驾驶汽车中的人工智能能够从摄像头拍摄的2D图像中提取3D导航信息时,该功能才有用。这就是MonoXiver发挥作用的地方。

从2D图像中提取3D数据的现有技术(例如Wu及其合作者开发的MonoCon技术)利用了“边界框(bounding boxes)”。具体来说,这些技术训练AI扫描2D图像,并在2D图像中的对象(例如街道上的每辆车)周围放置3D边界框。

这些框为长方体,有八个点。边界框可帮助人工智能估计图像中对象的尺寸,以及每个对象相对于其他对象的位置。换句话说,边界框可以帮助人工智能确定汽车有多大,以及它相对于道路上其他汽车的位置。

然而,现有程序的边界框并不完美,并且通常无法包含出现在2D图像中的车辆或其他物体的部分。新MonoXiver方法使用每个边界框作为起点或锚点,并让AI对每个边界框周围的区域进行第二次分析。第二次分析导致程序在锚点周围产生许多额外的边界框。

为了确定这些辅助框中的哪一个能够最好地捕获对象的“丢失”部分,人工智能会进行两次比较。第一次比较是查看每个辅助框的“几何形状”,以查看它是否包含与锚框中的形状一致的形状。另一次比较着眼于每个辅助框的“外观”,以查看它是否包含与锚框内的视觉特征相似的颜色或其他视觉特征。

Wu表示:“这里的一个重大进步是MonoXiver允许我们非常有效地运行这种自上而下的采样技术,即创建和分析辅助边界框。”

为了测量MonoXiver方法的准确性,研究人员使用两个2D图像数据集对其进行了测试:完善的KITTI数据集和更具挑战性的大规模Waymo数据集。

Wu表示:“我们将MonoXiver方法与MonoCon和其他两个旨在从2D图像中提取3D数据的现有程序结合使用,MonoXiver显著提高了所有三个程序的性能。当将MonoXiver与MonoCon结合使用时,我们获得了最佳性能。”

Wu表示:“还需要注意的是,这种改进带来的计算开销相对较小。例如MonoCon本身可以以每秒55帧的速度运行。当采用MonoXiver方法时,速度会减慢至每秒40帧,这对于实际应用来说仍然足够快。我们对这项工作感到兴奋,并将继续评估和微调,以用于自动驾驶汽车和其他应用。”

关注我们更多服务平台

添加社区公众号、小程序, APP, 随时随地云办公尽在掌握

联系我们
盖世汽车社区 盖世汽车中文资讯 盖世汽车会议 盖世汽车研究院 盖世大学堂 Automotive News Global Auto Sources 友情链接 Copyright@2007-2022 All Right Reserved.盖世汽车版权所有
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号 沪公网安备 31011402009699号 未经授权禁止复制或建立影像,否则将追究法律责任。