考纳斯理工大学研究人员开发出新模型 可提高机器对现实世界的理解能力
盖世汽车讯 如果自动驾驶汽车、无人机或智能导航系统等技术能够像人类一样理解世界——不仅能识别形状,还能理解其含义,那会怎样?在人行横道前等待的人、停在人行道上的自行车、在院子里奔跑的狗——对人类来说,这些区别一目了然。但对于依赖数据的系统而言,这却一直是个难题。
如今,这种情况正在发生改变。其中一项关键技术是三维点云分析。

图片来源: 考纳斯理工大学
“想象一下,对某个物理空间(例如街道、森林或整座城市)进行数百万次精确的激光测量,并将这些测量结果拼接起来,生成一张由单个点组成的详细三维地图。这就是所谓的三维点云。用于分析三维点云的技术旨在帮助计算机理解地图中物体的形状,并解读它们在场景中的位置关系。”考纳斯理工大学(Kaunas University of Technology,KTU)教授Rytis Maskeliūnas解释道。
从行人检测到城市地图绘制
尽管大多数人很少会想到这一点,但这项技术的早期形式早已融入日常生活。“普通人经常会接触到与我们研究中描述的类似的底层3D数据和技术,却浑然不觉,”KTU研究员Sarmad Maqsood博士指出。
现代车辆依靠此类系统来实现自动紧急制动或自适应巡航控制等功能,从而区分行人、车辆和道路边界。然而,在复杂或低能见度条件下,可靠性仍然是一个挑战。
三维点云数据也越来越多地被用于构建城市的详细数字模型。这些模型支持城市规划、基础设施监测和环境分析,并构成了所谓的数字孪生的基础——数字孪生是对真实世界环境的虚拟再现,可以持续更新并用于监测随时间推移发生的变化。
然而,据马苏德(Maqsood)称,理解这一点并非易事。“计算机在分析三维点云时面临着巨大的困难,主要是因为这种数据类型本身就具有不规则性、非结构化和海量的特点,”他解释道。这位研究人员指出,数据分布不均——近处物体密集,远处物体稀疏——而行人等重要元素的出现频率可能远低于道路或建筑物等主要类别。
这些挑战不仅体现在技术层面,也体现在实际操作层面。实时处理数百万个数据点需要强大的计算能力,同时在安全敏感型应用中确保精度至关重要。噪声、遮挡以及速度与精度之间的平衡需求,进一步增加了可靠三维分析的难度。
据外媒报道,为了应对这些挑战,考纳斯理工大学(KTU)的研究人员开发出一种新模型,该模型将多种三维数据分析方法整合到一个更高效的系统中。它并非仅关注局部细节或全局结构,而是同时整合两种视角,使机器能够更可靠地解读复杂环境。该模型结合了先进的基于Transformer的分析方法(该方法能够捕捉整个场景而非孤立区域之间的关系),以及优先处理重要但出现频率较低的特征的机制,从而能够更好地处理不平衡数据。
即使数据不完整也能发挥作用的解决方案
“想象一下,你有一个由数百万个点组成的庞大而杂乱的3D拼图,需要将它们分类成有意义的物体,例如道路、树木和行人。我们的模型就像一个高度智能且高效的拼图求解器,”KTU科学家Maskeliūnas说道。通过分析整个场景中各种关系,并着重强调那些出现频率较低但至关重要的特征,该系统能够更好地检测出小型或部分可见的物体,而这些物体是以往方法可能遗漏的。
这在现实世界中尤为重要。例如,一辆自动驾驶汽车在黄昏时分接近十字路口,可能只能检测到部分被遮挡的行人身上的几个数据点。“该模型不会错过这些信息,而是会结合上下文进行解读——将稀疏的信号与周围的元素(例如电线杆或人行横道)联系起来——即使数据不完整也能识别出行人的存在。这种从有限信息中解读上下文的能力可以显著提高自动驾驶系统的安全性,”Maskeliūnas分享道。
该模型在效率方面也表现出色,能够在保持高精度的同时,仅需两秒多一点的时间处理复杂场景。“除了分割精度之外,一项关键成就是展示了一个高效、统一的流程,”Maqsood补充道,并指出该系统集成了压缩和传输功能,且不会丢失关键细节,从而能够近乎实时地高效处理和传输大规模3D数据。
展望未来,其潜在应用远不止于目前的用例。从在复杂环境中导航的送货无人机到执行搜救任务的机器人,可靠的3D理解正变得越来越重要。甚至一些不太明显的领域也能从中受益——例如考古学,其中需要将稀疏数据重建为有意义的结构;或者法医学,其中细微的空间细节至关重要。它还可以支持高级增强现实应用,将数字内容无缝集成到复杂的物理环境中。
从更广泛的层面来看,这些进步可能会从根本上改变理解和管理环境的方式。曾经看似科幻的场景正在逐步成为现实——机器不仅在学习如何观察世界,而且在学习如何理解世界。
欢欢@盖世汽车供应链
悠悠@盖世汽车
豆豆@盖世汽车






