MIT研发高效计算机视觉AI模型 可助自动驾驶汽车实时做出决策
盖世汽车讯 自动驾驶汽车必须可以快速、准确地识别遇到的物体,包括停在拐角处的送货卡车、正在接近十字路口的骑行者等。为此,自动驾驶汽车可能会使用一个强大的计算机视觉模型来对高分辨率场景图像中的每个像素进行分类,从而让其不会忽略在低质量图像中可能被遮挡的物体。但是,此种称作语义分割(semantic segmentation)的任务非常复杂,当图像分辨率高时,需要进行大量的计算。
据外媒报道,美国麻省理工学院(MIT)和麻省理工学院-IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)及来自其他地方的研究人员合作研发了一款更高效的计算机视觉模型,大大降低了上述任务的计算复杂性。该款模型可在车载计算机等硬件资源有限的设备上实时、准确地进行语义分割,使自动驾驶汽车能够在瞬间做出决策。

EfficientViT模型(图片来源:MIT)
现在最先进的语义分割模型都可直接学习图像每对像素之间的交互情况,因此其计算会随着图像分辨率的增加而呈二次方增长。因此,虽然此类模型非常准确,但是处理速度太慢,无法在传感器或手机等边缘设备上实时处理高分辨率图像。
MIT的研究人员为语义分割模型设计了一个新型构件,其能力与此类最先进模型相同,但是复杂性只达到线性计算,而且实现了硬件高效操作。
研究人员的成果是一个用于高分辨率计算机视觉的新型模型系列,在将其部署到移动设备上时,其运行速度比原来的模型快9倍。重要的是,与此类替代方案相比,该款新模型的准确性与之相同,甚至更高。
该技术不仅可以用于帮助自动驾驶汽车实时做出决策,还可以提高医学图像分割等其他高分辨率计算机视觉任务的效率。
一个简化的解决方案
对于机器学习模型而言,对可能包含数百万个像素的高分辨率图像中的每个像素分类是一项艰巨的任务。最近,一款称为视觉变形器(vision transformer)的强大新款模型已被高效采用。
Transformer最初是为自然语言处理而研发的模型,其可以将句子中的每个词编码为一个标记(token),然后生成一个注意力图,捕捉每个标记与其他标记的关系,注意力图则可以帮助该模型在进行预测时理解上下文。
采用相同的概念,vision transformer将图像分割成像素块,并在生成注意力图之前将每个像素块编码成标记。在生成注意力图时,该模型采用了一个相似性函数,直接学习每对像素之间的交互情况。通过此种方式,该模型形成了所谓的全局感受场(global receptive field),意味着其可以访问图像的所有相关部分。
由于高分辨率图像可能会包含数百万个像素,将其分割成数千个像素块的话,注意力图就会变得十分巨大。因此,随着图像分辨率的增加,计算量也会呈二次方增长。
MIT研究人员设计的新模型系列名为EfficientViT,采用了一种更简单的机制——用线性相似性函数取代非线性相似性函数,来构建注意力图。因此,他们可以重新安排操作顺序,减少总计算量,而不改变功能及失去全局感受场。采用该模型,预测所需的计算量随着图像分辨率的增加呈线性增长。
研究人员表示:“但是天下没有免费的午餐,线性注意力图只捕捉了图像的全局情况,失去了局部信息,导致精度变差。”
为了弥补精度损失,研究人员在模型中增加了两个额外的组件,每个都只增加了少许的计算量。
其中一个组件可帮助模型捕获局部特征交互情况,减轻线性函数在局部信息提取方面的弱点。第二个组件支持多尺度学习,可帮助该模型识别大、小物体。
研究人员采用硬件友好架构设计了EfficientViT,因此可以让其更容易地在不同种类的设备上运行,例如虚拟头显或自动驾驶汽车边缘计算机。该模型还可应用于其他计算机视觉任务,如图像分类。
简化语义分割
当研究人员在用于语义分割的数据集上测试其模型时,他们发现该模型在英伟达图像处理单元(GPU)上的执行速度比其他vision transformer模型快9倍,而且具有相同或更高的准确性。
基于上述测试结果,研究人员想应用该技术来加速生成式机器学习模型的操作,例如用于生成新图像,他们还想继续将EfficientViT扩展应用于其他视觉任务。
欢欢@盖世汽车供应链
悠悠@盖世汽车
豆豆@盖世汽车






