芝浦工业大学设计出增强型YOLO框架 将360度小目标检测准确率提升至90%
分享
盖世汽车讯 全景摄像头因其能够捕捉360度全景图像而广受欢迎。它们常用于监控、交通分析和自动驾驶系统。但这种广角视野也带来了一个技术难题:远离摄像头的目标往往会显得扭曲且微小,导致计算机视觉系统难以准确识别它们。
对于在道路交叉口等户外场景中的移动目标而言,例如行人、自行车、摩托车和汽车,这一挑战尤为严峻。
YOLO(You Only Look Once)是一种流行的、高速且准确的实时目标检测算法。尽管YOLO兼顾速度与强大的通用性能,但由于它将图像分割成网格单元,因此在全景视频中检测/分类较小目标时存在困难。
当多个较小目标落入同一网格内时,它们的部分视觉信息可能会丢失。在全景视频中,这种缺陷会更加明显,因为远处的目标本身分辨率就较低。
据外媒报道,日本芝浦工业大学(Shibaura Institute of Technology)Chinthaka Premachandra教授领导的研究团队设计出一个增强型框架,将定制的训练数据集和迁移学习相结合,从而解决上述问题。

图片来源:芝浦工业大学
Premachandra博士表示:“在包括日本在内的许多国家,由于车辆、行人和骑行者从多个方向移动,道路交叉口的交通状况复杂,因此极易发生事故。一些道路使用者可能会突然从道路交叉口的盲区出现,进一步增加事故发生的可能性。我们的研究正是为了解决这个问题。”
相关论文发表于期刊《IEEE Open Journal of Intelligent Transportation Systems》。
为了开发相关模型,研究人员创建了一个包含约4000张带标注图像的数据集,涵盖四类目标:人、汽车、自行车和摩托车。值得注意的是,这些标注并非通用标注。随着摄像头与目标之间距离的增加,全景摄像头的分辨率会迅速下降,因此目标识别经常出现错误。
为了应对这个问题,研究团队为每类运动目标定义了特征,以帮助模型学习如何在复杂条件下识别目标。例如,人至少需要一只胳膊或一条腿可见,汽车至少需要两个轮胎可见,自行车和摩托车则需要前后轮都可见。
研究团队还通过裁剪图像并纳入多角度拍摄的目标来增强数据集,从而更好地呈现较小且出现频率较低的目标。该数据集用于迁移学习训练,迁移学习是一种将现有模型的知识迁移到新领域的方法。最后,将训练好的模型与传统模型进行比较,以评估其准确率。
直接比较结果显示,对于大于8×8像素的目标,所提出的模型总体准确率达到了90%,而YOLOv5和YOLOv8的准确率分别为46%和53%。具体而言,对于尺寸在8×8到32×32像素之间的小型移动目标,所提出的模型准确率达到了0.81,显著高于YOLOv5的0.39和YOLOv8的0.42。
该研究还发现,虽然标准的YOLO模型在40米以外精度急剧下降,但新模型在50米范围内仍能保持良好的性能。
这项研究通过提高360°全方位视野内对小型远距离目标的检测能力,解决了当前感知系统的关键局限性。
Premachandra博士表示:“这种方法可以有效地应用于智能交通系统、自动驾驶和机器人导航等领域,在这些领域,可靠的全方位感知至关重要。具体而言,它非常适合用于路口监控和安全辅助,因为车辆、行人和骑行者可能同时从多个方向接近。”
欢欢@盖世汽车供应链
悠悠@盖世汽车
豆豆@盖世汽车





