0. 这篇文章干了啥?
近年来,自动驾驶已成为一个突出的研究领域。自动驾驶社区内已发布了众多高质量数据集,以支持车载感知系统(VPS)的研究,并取得了引人注目的成果。然而,VPS的有限视野经常导致对场景信息的短距离、不完整感知。为应对这一挑战,提出了基础设施侧感知系统(IPS)作为解决方案,以补充VPS的限制。IPS通常集成到基础设施设施中,提供广阔的视野和远程感知能力,从而支持车联万物(V2X)。
为了加速V2X研究,DAIR-V2X和V2XSeq数据集通过结合基础设施和车载视角,共同提升自动驾驶的安全性。尽管取得了这些进展,但它们仅依赖于基础设施侧视角,容易受到大型车辆遮挡的影响,导致短期盲点。这些盲点可能导致漏检,从而损害V2X系统的可靠性和安全性,特别是在交叉路口。
为克服这些不足,本文介绍了一种名为InScope的新型基础设施侧协同感知系统,该系统能够通过多位置激光雷达的合作覆盖感知场中的潜在盲点。InScope捕获系统集成了两个位于不同位置的激光雷达。主激光雷达被设计用于捕获基本的感知数据,而辅助激光雷达则通过捕获与解决盲点相关的信息来补充这一角色。这些激光雷达系统收集的数据子集分别被标识为InScope-Pri和InScope-Sec。
此外,DAIR-V2X数据集仅提供了3D目标检测基准,而没有提供轨迹标注。基于DAIR-V2X数据集,V2X-Seq数据集提供了额外的标注以实现轨迹跟踪和预测。
与DAIR-V2X和V2X-Seq数据集相比,提出的InScope数据集能够在不添加额外标注的情况下同时满足四个基准:3D目标检测、多源数据融合、数据域迁移和3D多目标跟踪。具体而言,3D目标检测基准主要计算交通参与者(如汽车、卡车、自行车、行人等)的3D信息,显著扩展了自动驾驶车辆的感知范围。多源数据融合基准可以评估不同范式下多源数据的鲁棒性,并严格评估融合机制对感知性能的影响。数据域迁移实现了无监督学习方法的开发和验证,同时促进了原本为车载数据集设计的最先进的3D检测器的应用。3D多目标跟踪基准通过追踪对象随时间的变化来扩展3D目标检测的能力,在V2X场景中,可以对被遮挡、较小和较远的对象进行完全跟踪,为交通环境提供动态和全面的理解。
下面一起来阅读一下这项工作~
1. 论文信息
标题:InScope: A New Real-world 3D Infrastructure-side Collaborative Perception Dataset for Open Traffic Scenarios
作者:Xiaofei Zhang, Yining Li, Jinping Wang, Xiangyi Qin, Ying Shen, Zhengping Fan, Xiaojun Tan
机构:中山大学
原文链接:https://arxiv.org/abs/2407.21581
代码链接:https://github.com/xf-zh/InScope
2. 摘要
自动驾驶车辆的感知系统容易受到遮挡的影响,特别是从以车辆为中心的角度来看。这种遮挡可能导致忽略物体检测,例如,大型车辆如卡车或公交车可能产生盲点,导致骑行者或行人被遮挡,从而加剧了与这种感知系统局限性相关的安全问题。为了缓解这些挑战,车联万物(V2X)范式建议使用基础设施侧感知系统(IPS)来补充自动驾驶车辆,以提供更广泛的感知范围。然而,真实世界中的3D基础设施侧数据集的稀缺性限制了V2X技术的发展。为了弥合这些差距,本文介绍了一个新的3D基础设施侧协同感知数据集,简称InScope。值得注意的是,InScope是第一个通过在基础设施侧战略部署多位置激光雷达(LiDAR)系统来解决遮挡挑战的数据集。具体来说,InScope包含了为期20天的捕获数据,包含303条跟踪轨迹和187,787个由专家标注的3D边界框。通过基准测试分析,提出了四种适用于开放交通场景的基准测试,包括协同3D目标检测、多源数据融合、数据域迁移和3D多目标跟踪任务。此外,还设计了一种新的度量标准来量化遮挡的影响,从而便于评估不同算法之间的检测退化率。实验结果表明,利用InScope在现实世界场景中检测和跟踪3D多目标时性能有所提高,特别是在跟踪被遮挡、较小和较远的物体时。数据集和基准测试可通过https://github.com/xf-zh/InScope获得。
3. 效果展示
图1展示了InScope的捕获过程和动机,强调了在高位安装传感器的基础设施,以提供更广阔的视野。图1的下半部分展示了两个点云实例,分别代表汽车和行人。虽然来自主激光雷达或辅助激光雷达的点各自构成了点段的一部分,但两者都无法捕捉到完整的边界。相比之下,融合后的点结合了来自两个激光雷达的所有可访问云点,为汽车或行人提供了更清晰的物体边界划分,从而增强了对相邻交通环境的全面感知。据我们所知,InScope是首个专注于基础设施到基础设施(I2I)协同感知中的抗遮挡感知的大规模数据集。它是实现V2X场景无盲点感知的理想解决方案。
4. 主要贡献
本研究的主要贡献可以总结如下:
• 本文介绍了一个大规模数据集(InScope),该数据集在真实环境中使用了多位置激光雷达,专门用于解决开放交通场景中I2I感知系统面临的遮挡挑战这一当前研究空白。
• InScope数据集不包含敏感信息,并结合了轨迹标注和188K个3D边界框。本文提供了四个基准来全面介绍该数据集,旨在为V2X研究领域做出有价值的贡献。
• 在I2I设置中,本文进一步提出了另一个度量标准(𝜉𝐷),以系统地评估I2I数据集的抗遮挡能力。该度量标准衡量了仅使用一个激光雷达传感器的场景与具有多个激光雷达的场景之间检测性能的下降比例。
• 我们在InScope上重现了几个常用的基线实验。全面的实验结果证实了利用InScope探索模型在不同现实世界数据集上的抗遮挡能力的有效性,从而为未来解决这一挑战的研究工作奠定了坚实的基础。
5. 实验结果
在InScope-Pri和InScope数据集上的3D目标检测:表3中展示了不同方法在InScope-Pri和InScope验证集上的检测结果。表3的底部可以总结如下:
卡车具有极其显著的特征,这显著提高了卡车检测的性能。随着目标尺寸的减小(如汽车、骑自行车的人和行人),基于点和基于体素的方法的检测性能急剧下降。例如,表3显示,在骑自行车的人这一类别中,PointRCNN和Pointpillar的检测准确率分别仅为62.91%和58.46%。基于体素和点的检测器的检测性能变化相对较慢,而PV-RCNN++在骑自行车的人这一类别中的检测准确率仍能达到70.92%。值得注意的是,由于基于中心的方法能够返回物体属性的机制,行人和骑自行车的人等小物体的检测准确率显著提高。例如,CenterPoint在骑自行车的人这一类别中仍能达到74.74%的检测准确率。同时,图5展示了CenterPoint方法在InScope数据集上的检测结果。从图5可以看出,基于InScope数据集的CenterPoint方法比基于InScope-Pri数据集的方法具有更高的目标检测性能。
在InScope-Pri和InScope数据集上的3D目标检测:表4和图6展示了更具体的实验结果,以定量分析各种方法的抗遮挡能力。通常,由于InScope数据集比InScope-Pri数据集具有更丰富的点云表示,因此期望方法在InScope数据集上表现出更优越的性能。为了定量测量和评估不同方法的抗遮挡检测能力,表4中采用了更多指标,即Gmclass、GmAP和ξD。因此,在两个数据集上,ξD的退化比越小,方法的抗遮挡能力越好,反之亦然。如图6所示,与Pointpillar和CenterPoint相比,PV-RCNN++表现出更低的性能退化比(79.99%),这凸显了通过整合点和体素特征在抗遮挡能力和整体鲁棒性方面所实现的优越性。
6. 总结 & 未来工作
本文提出了一种创新的基础设施侧、真实世界的InScope数据集,该数据集能够实现基础设施到基础设施(I2I)的视觉盲点补偿,并定量评估各种方法的抗遮挡检测能力。此外,该数据集建立了四个关键的感知基准,推动了V2X社区内感知模型的标准化。同时,本文在四个基准上使用了广泛的方法进行了全面的实验评估,为后续研究工作设定了严格的基线。实验表明,InScope数据集能够为远处或遮挡区域中的隐蔽和小物体提供稳健的跟踪性能,这可以显著增强V2X中的感知系统,促进更可靠的自动驾驶车辆技术的发展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门