0. 这篇文章干了啥?
自动驾驶技术的快速发展旨在通过提高安全性、效率和便利性来彻底改变交通运输。在自动驾驶车辆的能力中,三维物体检测是实现精确环境感知的关键。三维物体检测在识别和理解车辆周围物体方面发挥着至关重要的作用,有助于执行诸如物体跟踪、避障和路径规划等任务。该技术利用各种传感器,包括相机、激光雷达和多传感器融合,每种传感器都有其独特的特性和优势,适用于不同场景。
随着深度学习的不断进步和计算能力的增加,使用深度学习技术实现自动驾驶的目标似乎触手可及。学术界和工业界都投入了大量资源进行研究,推动了自动驾驶技术的快速发展以及新技术和新方法的涌现。其中一些方法通过细化三维物体感知来提高检测的粒度,而另一些方法则专注于实现更广泛的检测范围。甚至还有一些方法直接绕过感知模块,转而采用端到端驾驶。因此,有必要总结和分析最新的三维物体检测方法,并与不同的发展趋势进行比较,以全面理解自动驾驶感知领域的整体情况。
为了实现这一目标,我们全面回顾了最新的三维物体检测方法,包括基于相机的、基于激光雷达的和基于融合的方法。我们还总结了三维物体检测的新方向,包括时间感知、三维占用网格、端到端自动驾驶和协同感知。此外,我们还汇编和总结了不同方法所使用的数据集和评估指标,以更好地促进研究比较。与以往仅侧重于总结基于图像、基于激光雷达或多模态方法的综述相比,我们提供了对自动驾驶感知的全面和广泛视角,并辅以比较分析,为读者提供了新颖的观点。
本文的主要贡献如下:
据我们所知,本文首次总结和分析了自动驾驶环境感知的不同发展趋势,提供了对三维物体感知演变和未来趋势的整体视角。
我们对基于相机、基于激光雷达和基于融合的三维物体检测的最新方法进行了全面总结、分类和分析。
我们提供了自动驾驶环境中感知的全景视图,不仅全面总结了感知方法,还汇编了不同方法所使用的数据集和评估指标,以促进研究见解。
本文的结构如下:图1提供了章节结构的概述,概述了关键部分及其关系。在第2节中,我们介绍了自动驾驶中三维物体检测的数据集和评估指标及其发展趋势。在第3节中,我们全面总结了基于相机、基于激光雷达和基于融合的单车感知方法。在第4节中,我们总结了自动驾驶中三维物体检测的发展趋势,包括时间感知、三维占用网格、端到端自动驾驶和V2X协同感知。在第5节中,我们讨论和总结了自动驾驶环境感知技术,并提出了未来的研究方向。最后,在第6节中,我们对本文进行了总结。
1. 论文信息
标题:A Comprehensive Review of 3D Object Detection in Autonomous Driving: Technological Advances and Future Directions
作者:Yu Wang, Shaohua Wang, Yicheng Li, Mingchun Liu
原文链接:https://arxiv.org/abs/2408.16530
github链接:https://github.com/Fishsoup0/Autonomous-Driving-Perception
2. 摘要
近年来,三维物体感知已成为自动驾驶系统发展的关键组成部分,为自动驾驶提供了重要的环境感知能力。然而,随着自动驾驶中感知任务的不断发展,其变体不断增加,从而引发了来自工业界和学术界的多种见解。目前,尚缺乏从更广泛角度收集和总结这些感知任务及其发展的全面综述。本文广泛总结了传统的三维物体检测方法,重点关注基于相机的、基于激光雷达的以及融合检测技术。我们全面分析了每种方法的优缺点,并强调了准确性和鲁棒性方面的进步。此外,我们还讨论了未来方向,包括提高准确性的方法,如时间感知、占用网格和端到端学习框架。我们还探讨了通过协同通信扩展感知范围的协同感知方法。通过提供三维物体感知当前状态和未来发展的整体视角,我们旨在为自动驾驶中的感知任务提供更全面的理解。此外,我们还建立了一个活跃的存储库,以提供该领域最新进展的持续更新,访问链接为:https://github.com/Fishsoup0/Autonomous-Driving-Perception。
3. 数据集
在自动驾驶和车辆通信技术快速发展的背景下,高质量数据集在推动技术进步方面的作用日益凸显。诸如KITTI、NuScenes和Waymo Open Dataset等开创性数据集,通过提供激光雷达点云和360度全景相机数据,为单车感知领域的研究提供了多种现实场景,极大地促进了自动驾驶技术的发展。如表1所示,这些数据集为后续端到端自动驾驶和3D占用网格数据集的构建奠定了坚实基础。
在端到端自动驾驶研究中,开环测试通常依赖于NuScenes等数据集,而闭环测试则更多依赖于Carla、LGSVL Simulator和Microsoft AirSim等模拟器。这些工具提供了可控的虚拟环境,以模拟复杂的交通状况。在此基础上,3D占用网格数据集也得到了广泛应用和发展。Semantic KITTI和KITTI-360等数据集通过将环境划分为小网格单元并确定每个单元的占用状态,提供了更精细的空间表示,极大地提高了路径规划和碰撞检测的准确性。Occ3D和Lyft Level 5等数据集则通过整合来自多个传感器的数据,进一步推动了3D占用网格技术的发展。
推荐学习:
国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程
随着研究的深入,车辆与车辆(V2V)、车辆与基础设施(V2I)以及基础设施与基础设施(I2I)通信领域的协同感知已成为新的研究热点。这推动了V2X通信系统的发展,并催生了几个关键数据集。作为首个专注于V2V协同感知的模拟数据集,OPV2V为该领域奠定了基础。V2XSet和V2X-Sim则进一步扩展了对各种V2X场景的研究,涵盖了更复杂的协同感知场景。然而,模拟数据集与现实世界之间的差异促使研究人员开发更接近实际应用场景的数据集。V2X-Real和DAIRV2X等大型现实世界数据集的出现,推动了协同感知研究的发展。TUMTraf-V2X数据集通过在复杂交叉路口收集数据并提供带有精确GPS和IMU数据的3D标注,进一步促进了复杂多智能体环境中的应用研究。
数据集的发展将继续在多个方向上推进。首先,多模态数据的融合将得到进一步增强,特别是在复杂环境中。其次,结合现实世界和模拟数据以缩小两者之间的差距,将是提高算法在实际应用中可靠性的关键领域。此外,增加大规模长期数据的收集,涵盖不同的天气、光照条件和交通流量,将有助于提升模型在各种复杂环境中的泛化能力。
4. 3D占用预测
在自动驾驶领域,基于激光雷达(LiDAR)的3D占用技术为环境提供了更为详细和全面的理解。通过对点云数据进行语义占用预测,不仅可以确定物体的位置,还能捕捉其精细结构。为实现这一目标,研究人员提出了各种创新方法。PointOcc模型通过圆柱三视角视图(Cylindrical Tri-Perspective View,简称Cylindrical TPV)为点云数据引入了一种新颖的表示方法。这种视角增强了点云的全面描述能力,并通过与二维主干网络的处理能力相结合,有效地对三维信息进行建模,解决了三维语义占用预测中的关键问题。此外,DIFs提出了一种基于局部深度隐式函数(Local Deep Implicit Functions)的创新方法进行场景分割。该方法利用连续函数表示激光雷达数据,从而绕过了传统体素化方法的空间离散化限制,实现了对原始点云的局部编码以及对全局场景的精确重建。OCF则引入了一项新的激光雷达感知任务——占用完成与预测(Occupancy Completion and Forecasting,简称OCF)。通过将场景完成与占用预测相结合,该方法解决了从稀疏到密集重建、从部分到完整的幻觉推理以及空间到时间维度的预测等挑战。研究人员开发了OCFBench数据集,并对基线模型进行了评估,结果表明,这种新方法在处理复杂的动态环境时表现尤为出色,为四维感知研究提供了新的方向。
这些研究不仅在各自技术领域取得了突破,而且相互补充,共同推动了自动驾驶领域环境感知技术的发展。通过这些方法,自动驾驶系统能够更精细地理解周围环境,为安全可靠的驾驶决策提供了坚实的基础。如表2所示,这些方法在理解环境的能力上各不相同,凸显了它们所能达到的不同细节水平和准确度。
5. 讨论
在自动驾驶领域,三维感知技术的发展正朝着更加精简和全面的方法迈进。这些新兴技术整合了来自摄像头、激光雷达(LiDAR)和雷达等多种传感器的数据,以提供更完整、更精确的环境感知。多模态融合方法通过结合不同传感器的数据,克服了单一传感器的局限性。例如,虽然激光雷达提供了精确的深度信息,但摄像头捕捉了丰富的色彩和纹理细节;这些数据的融合显著提高了检测的准确性和鲁棒性。此外,时序感知技术利用连续帧之间的信息,进一步改善了动态场景中物体的检测和跟踪,并减轻了系统延迟带来的风险。三维占用网格允许更细粒度的空间检测,而车联万物(V2X)技术则通过连接车辆与其他智能设备来扩展检测范围,从而增强了整体感知能力。端到端自动驾驶框架试图通过统一的网络结构直接从原始传感器数据中生成驾驶指令,以简化系统架构并提高响应速度。
这些技术的不断进步极大地提升了自动驾驶系统在复杂和动态环境中的性能。然而,尽管端到端框架作为未来发展方向具有巨大潜力,但其实现往往伴随着高昂的计算成本和复杂的模型设计。对于许多研究团队而言,训练和部署这些大型网络模型需要大量的硬件支持和计算资源,这在实际研究和应用环境中可能并不总是可行的。因此,独立的三维物体检测技术仍然占据重要地位。尽管它可能没有三维占用网格或端到端框架那样受到广泛关注,但三维物体检测技术并不代表过时技术。相反,它在计算效率、资源需求和广泛应用性方面具有独特优势。三维物体检测方法可以在不依赖复杂融合技术或巨大计算资源的情况下,提供准确可靠的检测结果。此外,该方法在自动驾驶以外的领域,如机器人导航、无人机飞行、增强现实/虚拟现实(AR/VR)和智能监控等,也展现出了巨大的潜力。
展望未来,随着车联万物(V2X)技术、端到端自动驾驶以及其他技术的不断发展和融合,自动驾驶系统将实现更高水平的安全性和智能化。车辆、交通基础设施、其他车辆和行人之间的实时信息交换将使我们能够更全面地理解环境,从而做出更快、更准确的驾驶决策。此外,随着5G网络和未来6G技术的发展以及车辆计算能力的不断提升,实时数据传输和处理将得到显著增强,支持更大规模的协同感知和云计算。这些进步不仅将推动自动驾驶技术在复杂场景中的应用,还将引领智能交通系统向更高效、更安全的方向发展。
6. 总结
本文全面回顾了三维物体检测技术的当前状态和发展趋势,基于摄像头、激光雷达和多传感器融合等多种方法进行了深入分析。我们强调了每种方法的优缺点及其在自动驾驶中的潜在应用。此外,我们还探讨了自动驾驶环境感知技术的新兴趋势,包括时序感知、三维占用网格、端到端自动驾驶和协同感知。通过比较不同方法,本文展示了它们在各种场景中的优势,并突出了硬件需求的差异。研究人员应根据自身具体条件选择最合适的方法,而不是盲目跟风。本研究为自动驾驶领域的研究人员提供了清晰的技术路线和方法指导,通过对三维物体检测技术的深入分析,为未来自动驾驶系统的开发和优化提供了有价值的见解。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球