专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
新京报评论  ·  诱导患者网贷4万元,恐怕不是医院“正常看病流 ... ·  58 分钟前  
主编温静  ·  B站发布2024年Q4及全年财报 ·  2 天前  
CHINADAILY  ·  Editorial丨China ... ·  2 天前  
CHINADAILY  ·  World丨Key exclusions ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

自动驾驶占据感知的综述:信息融合视角

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-11 02:03

正文

24年5月香港理工的论文“A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective“。

3D 占据感知技术旨在观察和理解自动驾驶车辆的密集 3D 环境。该技术凭借其全面的感知能力,正在成为自动驾驶感知系统的发展趋势,受到工业界和学术界的高度关注。与传统的鸟瞰(BEV)感知类似,3D占据感知具有多源输入的性质和信息融合的必要性。然而,不同之处在于它捕获了 2D BEV 忽略的垂直结构。

该综述回顾了 3D 占据感知的最新研究成果,并对各种输入模态的方法进行了深入分析。具体来说,总结了通用网络流水线,重点介绍了信息融合技术,并讨论了有效的网络训练。在最流行的数据集上评估和分析最先进的占据感知性能。此外,还讨论了挑战和未来的研究方向。

参考文献列表:https://github.com/HuaiyuanXu/3D-Occupancy-Perception。


如图所示是一个自动驾驶车辆系统框图。来自摄像头、激光雷达和雷达的传感数据使车辆能够智能地感知周围环境。随后,智能决策模块生成驾驶行为的控制和规划。占据感知在3D理解、密度和无遮挡方面超越了基于透视图、鸟瞰图或点云空间的感知。

占据感知源自占据网格映射(OGM)[21],这是移动机器人导航中的经典主题,旨在从噪声和不确定的测量中生成网格图。该地图中的每个网格都分配有一个值,该值对网格空间被障碍物占据的概率进行评分。语义占据感知源自 SUNCG [22],它从单个图像预测室内场景中所有体素的占据状态和语义。然而,与室内场景相比,研究室外场景的占据感知对于自动驾驶来说是必要的。MonoScene [23] 是仅使用单目相机进行室外场景占据感知的开创性工作。与 MonoScene 同期,特斯拉在 CVPR 2022 自动驾驶研讨会上宣布了其全新的仅摄像头占据网络[24]。这个新网络根据环视 RGB 图像全面了解车辆周围的 3D 环境。随后,占据感知引起了广泛关注,促进了近年来自动驾驶占据感知研究的激增。

早期的户外占据感知方法主要使用激光雷达输入来推断 3D 占据情况 [25,26,27]。然而,最近的方法已经转向更具挑战性的以视觉为中心的 3D 占据预测 [28,29,30,31]。目前,占据感知研究的主导趋势是以视觉为中心的解决方案,辅以以激光雷达为中心的方法和多模态方法。占据感知可以作为端到端自动驾驶框架内 3D 物理世界的统一表示 [7, 32],随后是涵盖检测、跟踪和规划等各种驾驶任务的下游应用程序。占据感知网络的训练很大程度上依赖于密集的 3D 占据标签,从而导致了多样化街景占据数据集的发展 [10,9,33,34]。最近,利用大模型的强大性能,大模型与占据感知的集成在减轻繁琐的 3D 占据注释的需求方面显示出了希望[35]。

下表详细介绍了自动驾驶占据感知的最新方法及其特征。该表详细说明了每种方法的发布地点、输入方式、网络设计、目标任务、网络训练和评估以及开源状态。根据输入数据的形式将占据感知方法分为三种类型:以激光雷达为中心的占据感知、以视觉为中心的占据感知和多模态占据感知。

其中

模态:C——相机;L——激光雷达;R——雷达。

特征格式:Vol - 体积特征;BEV——鸟瞰图特征;PV - 透视图特征;TPV - 三透视视图特征。

轻量级设计:TPV Rp - 三透视视图表征;稀疏 Rp - 稀疏表征。

头:MLP+T - 多层感知器接着加阈值。

任务:P——预测;F——预测;OP——开放词汇预测;PS - 全景分割。

损失:[几何] BCE - 二元交叉熵,SIL - 尺度不变对数,SI - Soft-IoU;[语义]CE - 交叉熵,PA - 位置感知,FP - 平截头体比例,LS - Lovasz Softmax,Foc - 焦点;[语义和几何] Aff - 场景-类别亲和,MC - 掩码分类;[一致性] SC - 空间一致性,MA - 模态对齐,Pho - 光度一致性;【蒸馏】KD——知识蒸馏。

如图所示:占据感知的架构,(a)激光雷达为中心网络:2D 分支 [68, 72], 3D 分支 [10, 25], 2D-3D 分支 [27];(b)视觉为中心网络,无时域融合 [28, 35, 75, 69, 33, 29, 89, 81, 76, 77] 和带时域融合 [73, 7, 53, 9, 79, 4];(c)多模态网络:点云和图像  [10, 87, 11, 14, 88]。

以 激光雷达 为中心的语义分割 [90,91,92] 仅预测稀疏点的语义类别。相比之下,以 激光雷达 为中心的占据感知提供了对环境的密集 3D 了解,这对于自动驾驶系统至关重要。对于激光雷达传感,获取的点云本质上是稀疏的,并且会受到遮挡。这要求以激光雷达为中心的占据感知不仅能够解决场景从稀疏到密集的占据推理,而且能够实现目标从部分到完整估计[11]。

图(a) 说明了以 激光雷达 为中心的占据感知一般流程。输入点云首先进行特征提取和体素化,然后通过编码器-解码器模块进行表示增强。最终推断出场景的完整且密集的占据。

受特斯拉自动驾驶汽车感知系统技术的启发[24],以视觉为中心的占据感知已经引起了工业界和学术界的广泛关注。与以激光雷达为中心的方法相比,仅依赖于摄像头传感器的以视觉为中心占据感知代表了当前的趋势。主要有以下三个原因:(i)摄像头对于在车辆上大规模部署来说具有成本效益。(ii) RGB 图像捕捉丰富的环境纹理,有助于理解场景和目标,例如交通标志和车道线。(iii) 深度学习技术的迅速发展使得从 2D 视觉实现 3D 占据感知成为可能。以视觉为中心的占据感知可分为单目解决方案[97,51,23,48,49,30,52,82,78]和多摄像头解决方案[50,98,28,35,58,73, 95、29、75、7]。多摄像头感知覆盖了更广泛的视野,遵循如图 (b )所示的一般流程。它首先从多摄像头图像中提取前视图特征图,然后进行 2D 到 3D 转换、空间信息融合和可选的时间信息融合,最后得到一个推断环境 3D 占据的占据头。

如下是视觉占据网络的主要架构组件图:(a)2D-3D转换;(b)空域信息融合;(c)时域信息融合。

摄像头捕获的RGB图像提供了丰富而密集的语义信息,但对天气条件变化敏感且缺乏精确的几何细节。相比之下,激光雷达或雷达的点云对天气变化具有鲁棒性,并且擅长通过精确的深度测量来捕获场景几何形状。然而,它们只产生稀疏特征。多模态占据感知可以结合多种模态的优点,并减轻单模态感知的局限性。上上图(c)说明多模态占据感知的一般流程。大多数多模态方法[10,87,11,14]将2D图像特征映射到3D空间,然后将它们与点云特征融合。此外,在融合过程中结合二维透视图特征可以进一步细化表征[13]。融合表征由可选的细化模块和占据头(例如 3D 卷积或 MLP)进行处理,以生成最终的 3D 占据预测。可选的细化模块[88]可以是交叉注意力、自注意和扩散去噪的组合[108]。

如下表是多模态3-D占据数据集:

如下表是3D占据网络感知在SemanticKitti测试集的性能比较:

如下表是Occ3D-nuScenes数据集的3D占据感知性能:

存在的一些挑战性问题:

3D占据感知能够全面了解3D世界并支持自动驾驶中的各种任务。现有的基于占据的应用程序包括分割、检测、交通预测和规划。(1)分割:语义占据感知本质上可以被视为3D语义分割任务。(2)检测:OccupancyM3D [5]和SOGDet [133]是两个基于占据的实现3D目标检测的工作。OccupancyM3D 首先学习占据率来增强 3D 特征,然后将其用于 3D 检测。SOGDet 开发了两个并发任务:语义占据预测和 3D 目标检测,同时训练这些任务以相互增强。(3)交通预测:Cam4DOcc[9]从占据的角度预测3D空间中的前景交通,并实现对周围3D环境变化的理解。(4)规划:OccNet[7]将物理3D场景量化为语义占据,并训练共享占据描述符。该描述符被馈送到各个任务头以实现驾驶任务。例如,运动规划头输出自车的规划轨迹。

然而,现有的基于占据的应用主要关注感知层面,较少关注决策层面。鉴于3D占据比其他感知方式(例如鸟瞰感知和透视感知)更符合3D物理世界,3D占据在自动驾驶中拥有更广泛的应用机会。在感知层面,它可以提高现有轨迹预测、3D目标跟踪和3D车道线检测的准确性。在决策层面,它可以帮助做出更安全的驾驶决策,并为驾驶行为提供 3D 可解释性。







请到「今天看啥」查看全文