专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

GEOcc | 一个为仅视觉环视感知量身定制的几何增强Occ占用网络,性能得到显著提升!

智驾实验室  · 公众号  ·  · 2024-06-04 14:32

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

3D占用感知在最近的以视觉为中心的自动驾驶系统中扮演着至关重要的角色,它通过将环视图像转换为密集3D网格中的综合几何和语义表示。然而,当前的模型仍然面临两个主要挑战:在2D-3D视图转换阶段准确建模深度,以及由于稀疏的激光雷达监督而缺乏泛化能力。

为了解决这些问题,本文提出了GEOcc,一个为仅视觉环视感知量身定制的几何增强占用网络。

作者的方法分为三个方面:

  1. 将基于提升的显式深度预测与基于隐式投影的 Transformer 相结合进行深度建模,增强了视图转换的密度和鲁棒性。
  2. 利用基于 Mask 的编解码器架构进行细粒度的语义预测;
  3. 在持续训练阶段采用上下文感知的自我训练损失函数来补充激光雷达监督,包括从3D占用特征重新渲染2D深度图,并利用图像重建损失以获得除了稀疏激光雷达真值之外的更密集的深度监督。

作者的方法在Occ3D-nuScenes数据集上以最小的图像分辨率和最轻量级的图像 Backbone 网络达到了最先进的表现,相较于当前模型,这标志着由于作者提出的贡献而提高了3.3%。全面的实验也证明了作者方法在 Baseline 和替代方法中的一致性优势。

I Introduction

近年来,用于自动驾驶的3D视觉从基于LiDAR的多模态融合显著转向基于图像的视觉中心感知,这主要是由于有望减少对成本高昂的LiDAR传感器的依赖。占用网络作为视觉中心方法的基石,通过将环视透视图像转换成附近环境的网格表示。这包括从鸟瞰图(BEV)占用到类似 Voxel 的三维占用格式。与BEV占用相比,3D占用能够为各种目标(例如,杆子、交通标志和桥梁)提供更精细的高度信息描述。因此,高保真的3D表示依赖于从2D图像中精确的深度预测和细粒度的语义特征。

尽管越来越多的研究聚焦于3D占用网络的设计,但遇到的普遍挑战是训练一个稳健的2D到3D视图转换网络,这本质上影响着下游占用预测的质量和准确性。这个挑战源于两个主要因素:1) 2D到3D的转换依赖于对多种尺度下各种目标的准确3D位置估计。然而,2D到3D的深度预测本质上是一个病态问题;2) 大多数开源数据集[1, 2]中的占用GT通常是从稀疏的LiDAR点生成的,这导致了稀疏性问题,限制了密集占用特征的可泛化性。特别是,在训练期间,许多与丰富图像特征相重叠的占用网格被 Mask 了。此外,仅依赖LiDAR监督可能导致现有占用模型的过拟合。

为了实现健壮的视角变换,主流占有率网络分别采用了显式深度建模(EDM)和隐式深度建模(IDM)。EDM使用一个特定的预测网络从图像中的像素外推到3D空间的深度概率分布,例如LSS [3],BEVDet [4] 和 OpenOccupancy [2]。EDM的优点在于其分割的深度预测过程,便于精确的深度估计;然而,激光雷达点的稀疏性限制了像素深度的监督。相反,IDM利用交叉注意力和自注意力机制直接将图像特征转换为占有率特征,如BEVFormer [5],TPVFormer [6]等。IDM的优势在于其增强了占有率特征的可微性和泛化性,这归功于其端到端的转换方法,尽管可能导致深度混淆。因此,结合显式和隐式方法的集成方法可能通过利用它们各自的优势,提供更有效的解决方案。

对于稀疏激光雷达监督,主流方法是将激光雷达点加密以覆盖更多的占有率网格[2, 1],通过网格重建、时间累积等。然而,受到如VFDepth [7]等当前自监督深度估计方法的启发,作者假设基于图像的自监督可能以一种新颖的方法减轻稀疏激光雷达问题。鉴于占有率特征源自图像特征,应用于2D视角的自监督能有效地将监督信号传播回占有率特征。同时,自监督可以利用来自多个摄像头及其时间相关性的信息,这大大扩展了激光雷达监督信号的范畴。

为了解决视角变换和稀疏激光雷达监督的挑战,作者引入了GEOcc,这是一个针对仅视觉环视感知的几何增强占有率网络。作者的方法分为三个方面:1) 一个基于提升的显式深度预测和基于投影的隐式深度预测框架,以改善占有率特征的密度和健壮性。具体来说,作者提出了隐式深度建模(IDM),显式深度建模(EDM)以及一个高效的深度融合模块。2) 一个基于 Mask 的编解码器结构,用于详细的语义预测,利用 Transformer 方法来细化占有率特征并生成语义预测,与传统的基于卷积的解码器[2]相对立。3) 一种考虑从3D占有率特征和图像重建损失重新渲染2D深度图以及稀疏激光雷达监督的上下文感知自我训练损失机制。作者采用了无标签自监督策略进行公平比较,这包括在预训练阶段适用的空间、时间和时空相机监督。

总结来说,作者的贡献如下:

  1. 作者提出了一种新颖的混合深度建模框架,以改善2D到3D视图转换,包括显式深度建模(EDM)和隐式深度建模(IDM),并通过轻量级融合模块进行整合。这种混合建模过程增强了3D占用特征的鲁棒性和泛化能力。
  2. 作者首次将2D上下文自监督融入到3D占用网络的训练中。这种方法利用渲染深度图之间的空间、时间和时空图像重建损失,以减轻由激光雷达稀疏性带来的限制。
  3. 作者将这些创新成功整合到一个基于 Mask 的 Transformer 编码器-解码器架构中,实现了端到端训练。
  4. 作者的方法在Occ3D-nuScenes数据集上展示了最先进的性能(44.7% mIoU),与现有方法相比,所需的图像分辨率最低,使用的图像 Backbone 网络最轻量,并且由于作者提出的贡献,mIoU提高了3.3%。

II Related Work

Explicit-Implicit View Transformation.

近年来,基于视觉的3D感知因其在成本效益和数据收集方面的优势而被广泛研究[8]。起初的努力集中在将2D图像特征转换为鸟瞰图(BEV)平面,以提高检测和规划能力,利用深度线索进行精确的3D定位。开创性研究LSS[3]及后续的基于BEV的检测方法[4, 5]明确预测每个像素的深度分布,以将2D特征投影到3D特征。后续研究引入了隐式方法,从BEV发展到完整的3D占用感知,采用注意力机制学习视图变换。尽管有了这些进步,但在仅视觉条件下,很少有人有效地整合了隐式和显式深度方法进行3D占用。

例如,FB-OCC[14]试图通过基于BEVFormer的后向投影来增强显式深度预测,但其隐式BEV建模忽略了垂直维度细节。作者的工作GEOcc旨在有效结合两种深度范式的优势。与FB-OCC不同,GEOcc通过结合隐式和显式模块的3D占用表示,辅以创新的占用压缩器和多尺度基于 Mask 的编码器-解码器结构来进一步细化占用特征。

3D Occupancy Prediction

近年来,三维占用预测任务受到了越来越多的关注,它源于语义场景重建(SSC)任务。一些先前的工作[15, 16, 17, 18]探索了使用占用网格地图来感知自动驾驶环境。然而,由于缺乏语义类别,简单的0-1分类并不能提供对环境的丰富理解。[19]引入了语义分割,并尝试使用原始雷达数据作为输入。

[20]将贝叶斯学习应用于占用任务。三维占用预测领域可以划分为三个主要研究流:基于激光雷达的占用预测(与完成任务相关)[21, 22, 23, 24],仅基于相机的占用预测,以及集成激光雷达-相机占用预测[2, 28]。激光雷达可以作为信息丰富的提示,实质性提高当前占用预测结果的准确性,使得能够在即将到来的时间框架内预测4D占用动态[21, 23]。

然而,仅基于相机的占用预测在提高准确性方面更具挑战性,因为在不使用激光雷达输入的情况下,2D到3D视图变换的鲁棒性和泛化性存在瓶颈。COTR[29]关注紧凑型表示,但在视图变换上缺乏丰富的2D监督信息。为此,作者的GEOcc关注仅基于视觉的占用预测,并尝试在视图变换过程中几何增强。

Volume Rendering for Self-Supervision

最近的占用模型,如RenderOcc [12],UniOcc [25]和Self-Occ [26],开始使用体积渲染[30, 31]从图像[32]中获得监督。然而,与领先的方法相比,它们的表现通常不太具有竞争力。作者假设同时为自监督渲染深度和语义图显著复杂化了3D占用模型的收敛。

由于几何重建对于准确的占用建模是基础性的,作者选择通过体积渲染技术利用纯几何预训练。

作者的方法通过引入三部分上下文自监督损失与上述研究区分开来:

空间、时间和时空。这三组损失提供了更密集的监督。

III Method

Problem Setup

三维占有率预测任务旨在根据输入的环视2D相机图像推理三维空间中每个 Voxel 是否被物体占据,及其对应的语义标签。作者将输入图像定义为 ,其中 表示 个相机中的第 个, 表示当前时间戳 及其历史 帧的时间。 分别代表图像的高度和宽度。然后,三维占有率预测可以表述如下:

其中 是一个图像 Backbone 网络, 是一个2D到3D视图转换函数, 分别是 Voxel 编码器和解码器。 分别对应初始占有率特征、精细化占有率特征和最终的分类预测。通常,作者对每个 Voxel 执行 分类。这包括 个内在被认为占据的语义标签和一个额外的“空闲”标签,表示未被占据的状态。

Network Structure

作者的框架如图2所示,包含三个关键组成部分。

首先,作者同时使用显式和隐式的2D到3D视角转换从2D图像特征获取3D占用特征。然后,使用基于 Mask 的编码器-解码器结构来获得全面的占用表示和每个 Voxel 级的语义标签。最后,为了增强作者的占用网络的几何感知能力,作者引入了自监督几何预训练来初始化网络权重。

2D到3D视角转换。 在仅视觉的占用任务中,由于缺乏明确的深度信息,3D占用特征通常不准确,或者由于缺乏隐式相关性而过度拟合。为了提高这些特征的质量,作者实现了一种显式和隐式深度建模的组合方法。对于显式深度建模,作者使用辅助深度网络来预测每个像素的深度分布 ,其中 表示深度分量的数量。通过图像 Backbone 提取图像特征 ,其中 表示图像通道的数量,作者对广播外积 进行操作,将像素提升到相机坐标中的类似网格的伪激光雷达点 。然后作者将伪点转换到世界坐标中,根据它们的3D位置将它们变换到固定分辨率的新的 Voxel 网格 中,并最终进行3D Voxel 池化以生成显式占用特征

对于隐式深度建模,作者预定义了可学习的占用 Query ,对其应用自注意力和可变形交叉注意力[33]。具体来说, Query  Voxel 中的每个3D点投影到图像平面上,以采样与键和值相关的特征。然后,采用可变形交叉注意力层隐式地将2D特征转换为3D占用特征 。最终的占用特征是 的 ConCat 。整个2D到3D视角转换可以表示为以下形式:

其中 是相机外参和内参, 表示在特征维度上的 ConCat 。

占用特征压缩层。 通常由于离散的深度区间,从显式深度建模得到的占用特征存在场景稀疏性问题,而隐式深度建模往往会导致特征冗余,因为多个 Voxel 通常会投影到同一图像区域。为了缓解这两个问题,作者在拼接后使用一个压缩层来强化占用特征。这个层本质上是一个步长为2的卷积层,将占用分辨率从 降低到 。EDM和IDM的拼接缓解了EDM的稀疏性问题以及IDM的冗余问题。卷积层进一步减少了特征参数的数量,从而得到紧凑的占用特征。

基于 Mask 的 Transformer 编码器-解码器结构。 通过隐式-显式深度建模获得的占用特征 需要更有效的整合和理解。受到OccFormer [11]的启发,作者使用一个 Transformer 编码器,记为 ,来生成多尺度占用特征。作者的编码层包含一个窗口划分的自我注意力和一个下采样卷积,可以表示为,

在这个方程中, 分别表示 Query 、键和值矩阵; 是偏差矩阵; 表示每个窗口中的 Patch 数量; 表示维度。在基于窗口的注意力之后,下采样卷积产生多尺度占用特征,记为 ,对于尺度 。然后作者利用如[34]中提出的多尺度可变形注意力来将这些特征融合到聚合占用特征 中。

对于解码器,作者在 上应用Mask2Former [34]解码器头,其中 Mask 注意力操作可以表示为,

其中 表示在第 层的 个具有 维度的语义 Query , 表示从前一层预测的二值 Mask 。线性变换 分别将语义 Query 和占用特征 映射到新的特征空间作为 Query 、键和值。在 Mask 注意力步骤之后,采用前馈网络(FFN)层进行特征投影。作者使用加法和归一化来构建残差连接。最终,通过 MLP 处理最终的 Query 特征 来预测语义类别 ,并通过方程式 4 生成对应的二进制3D Mask 用于

Self-supervised Geometric Pretraining

先前的研究已经证明了在占用预测等相关任务中深度估计的重要性[4, 14]。然而,仅仅依赖稀疏的激光雷达数据来进行深度和占用监督往往限制了导出占用特征的可泛化性。为了解决这个问题,作者提出了将上下文感知自监督训练(CAST)的新集成方法引入到3D占用网络框架中。基本思想是利用占用特征渲染环视深度,并使用图像重建的光度损失来监督密集深度。整个过程是自监督的,无需额外的3D标签。作者在预训练阶段使用这个损失函数来增强作者网络的几何理解。

渲染环视深度图。 为了获得每个视角的深度图,作者从 Transformer 编码器 获得的占用特征 开始。 首先被插值到全分辨率,并使用MLP层来预测每个 Voxel 的密度 。对于每个像素,从相机中心 出发,沿着方向 绘制一条射线到相机坐标空间。这些射线 可以用方程 描述,其中 控制射线的长度。随后,作者沿着射线 以等间隔采样 个点,得到点集 。遵循基于NeRF的体积渲染技术[30, 35],给定射线的渲染深度值 由以下方程确定:

其中 是射线 的累积透射率, 是两个连续点之间的间隔, 表示第 个采样点的密度。这个过程是连续神经渲染的离散近似,将3D密度场转换为2D深度图。

环境感知自训练损失。除了来自投影激光雷达的稀疏深度监督之外,作者还使用按时间顺序排列的环视图像 为自训练范式提供密集监督,其中 表示相机索引, 代表时间戳。给定渲染的深度图 和自我车辆姿态矩阵 ,可以将参考图像







请到「今天看啥」查看全文