专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

HybridOcc,融合Transformer与NeRF的3D语义场景补,解决无可见 Voxel 遮挡 !

智驾实验室  · 公众号  ·  · 2024-08-27 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

基于视觉的3D语义场景补全(SSC)通过3D体积表示来描述自动驾驶场景。然而,场景表面的无可见 Voxel 遮挡为当前的SSC方法在 hallucinating 细化3D几何带来了挑战。

本文提出了一种名为 HybridOcc 的混合3D体积 Query  Proposal 方法,该方法由 Transformer 框架和 NeRF 表示组合而成,并在粗到细的 SSC 预测框架中进行提炼。HybridOcc 通过基于混合 Query  Proposal 的 Transformer 范式聚合上下文特征,同时与 NeRF 表示结合,以获取深度监督。

Transformer 分支包含多个尺度,并使用空间交叉注意力进行2D到3D转换。新设计的 NeRF 分支通过体积渲染隐式地推理场景占用,包括可见和不可见的 Voxel ,并明确捕捉场景深度而不是生成 RGB 颜色。

此外,作者提出了一种创新能力强的占用感知光线采样方法,以指导 SSC 任务而不是专注于场景表面,从而进一步提高整体性能。在 nuScenes 和 SemanticKITTI 数据集上进行的实验证明了作者在 SSC 任务上 HybridOcc 的有效性。

I Introduction

基于相机的3D场景理解是自动驾驶感知系统的一个重要组成部分。它涉及到在车辆微小运动的情况下获取准确且全面的实际世界3D信息。近年来,多摄像头系统在深度估计和3D目标检测等任务中取得了与激光雷达竞争的结果。语义场景补全(SSC)最近得到了比3D目标检测更多的关注。因为SSC更适合自动驾驶下游任务,因为它可以表示任意形状和类别的场景。然而,从有限的观测视角推理出全面的语义场景是具有挑战性的。

单场景 [5] 提出直接通过特征投影将2D图像提升到3D Voxel ,用于SSC任务。最近,一些工作 将多视图相机的特征提升到3D表示,基于空间交叉注意力 [4]。Occ3D [8] 提出的粗糙到细粒度框架中的性能限制在于缺乏深度信号。

其他的研究 采用了额外的深度估计模块来提高3D Voxel 的表示质量,如图1(a)所示。FB-Occ [9] 使用了一个预训练的深度预测模型和一个深度感知反投影模型来帮助生成3D Voxel 特征。然而,大多数基于深度的方法主要关注场景的可见表面,而缺乏对被遮挡区域的推理。VoxFormer [7] 提出了一种基于自动编码器的附加模块 [13] 来考虑被遮挡的 Voxel ,但它的笨重两阶段结构并不利于端到端模型训练。各种现有方法都显示出深度信号对SSC任务的重要性。

值得注意的是,目前自动驾驶领域有两种类型的3D占用数据集,具有不同的功能。一种是只评估可见表面(图2(b))[8],而另一种是为了完整占用场景,即SSC任务(图2(a))[2, 14]。本文更关注SSC任务,考虑被遮挡的物体或区域。

目前SSC工作 [2, 6, 7] 大多受到遮挡的影响,使每个 Voxel 的特征包含许多歧义。因此,被遮挡的 Voxel 的占用预测仍然面临挑战。

神经辐射场(NeRFs)[15, 16]的引入极大地提高了3D场景重构性能。场景RF [16]设计了一种概率辐射场采样方法,并将其应用于自主驾驶场景的3D重构中。最近,一些方法 利用升置3D Voxel 特性进行深度和色彩渲染。由于基于NeRF的3D重构方法侧重于场景的可见表面,如图1(b)所示,SSC任务需要额外关注不可见区域的 Voxel 特性。因此,在SSC任务上直接应用NeRF模型可能会不利于优化隐函数和SSC任务。

为了解决这些问题,作者提出了HybridOcc,一种多摄像机语义场景补全方法。HybridOcc 通过在粗细 Level 之间进行NeRF表示和Transformer架构生成的混合占用 Proposal 的细微调优。如图1(c)所示,HybridOcc 包括两个分支。Transformer分支参考了SurroundOcc [2] 和Occ3D [8],使用可学习的交叉注意力将2D图像提升到3D体积,并逐渐从粗到细优化3D体积 Query 。NeRF分支创新地适应深度监督的体积渲染来预测完整的占用。由于无人驾驶场景中的遮挡问题给NeRF优化带来了挑战,作者提出了一种占用感知的辐射采样方法来优化大型辐射 Voxel 。隐函数通过在可见和不可见 Voxel 沿着光线上的占用感知的采样点来为SSC任务服务。在粗细 Level 中,每个层的需求需要仔细考虑占用先验知识。改善的NeRF可以对遮挡的不可见区域产生占用感。NeRF和粗粒度的Transformer生成的二进制占用被混合化作为一个新的体积 Query 集,用于优化语义占用。

总之,作者的贡献有三个:

1)作者提出了一种全新的Transformer和NeRF的互补组合的上下文特征聚合。由NeRF表示和Transformer框架生成的混合占用 Proposal 在粗到细的框架中逐行进行细微调优。

2)作者介绍了一种考虑所有可见和被遮挡的不可见 Voxel 的多相机神经辐射场,用于SSC任务。它将深度信号添加到从粗到细的SSC预测框架中,并包括占用感知的辐射采样策略。

3)大量实验证明了HybridOcc的有效性,它超越了基于深度预测网络如FB-Occ和VoxFormer的方法。

II Related Works

本文节主要介绍与机器学习、深度学习等相关的研究工作。这些工作为本文研究提供了重要的理论支持和参考。相关研究工作主要包括以下几个方面:

  • 机器学习的基本原理和算法
  • 深度学习的基本原理和算法
  • 机器学习和深度学习在计算机视觉、自然语言处理、语音识别等领域的应用
  • 深度学习模型的可解释性、安全性和可靠性问题
  • 深度学习模型在大规模数据上的训练和部署问题

在机器学习领域,传统的监督学习、非监督学习和半监督学习等算法已经被广泛应用,其中监督学习是最常见的一种,其基本思想是根据已知的输入-输出对应关系进行模型训练。非监督学习则不需要已知输入-输出对应关系,可以学习数据的潜在结构或聚类关系。半监督学习则在监督学习和非监督学习之间实现平衡。

在深度学习领域,卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和生成对抗网络(Generative Adversarial Network,GAN)等模型已经被广泛应用,其中卷积神经网络在图像识别和自然语言处理等方面表现出色,循环神经网络在时间序列数据建模和自然语言处理等方面应用广泛,生成对抗网络则可以在图像合成和自然语言生成等方面实现高效建模。

在计算机视觉领域,深度学习已经成为了主流技术,很多经典的计算机视觉算法,如SIFT、SURF、HOG等,已经被深度学习模型所取代。在自然语言处理领域,语言模型和深度学习模型也有很大的发展,如CBERT、BERT等模型在文本分类、命名实体识别等任务上表现出色,而GPT-3等模型在生成语言方面取得了突破性的进展。

在深度学习模型的可解释性、安全性和可靠性问题上,许多研究工作已经开始探索如何提高深度学习模型的透明度和可信度,以解决深度学习模型在实际应用中的问题。例如,通过模型压缩、模型剪枝、模型可解释性编码等方法来提高模型的解释性和可靠性;通过数据增强、模型正则化、模型融合等方法来提高模型的稳定性和可靠性。

在大规模数据上的训练和部署问题上,深度学习模型需要解决模型的可伸缩性和效率问题,以满足实际应用的需求。一些方法,如模型并行、模型梯度累积、模型优化等,已经在一定程度上解决了这个问题。

本文将在上述工作的基础上,结合具体问题和场景,探索深度学习技术的应用和改进。

3D Semantic Scene Completion.

3D语义场景补全可以提供更详细的理解自动驾驶场景。一些以前的工作[18, 19]是在小型室内场景中研究的。随着SemanticKITTI数据集[14]和nuScenes数据集[20]的发布,最近迅速提出了大规模自动驾驶场景的SSC(Sub-Static Scene Completion)标准[21, 22, 23]。

SurroundOcc[2]和Occ3D[8]分别构建了基于nuScenes的3D占用预测数据集,其中一个面向密集的SSC任务,另一个仅评价可见表面的占用。这些占用方法可以简洁地划分为基于深度预测的建筑3D Voxel 特征[6, 7, 9]和使用基于Transformer的可学习 Voxel 特征聚合[2, 8, 12, 24]。一些方法[25, 26, 9]引入了历史帧数据以解决深度预测和遮挡问题。OccFiner[26]提出了一种隐式捕获和处理多个局部帧的方法。

此外,一些方法[10, 11, 17]使用NeRF[15]表示探索占用任务,但它们更关注重建而不是SSC。作者提出一种将Transformer范例和NeRF表示的优点相结合来增强SSC任务性能的方法。

3D Scene Reconstruction.

3D场景重建旨在从单视图或多视图2D图像中模拟3D表面信息。早期的重建方法主要关注 Voxel (voxels)的显式表示[27],但如今,神经辐射场(NeRF)[15, 28]和3D高斯插值[29, 30]正变得越来越受欢迎,用于隐式重建。

考虑到NeRF渲染速度较慢,一些方法[31, 32, 33]在保持渲染质量的同时提高了渲染速度。

隐式重建基于图像特征的工作[34, 35]将物体级重建扩展到室内场景,并致力于构建通用隐式网络。 [34]和[35]采用从粗粒度到细粒度的方法将多尺度特征融合,以获取室内场景的更准确3D重建。场景射频(SceneRF)[16]提出了球面U-Net和概率光线采样以便将NeRF应用在大规模户外场景。

值得注意的是,在NeRF范式下的3D重建需要沿着光线集中的采样点靠近3D表面以获得更好的颜色或语义渲染。然而,对于SSC任务,更有意义的是将辐射场集中在占用的 Voxel 上。

III Approach

Overall Architecture

混合Occ(HybridOcc)的整体流程如图3所示。将多摄像头图像作为输入,作者使用图像backbone来提取多尺度摄像头特征。然后,作者通过双分支结构学习稀疏3D体积特征,该结构由Transformer框架和NeRF表示组成。具体来说,Transformer分支通过2D到3D转换模块,从多摄像头特征中学习3D体积形状的 Query 。混合3D Query 方案分别来自Transformer和NeRF,并在粗略到细致的过程中逐步优化(参见III-B)。在NeRF分支中,取代了普通的NeRF范式,使用新型的自主驾驶场景占用预测NeRF模块。体积渲染占用预测模型直接通过深度而非RGB颜色进行监督(参见III-C)。语义占用真实值监督多尺度体积语义占用预测。

Transformer Branch

从粗糙到细粒度的方法 。与SurroundOcc[2]中获得的密集3D卷积体[2]不同,作者采用从粗糙到细粒度的方法逐步细化稀疏卷积体,如图3上部所示。具体而言,每个尺度下3D卷积空间V_l的语义占用率O_l由一个MLP预测[2]。占用率低于占用阈值θ的 Voxel 被定义为空 Voxel 。第l个卷积体占用O_l被用作卷积体V_(l+1)的高分辨率 Query 先验位置分布的一部分,如图3中的紫色箭头和紫色方块所示。V_(l+1)的稀疏 Voxel 被记录为稀疏 Query 提出Q ,并从每个尺度的多相机特征中通过2D到3D模块学习得到Q_(l+1,s)。最后,Q_(l+1,s)通过跳跃连接与上采样Q_(l,s)相加并输入到MLP以预测1+1层语义占用率。语义占用预测可以表示为:

,其中upsample是2倍上采样,h(⋅)表示MLP。

值得注意的是,粗糙卷积体V_1的初始 Query  Proposal 是密集构建的。细粒度V_2, V_3和V_4的 Query  Proposal 的先验空间分布由每个尺度的Transformer分支和NeRF分支的二进制占用率混合而成(参见第III-C节)。

2D到3D变换 。受到最近基于Transformer的多相机3D感知方法[2, 4]的启发,作者将卷积体的3D参考点投影到2D相机以聚合特征。具体而言,与 Query q∈Q_l相应的3D参考点,根据给定的相机内参和外参,按照特定规则投影到2D特征图并进行变形自注意力(DeformAtt)以学习特征:

,其中X是多相机特征,W_m和W_m′是通过线性投影得到的权重,A_{mk}是注意力权重,A_{mk}∈[0,1],X(p+Δp_{mk})是对应于3D参考点p的采样特征,Δp_{mk}是与p对应的学习的位置偏移量。其他设置遵循SurroundOcc[2]和BEVFormer[4]。最后,通过3D稀疏卷积进一步优化体积形状的 Query Q,使得每个 Voxel  Query 子集关注到彼此局部信息。

Neural Radiance Field Branch

深度渲染监督 纯NeRF [15, 32]基于沿着光线经过的采样点(密度ρ)的密度优化一个连续辐射场 。其与渲染体积RGB的监督方法不同之处在于作者设计了一个基于SceneRF [16]的新辐射场,并采用了深度监督预测3D占用率。

NeRF子树枝如图3所示。它基于图像骨架的 级多摄像机特征 )进行占用预测和深度渲染。作者从每个摄像机像素坐标中均匀采样 个像素,沿这些像素每条穿过光线 sampling 个点。统一的采样策略与SceneRF [16]一致。然后,依据SceneRF,将 转化为球空间以获得 ,这样每个采样的点 可以投影到球空间以获取图像特征向量 。最终的点 的特征 和3D位置编码 被输入隐式表达式函数MLP以预测体积 的二进制占用率 。注意,NeRF子树枝只需要为 Query 提供Transformer基于的细粒度到粗粒度的结构先验空间分布信息,因此作者只预测无类别占用率。二进制占用预测隐式辐射场被定义为:

其中 级分辨率深度。

与众NeRFs [15, 36]使用从密度渲染颜色不同之处在于作者试图直接从辐射场中明确表示深度,实现深度体积渲染。在多尺度图像特征 分别上进行深度体积渲染,以便多尺度特征得到深度监督。对于 级特征,作者定义深度体积渲染如下:

开始:



其中 表示 通道的深度, 是第 个像素的总透射率,







请到「今天看啥」查看全文