专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

香港大学提出|UniMODE:统一单目3D物体检测

智驾实验室  · 公众号  ·  · 2024-06-02 08:00

正文

点击下方卡片,关注 「集智书童」 公众号

点击加入👉 「集智书童」 交流群


实现统一的单目3D目标检测,包括室内和室外场景,在机器人导航等领域具有重大意义。然而,由于数据场景的显著不同特性,如图形属性的多样性和异质领域分布,将各种数据场景融入模型训练中提出了挑战。为了应对这些挑战,作者基于鸟瞰图(BEV)检测范式构建了一个检测器,其中明确的特征投影有助于在采用多种场景数据训练检测器时解决几何学习的不确定性。接着,作者将经典的BEV检测架构分为两个阶段,并提出了一个不均匀的BEV网格设计来处理由上述挑战引起的收敛不稳定性。此外,作者开发了一种稀疏BEV特征投影策略以减少计算成本,以及一种统一的领域对齐方法来处理异质领域。结合这些技术,作者得到了一个统一的检测器UniMODE,它超越了之前在具有挑战性的Omni3D数据集(一个包括室内外场景的大规模数据集)上的最佳性能,提高了4.9% ,这是BEV检测器首次在统一3D目标检测上的成功泛化。

1 Introduction

单目3D目标检测旨在仅使用相机捕获的单张图像准确确定目标的确切3D边界框[13, 16]。与其他基于模态(如激光雷达点云)的3D目标检测相比,基于单目的解决方案在成本效益和全面的语义特征方面具有优势[17, 19]。此外,由于其在自动驾驶[8]等广泛应用领域的潜力,单目3D目标检测最近受到了很多关注。

得益于研究界的努力,已经开发出了众多检测器。有些是针对户外场景[9, 38],如城市驾驶设计的,而其他则专注于室内检测[28]。尽管这些检测器的共同目标是单目3D目标检测,但它们在网络架构上存在显著差异[5]。这种分歧阻碍了研究行人将各种场景的数据结合起来,训练一个在多样化场景中表现良好的统一模型,这是许多重要应用(如机器人导航[30])所需求的。

统一3D目标检测中最关键的挑战在于解决不同场景的独特特性。例如,室内物体通常较小且相互之间距离较近,而室外检测需要覆盖广阔的感知范围。最近,Cube RCNN [5] 成为研究这一问题的先驱。它直接在相机视图中生成3D框预测,并采用深度解耦策略来克服场景之间的领域差距。然而,作者观察到它存在严重的收敛困难,并且在训练过程中容易崩溃。

为了克服Cube RCNN不稳定收敛的问题,作者采用了近期流行的鸟瞰图(BEV)检测范式来开发一个统一的3D目标检测器。这是因为BEV范式中的特征投影将图像空间与3D现实空间明确对齐[15],这缓解了单目3D目标检测中的学习歧义。然而,经过大量探索后,作者发现简单地采用现有的BEV检测架构[15, 18]并不能取得令人满意的效果,这主要归咎于以下障碍。

首先,如图1(a)和(b)所示,室内外场景之间的几何属性(例如,感知范围,目标位置)差异很大。具体来说,室内物体通常距离摄像头几米远,而室外目标可能超过100米远。由于需要一个统一的鸟瞰图(BEV)检测器来识别所有场景中的物体,BEV特征必须覆盖最大可能的感知范围。同时,由于室内物体通常较小,室内检测所需的BEV网格分辨率需要非常精确。所有这些特性可能导致收敛不稳定和计算负担加重。为了应对这些挑战,作者开发了一个两阶段的检测架构。在这个架构中,第一阶段产生初始目标位置估计,第二阶段利用这个估计作为先验信息来定位目标,这有助于稳定收敛过程。此外,作者引入了一种创新的非均匀BEV网格分割策略,在保持可管理的BEV网格大小的同时扩展了BEV空间范围。此外,还开发了一种稀疏BEV特征投影策略,将投影计算成本降低了82.6%。

另一个障碍源于不同场景中的异构领域分布(例如,图像风格,标签定义)。例如,如图1(a)、(b)和(c)所示,数据可以在真实场景中收集或虚拟合成。此外,比较图1(c)和(d),一类目标可能在某个场景中被标注,但在另一个场景中未被打标签,这会导致网络收敛时的混淆。为了处理这些冲突,作者提出了一个由两部分组成的统一领域对齐技术,包括领域自适应层归一化以对齐特征,以及用于缓解标签定义冲突的类别对齐损失。

结合所有这些创新技术,开发了一种名为UniMODE的统一单目目标检测器,它在Omni3D基准测试中取得了最先进(SOTA)的性能。在统一检测设置中,UniMODE在 (基于3D交并比的平均精度)方面以令人印象深刻的4.9%超过了SOTA检测器Cube RCNN。此外,当分别在室内和室外检测设置中评估时,UniMODE分别比Cube RCNN高出11.9%和9.1%。这项工作代表了一次探索将鸟瞰图(BEV)检测架构推广到统一检测的先驱性尝试,无缝整合了室内和室外场景。它展示了BEV检测在广泛场景中的巨大潜力,并强调了这项技术的多功能性。

2 Related Work

单目3D目标检测。 由于其经济和灵活的优势,单目3D目标检测吸引了大量研究关注[22]。现有的检测器大致可以分为两类:相机视角检测器和鸟瞰图(BEV)检测器。其中,相机视角检测器在将结果转换为3D真实空间之前,在2D图像平面上生成结果[10, 25]。这一组通常更容易实现。然而,从2D相机平面到3D物理空间的转换可能会引入额外的误差[32],这会对通常在3D空间进行的下游规划任务产生负面影响[7]。

另一方面,BEV检测器先将2D相机平面上的图像特征转换到3D物理空间,然后在3D空间生成结果[12]。这种方法有利于下游任务,因为规划也是在3D空间进行的[18]。然而,BEV检测器面临的挑战是,特征转换过程依赖于准确的深度估计,仅凭相机图像很难实现这一点[23]。因此,在处理不同的数据场景时,收敛变得不稳定[5]。

统一目标检测。 为了提高检测器的泛化能力,一些研究探索了在模型训练过程中整合多个数据源[14, 34]。例如,在2D目标检测领域,SMD [40] 通过学习一个统一的标签空间来提高检测器的性能。在3D目标检测领域,PPT [36] 研究了如何利用来自不同数据集的广泛的3D点云数据进行检测器的预训练。此外,Uni3DETR [35] 展示了如何设计一个统一的基于点的3D目标检测器,该检测器在不同的领域表现良好。对于基于相机的检测任务,Cube RCNN [5] 是统一单目3D目标检测研究的唯一先驱。然而,Cube RCNN 面临着收敛不稳定的问题,这需要在此领域进行进一步的深入研究。

3 Method

Overall Framework

UniMODE的整体框架如图2所示。如图所示,从多种场景(例如,室内和室外,真实和合成,白天和夜晚)采样的单目图像 被输入到特征提取模块(包括一个 Backbone 网络和一个 Neck 网络),以生成代表性特征 。然后, 被4个全卷积头处理,分别称为“域头”、“ Proposal 头”、“特征头”和“深度头”。其中,域头的作用是预测输入图像与哪个预定义数据域最相关,域头产生的分类置信随后用于域对齐。 Proposal 头旨在在6个Transformer解码器之前估计粗糙的目标分布,估计的分布作为第二阶段检测的先验信息。这种设计缓解了不同训练域之间的分布不匹配(参见第3.2节)。 Proposal 头的输出被编码为 个 Proposal  Query 。此外, 个 Query 是随机初始化的,并与 Proposal  Query 连接起来用于第二阶段的检测,导致在第二阶段有 个 Query 。

特征头和深度头负责将图像特征投影到BEV平面并获得BEV特征。在这个投影过程中,作者开发了一种技术来去除不必要的投影点,这大约减少了82.6%的计算负担(参见第3.4节)。此外,作者提出了不均匀的BEV特征(参见第3.3节),这意味着距离摄像机更近的BEV网格拥有更精确的分辨率,而距离摄像机更远的网格覆盖更广的感知区域。这种设计很好地平衡了室内检测和室外检测之间网格大小的矛盾,而且不增加额外的内存负担。

获取到投影的鸟瞰图(BEV)特征后,采用一个BEV编码器进一步细化特征,并采用6个解码器生成第二阶段的检测结果。正如之前所述,在这个过程中使用了 个 Query 。在6个解码器之后,通过 Query FFN将这些 Query 解码为检测结果。在解码器部分,设计了统一的域对齐策略,通过特征和损失的角度对各种场景的数据进行对齐。更多细节请参考第3.5节。

Two-Stage Detection Architecture

室内外三维目标检测的整合颇具挑战性,这主要是因为不同的几何特性(例如,感知范围、目标位置)。室内检测通常涉及近距离目标,而室外检测则关注在更广阔的三维空间中分散的目标。如图3所示,室内外检测场景中的感知范围和目标位置存在显著差异,这对于传统的鸟瞰图(BEV)三维目标检测器来说是一项挑战,因为它们具有固定的BEV特征分辨率。

几何属性差异被识别为导致BEV检测器不稳定收敛的一个重要原因[15]。例如,目标位置分布差异使得基于Transformer的检测器难以学习如何逐渐将 Query 参考点更新到关注目标。实际上,通过可视化作者发现,在6个Transformer解码器中的参考点更新是混乱的。因此,如果作者采用经典的可变形DETR架构[41]来构建一个3D目标检测器,由于学习到的参考点位置不准确,训练很容易崩溃,导致梯度突然消失或爆炸。

为了克服这一挑战,作者采用两阶段检测的方式构建了UniMODE。在第一阶段,作者设计了一个类似于CenterNet [39]风格的 Head (图2中的 Proposal  Head )来生成检测 Proposal 。具体来说,它预测的属性包括目标的2D中心高斯 Heatmap 、从2D中心到3D中心的偏移以及3D中心的深度。 Proposal 的3D中心坐标可以通过这些预测属性得出。然后,选择置信度最高的前 个 Proposal ,并通过一个多层感知机(MLP)层将其编码为 个 Proposal  Query 。为了考虑到可能遗漏的任何目标,将另外 个随机初始化的 Query 与这些 Proposal  Query 连接起来,在第二阶段的6个解码器中进行信息交互(即 Transformer 阶段)。通过这种方式,第二检测阶段的初始 Query 参考点能够自适应调整。作者的实验表明,这种两阶段架构对于稳定收敛至关重要。

此外,由于 Query 参考点的位置并非随机初始化,因此放弃了在deformable DETR [41]中提出的迭代边界框细化策略,因为它可能导致参考点质量的下降。实际上,作者观察到这种迭代边界框细化策略可能导致收敛崩溃。

Uneven BEV Grid

室内与室外3D目标检测的一个显著区别在于数据收集过程中,物体到相机的几何信息(例如,尺度、接近度)。室内环境通常具有更小的物体,且这些物体位于离相机更近的位置,而室外环境则涉及更大的物体,且这些物体位于更远的位置。此外,室外3D目标检测器必须考虑到更宽的环境感知范围。因此,现有的室内3D目标检测器通常使用较小的 Voxel 或柱子尺寸。例如,CAGroup3D [31],一个最先进的室内3D目标检测器,其 Voxel 尺寸为0.04米,而经典室内数据集SUN-RGBD [29]中的最大目标深度大约为8米。相比之下,室外数据集展现出更大的感知范围。例如,常用的室外检测数据集KITTI [8]的最大深度范围为100米。由于这种巨大的感知范围和有限的计算资源,室外检测器采用更大的鸟瞰图(BEV)网格尺寸,例如,在BEVDepth [11],一个最先进的室外3D目标检测器中,BEV网格尺寸为0.8米。

因此,当前户外检测器的鸟瞰图(BEV)网格尺寸通常较大,以适应广阔的感知范围,而室内检测器的尺寸较小,这是由于复杂的室内场景所致。然而,由于UniMODE旨在使用统一的模型结构和网络权重来解决室内和室外三维目标检测,其BEV特征必须覆盖一个大感知区域,同时仍然使用小的BEV网格,这在有限的GPU内存条件下提出了一个巨大的挑战。

为了克服这一挑战,作者提出了一种解决方案,该方案将BEV空间划分为不均匀网格,这与现有检测器所使用的均匀网格形成对比。如图2的下半部分所示,作者通过在靠近相机的位置使用较小尺寸的网格,在较远的位置使用较大尺寸的网格来实现这一点。这种方法使UniMODE能够有效地感知各种物体,同时对于近距离的物体保持小网格尺寸。重要的是,这并不会增加网格的总数,从而避免了任何额外的计算负担。具体来说,假设在深度轴上有 个网格,深度范围为 ,那么第 个网格 的大小设置为:

值得注意的是,方程式1的数学形式与CaDDN [26]中深度的线性递增离散化相似,但其本质上有根本的不同。在CaDDN中,特征投影分布被调整以分配更多特征给靠近相机的网格。在实验中,作者观察到这种调整导致BEV特征更加不平衡,即靠近的网格特征更密集,而远处的网格更多为空。由于所有网格的特征都是由同一个网络提取的,这种不平衡降低了性能。相比之下,作者的非均匀BEV网格方法通过使特征密度更加平衡,提高了检测精度。

Sparse BEV Feature Projection

将相机视角特征转换到鸟瞰图(BEV)空间的过程由于大量的投影点而相当计算密集。具体来说,考虑到图像特征 和深度特征 ,通过将 相乘得到投影特征 。因此,随着 的增长,投影点的数量 会显著增加。这一特征投影步骤的巨大计算负担限制了BEV特征的分辨率,从而阻碍了室内外3D目标检测的统一。

在这项工作中,作者观察到在 中的大多数投影点是不必要的,因为它们的数值非常小。这本质上是因为 中相应的值很小,这意味着模型预测这些特定的鸟瞰图(BEV)网格中没有目标。因此,可以节省将特征投影到这些不相关网格上的时间。

基于以上的洞察,作者 Proposal 根据预定义的阈值 移除不必要的投影点。具体来说,作者消除了在 中的那些对应的 深度置信度小于 的投影点。通过这种方式,大多数投影点被排除。例如,当设置 为0.001时,大约82.6%的投影点可以被排除。

Unified Domain Alignment

异构领域分布存在于各种场景中,作者通过特征和损失的角度来应对这一挑战。

领域自适应层归一化。 对于特征视图,作者初始化特定于领域的可学习参数以应对在多种训练数据领域中观察到的变化。然而,这一策略必须遵循两个关键要求。首先,即使在训练过程中未遇到图像域时,检测器在推理过程中也应表现出稳健的性能。其次,引入这些特定于领域的参数应尽可能减少计算开销。

考虑到这两个要求,作者提出了领域自适应层归一化(DALN)策略。在这种策略中,作者首先将训练数据分为 个领域。对于层归一化(LN)[2]的经典实现,将输入序列表示为 ,并将其索引为 的元素表示为 ,通过LN处理 得到的相应输出 为:

在DALN中,作者构建了一套可学习的特定领域参数,即 ,其中 对应于第







请到「今天看啥」查看全文


推荐文章
设计之旅  ·  160平米,蓝色妖姬时尚公寓
8 年前
小学生作文  ·  4.12 描写“风物美味”的好开头好结尾
7 年前
哈哈搞笑视频  ·  姑娘你要干嘛!笑裂了!
7 年前
五饼二鱼  ·  睡一觉醒来, 整个村子都没了…
7 年前