专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

单目3D目标检测的革新者 | MonoCD 利用互补深度估计提高检测互补性，KITTI基准上性能 SOTA ！

智驾实验室 · 公众号 · · 2024-06-01 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

单目3D目标检测因其能以低成本从单个图像中准确获取物体的3D定位而受到广泛关注。深度估计是单目3D目标检测中一个基本但具有挑战性的子任务，因为2D到3D的映射是不适定的。许多方法探索了多个局部深度线索，如物体高度和关键点，然后将物体深度估计公式化为多个深度预测的集合，以减轻单一深度信息的不足。然而，现有多个深度估计的错误往往具有相同的符号，这阻碍了它们相互抵消，限制了组合深度的整体准确性。

为了缓解这个问题，作者提出了两种新的设计来增加深度的 互补性 。首先，作者增加了一个名为互补深度的新的深度预测分支，它利用来自整张图像的全局和高效深度线索，而不是局部线索，以减少深度预测的相似性。其次，作者提出充分利用多个深度线索之间的几何关系，以在形式上实现互补性。得益于这些设计，MonoCD实现了更高的互补性。在KITTI基准上的实验表明，MonoCD在没有引入额外数据的情况下取得了最先进的表现。此外，互补深度也可以作为一个轻量级且即插即用的模块来提升多个现有的单目3D目标检测器。

代码：https://github.com/elvintanhust/MonoCD

1 Introduction

作为学术界和工业界的一个重要研究课题，3D目标检测可以让非人类智能感知3D世界。与基于LiDAR的方法和基于立体视觉的方法相比，单目3D目标检测因其价格低廉、配置简单而受到广泛关注。然而，其3D定位精度显著低于基于LiDAR和立体视觉的方法。为了推进自动驾驶和机器人等自动化技术的发展，提高单目3D目标检测的3D定位精度至关重要。

近年来，许多单目3D目标检测算法已经意识到限制单目3D目标检测3D定位精度的最主要原因是深度估计不准确。在主流的CenterNet范式下，它们探索了多种局部深度线索，并将深度估计表述为多个深度预测的集成，以弥补单一深度信息的不足。例如，MonoFlex探索了直接估计和目标高度的局部深度线索，并随后通过加权平均将它们组合为一个深度。MonoDDE[18]进一步揭示了从目标顶部视角点的线索。

然而，在KITTI数据集上的实验显示，现有95%的多深度预测集成具有相同的误差符号，即多个预测深度通常分布在 GT 值的同一侧，如图1(a)中的耦合所示，这导致无法相互抵消的深度误差，阻碍了组合深度精度的提高。作者将这种耦合现象归因于它们在CenterNet范式下使用的局部深度线索都来自目标周围的同一局部特征。

在本文中，作者提出增加深度的互补性以减轻问题。这里的互补性指的是这些预测不仅追求高精度，而且具有不同的误差符号。为此，作者提出了两项新的设计。首先，考虑到上述耦合现象，作者增加了一个新的深度预测分支，该分支利用来自整幅图像的全局和有效深度线索，而不是局部线索，以减少深度预测的相似性。它依赖于全局信息，即一幅图像中的所有目标大致位于同一平面上。其次，为了进一步提高互补性，作者提出充分利用多个深度线索之间的几何关系，以形式上实现互补性，这利用了同一几何量误差在不同分支上可能产生相反效果的事实。

例如，在图1(b)中，因为相关的线索3D高度被低估而有负误差，而在这种情况下，由于对新线索在上的作用与相反而有正误差。因此，基于的几何关系为和提供了形式上的互补性。

结合所有设计，作者提出了一种名为MonoCD的新型单目3D检测器，具有互补深度，它弥补了之前多深度预测中被忽视的互补性。本文的主要贡献总结如下：

作者指出了现有单目目标深度预测的耦合现象，这限制了组合深度的准确性。因此作者提出改进深度的互补性以减轻这一问题。
作者提出增加一个名为互补深度的新的深度预测分支，利用全局和有效的深度线索，并充分利用多个深度线索之间的几何关系，以形式上实现互补性。
在KITTI基准上的评估表明，MonoCD在没有引入额外数据的情况下取得了最先进的表现。此外，互补深度可以作为轻量级的即插即用模块来提升多种现有的检测器性能。

2 Related work

近年来，在计算机视觉领域取得了显著进展，特别是在人工智能驱动的图像识别和分类任务方面。本节简要概述了影响MonoCD发展的相关工作。

在过去十年中，深度学习作为一种强大的技术手段，已经在各种视觉识别任务中崭露头角。卷积神经网络（CNNs）已成为图像分类的主导模型，其性能显著优于之前的手工特征方法。特别是 AlexNet 的出现，随后VGG、GoogLeNet和ResNet的推出，在图像分类领域引发了一系列的突破。

YOLO 和 Fast R-CNN 凭借其实时和高准确度的性能，在目标检测社区激发了兴趣。这些模型启发了许多后续研究，旨在提高检测速度和准确性。此外，递归神经网络和生成对抗网络（GANs）也被应用于图像生成和风格转换任务，扩展了深度学习在视觉领域的应用范围。

迁移学习在推动人工智能驱动的视觉系统发展方面也发挥了关键作用。通过利用在大规模数据集（如ImageNet）上预训练的模型，研究行人能够针对具有有限标注数据的特定任务对这些模型进行微调，显著减轻了标注负担并减少了训练时间。

在无监督学习领域，诸如自组织映射（SOMs）和k-means聚类等方法已用于图像分割和特征提取任务。近来，像自编码器和变分自编码器（VAEs）等方法由于能够在没有标注数据的情况下学习表示而受到关注。

本文基于这些基础性工作，并引入了一种新颖的方法，旨在解决人工智能驱动的视觉识别领域中的特定挑战。

Center-based Monocular 3D Detector

许多近期的工作都是基于流行的基于中心的范式CenterNet扩展的，这是一种最初应用于2D目标检测的 Anchor-Free 方法。它将3D边界框的所有属性转换为一个中心点进行估计，使得检测过程更简单、更高效。SMOKE继承了基于中心的框架，并 Proposal 可以省略2D边界框的估计。MonoDLE发现2D边界框的估计有助于预测3D属性，并表明深度误差是限制单目3D目标检测准确性的主要原因。MonoCon发现，在中心周围添加辅助学习任务可以提高泛化性能。

尽管基于中心的框架有许多好处，但它使得所有3D属性的预测与局部中心高度相关。它忽略了全局信息的利用，导致预测的3D属性之间的耦合。

Transformer-based Monocular 3D Detector

得益于注意力机制的的非局部编码及其在目标检测中的发展，最近提出了多种基于Transformer的单目3D检测器，以增强全局感知能力。MonoDTR提出执行深度位置编码，将全局深度信息注入Transformer以指导检测，这需要激光雷达进行辅助监督。与它不同，MonoDETR使用前景物体标签来预测前景深度图以实现深度引导。为了提高推理效率，MonoATT提出了一种自适应标记Transformer，并使更细的标记能够分配到图像中更重要的区域。

尽管上述方法表现良好，但基于Transformer的单目3D检测器的高计算复杂度和缓慢推理的缺点仍然明显。因此在现实世界的自动驾驶场景中，目前还缺乏一种既能够合成全局信息又具有低延迟的方法。

Estimation of Multi-Depth

除了直接使用深度神经网络估计物体深度外，许多近期的工作通过间接预测与深度相关的几何线索来拓宽深度估计的研究领域。[23, 32]利用数学先验和不确定性建模通过3D到2D高度比来恢复深度信息。基于这些工作，MonoFlex [43]进一步将几何深度扩展到三组，通过3D边界框的其他支持线，并提出使用不确定性作为权重将多个深度合并为最终的深度。MonoGround [28]引入了局部地面平面先验，并使用在各个目标底部平面中随机采样的密集点来丰富深度监督源。MonoDDE [18]利用关键点信息将深度预测分支的数量扩展到20，强调深度多样性的重要性。然而，多个深度之间的互补性很少被探索。几何线索（如2D/3D高度）中的错误累积到相应的深度误差中。没有有效的互补性，现有的深度误差无法被中和。

3 Approach

Problem Definition

单目3D目标检测的任务是从仅有的2D图像中识别出感兴趣的目标，并预测其相应的3D属性，包括3D位置、尺寸和方向。3D位置通常被转换成2.5D信息进行预测。和的恢复过程可以表述为：

其中是在图像中投影的3D中心，是摄像机光学中心。和分别表示水平和垂直焦距。

如第1节所述，许多方法 [18, 28, 43] 已经意识到深度是限制单目3D检测器性能的主要原因，并通过使用多深度来提高深度预测的准确性：

其中表示n个预测的深度，表示由预测不确定性确定的它们的权重。作为输出的最终深度。

The Effect of Complementary Depths

为了证明互补深度的有效性，作者从数学角度展示了其优越性。定义两个不同的深度预测分支和如下：

其中表示深度的 GT 值。和分别是两个深度分支在单一预测中的误差。注意和的正负与误差的符号相对应。作者定义来模拟多深度耦合的情况，如图1(a)所示。作者将多个耦合深度的最终组合误差称为耦合深度误差。因此，参照方程(2)， 耦合深度误差 的和可以表述为：

其中和满足和。然后作者沿着对进行对称翻转，而不改变预测的准确性：

翻转后，和中的误差符号相反，人为地实现了它们之间更高的互补性。作者将多个互补深度的最终组合误差称为互补深度误差。类似地， 互补深度误差 的和可以表述为：

通过数学变换，作者将方程式（4）和（6）进一步表达为：

显然，由于条件，互补深度误差始终小于耦合深度误差。无论权重或误差大小的变化，这种关系始终保持不变。同样，通过在翻转时保持不变，这一结论也是等价的。因此作者可以得出结论：实现两个深度分支之间的互补关系有助于降低整体深度误差，即使没有提高单个分支的准确性。

为了证明互补深度在实际中的有效性，作者在KITTI验证集上选择了经典的多元深度预测 Baseline进行评估。它包含4个深度预测分支（1个直接估计的深度和3个几何深度）且在测试后，任意两个分支的耦合率约为95%。如图3左侧所示，作者基于方程式（5）在对称地沿着 GT 值翻转直接深度估计分支，从0%到100%的样本比例实现不同 Level 的深度互补。

此外，考虑到在实际中，在保持相同准确性的同时获得误差符号相反的深度预测的难度，作者在对其进行不同大小的随机扰动的同时，进行了翻转深度分支的实验。结果展示在图3的右侧。通过在上述操作中对其他分支执行相同的操作，观察到类似的结果。基于此，作者有以下三个观察：

观察1： 如图3左侧所示，随着翻转样本比例的提高，检测准确性增加。这表明增加多个深度预测分支之间的互补性可以持续提高检测准确性。

观察2： 对于两个独立的深度预测分支，理想情况下，它们在所有样本中预测符号相反的比例应为50%。由于 Baseline 中多个分支的耦合，这种情况与图3左侧50%的翻转比例相似。因此，降低多个深度预测分支之间的相似性也可以增加它们的互补性。

观察3： 当翻转比例固定为50%时，如图3右侧所示，在应用振幅为2米的随机扰动（这对于KITTI中的Car来说是非常显著的）之前，互补效果并未消失。这表明，即使部分深度估计准确性有所下降，互补效果仍然可以提升整体性能。最终整体性能是否能够提升取决于相反符号的比例和深度估计的准确性。

此外，作者选择了具有不同深度预测分支总数的模型来进行翻转和评估。作者发现，随着翻转分支的数量接近未翻转分支的数量，整体性能相应提高。有关更多实验和详细信息，请参考附录材料。

3D Detector with Complementary Depths

框架概述。 如图2所示，作者设计的网络从CenterNet扩展而来。回归头分为两部分：局部线索和全局线索，其中选择DLA-34作为网络的 Backbone 。局部线索分支的设计参考了MonoFlex，它基于预测的 Heatmap 估计每个局部峰值点的维度、关键点、直接深度、方向和2D检测。由于这些几何量的预测与图像中局部峰值点的位置高度相关，因此它们被称为局部线索。和都是从它们派生出来的。

全局线索分支基于所有提取的像素特征预测整个图像的水平 Heatmap ，用于获得场景中的趋势，然后输出嵌入全局线索的互补深度。如何构建具有全局线索的深度预测分支并进一步实现形式上的互补性将在下面详细说明。遵循[11, 12]，作者对所有七个深度预测（1个直接深度，3个关键点深度，以及通过对角线列增强的3个互补深度如[43]）建模不确定性。最终深度根据方程式(2)获得，其中。

带全局线索的深度预测。 受[8]启发，神经网络通过以下方式从单张图像看到深度：

其中表示物体在相机坐标系中的轴坐标，表示在像素坐标系中投影的底部中心的垂直坐标。考虑到也表示物体所在平面的高度，且所有物体大致位于一个平面上，包含这样的全局特征，并且可以与其他深度线索区分开来。与之前隐式利用方程式(9)的神经网络不同，作者提出显式预测。

为了避免陷入耦合，作者不使用第2.1节中讨论的基于中心的方法来预测。作者提出首先通过地面平面方程获取场景中的倾斜趋势。地面平面方程的预测基于水平 Heatmap 分支，类似于[38]，但作者省略了边缘预测，并得到预测结果为：

给定方程式如下：

其中，和

单目3D目标检测的革新者 | MonoCD 利用互补深度估计提高检测互补性，KITTI基准上 性能 SOTA ！

正文