专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

单目3D 目标检测的高效特征聚合和尺度感知回归！

智驾实验室 · 公众号 · · 2024-12-08 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

单目3D目标检测由于其简单性和低成本而受到广泛关注。现有方法通常遵循传统的2D检测范式，首先定位物体中心，然后通过相邻特征预测3D属性。

然而，这些方法主要依赖跨尺度特征聚合，仅关注局部信息，可能导致缺乏全局 Aware ，并遗漏小规模物体。此外，由于不同场景和深度下的物体尺寸存在巨大变化，不准确的感受野通常会导致背景噪声和特征表示降低。

为了解决这些问题，作者提出了一种名为MonoASRH的单目3D检测框架，包括高效的混合特征聚合模块（EH-FAM）和自适应尺度感知3D回归头（ASRH）。具体而言，EH-FAM采用全局感受野的多头自注意力机制来提取小尺度物体的语义特征，并利用轻量级卷积模块在不同尺度上高效聚合视觉特征。

ASRH首先编码2D边界框尺寸，然后通过尺度特征与EH-FAM聚合的语义特征通过尺度-语义特征融合模块进行融合。

尺度-语义特征融合模块指导ASRH学习动态感受野偏移，将尺度先验引入3D位置预测，以实现更好的尺度感知。在KITTI和Waymo数据集上的大量实验表明，MonoASRH实现了最先进的性能。

I Introduction

近年来，3D目标检测已成为研究的重要领域，特别是在自主系统、机器人学和增强现实中的关键作用推动下。在三维空间中准确检测和定位物体对于需要高度空间感知能力的应用至关重要，尤其是在自动驾驶系统[1,2]中。

传感器如激光雷达（LiDAR）、雷达和立体摄像头在点云数据、雷达信号和深度图方面，提高了3D目标检测的性能。然而，激光雷达的高分辨率点云[3, 4, 5, 6]和立体方法的深度图[7, 8]需要额外的校准。计算机辅助设计（CAD）[9, 10]和多帧[11]方法改进了形状和运动跟踪，但它们也具有计算密集性。与上述方法相比，单目视觉系统提供了一种更经济高效且可部署的解决方案，尽管由于缺乏直接深度感知，它们在从2D图像中准确提取3D信息方面存在困难。

因此，当前单目3D检测的进步主要集中在提高深度估计的准确性。遵循CenterNet [18]范式的方法，如，使用直接回归估计目标物体的3D中心深度。将几何约束引入深度估计，以增强目标深度恢复。有效地将几何深度与回归的深度相结合，提高网络的泛化能力。然而，这些方法通常将2D和3D特征回归解耦，分别预测2D属性（x,y,w,h）和3D属性（x,y,z,w,h,l,yaw）独立地。这种分离忽视了2D先验和物体在场景中的3D位置之间的潜在关系。简而言之，较远的物体通常在图像中占据较小的区域，而较近的物体则占据主导地位，这导致在固定感受野中提取相关特征存在挑战。

这一问题在图1中网络的注意 Heatmap 对比中尤为明显。可以看出，DEVIANT [22]和MonoLSS [17]在关注较小、较远的物体方面存在困难，尤其是在行人类别中。此外，DEVIANT [22]倾向于不经意地关注无关的背景噪声。一些先前的研究试图解决这个问题。Chen等人提出了一种形状感知的辅助训练任务 [28]。 [29]集成变形卷积 [30]以提高模型对特征的适应性。尽管这些方法在某种程度上实现了感受野的动态调整，但它们并没有明确考虑场景中的物体尺度，也没有根据不同尺度动态调整模型的注意力。

为了克服上述限制，本文提出了一种新颖的 Efficient Hybrid F eature A gregation M odule (EH-FAM) 和 Adaptive S cale-Aware 3D R egression H ead (ASRH)。受到RT-DETR在2D检测方面的成功启发，EH-FAM将视觉 Transformer 与卷积神经网络相结合，以高效地聚合视觉特征，相比传统方法如DLAUp[32]，模型复杂度显著降低。EH-FAM在最高层特征上利用自注意力机制进行特征交互，有效地捕获了小尺度物体的语义信息。然后，使用卷积操作进行特征融合，提供了一个更细粒度的跨尺度特征表示。

接着，ASRH编码2D边界框尺寸以捕捉尺度特征，这些特征与从跨尺度特征中提取的语义特征通过一个专门设计的尺度-语义特征融合模块进行融合。融合后的特征指导了感受野偏移的学习，然后将这些偏移应用于变形卷积，从而增强模型适应不同物体尺度的能力。此外，ASRH利用基于空间方差的注意力机制自适应地区分语义特征中的前景物体和噪声。此外，作者引入了选择性置信度引导的热力图损失，以帮助ASRH优先考虑高置信度的检测，并减轻困难样本的影响。

作者所做贡献可以概括如下：

作者引入了一个即插即用模块，名为高效混合特征聚合模块，该模块旨在实现跨尺度特征聚合的效率。
作者提出了一种新颖的适应性尺度感知3D回归头，该头动态地根据物体尺度调整网络的感知场。通过利用2D先验信息，ASRH简化了3D边界框回归。

大量的实验在KITTI 3D目标检测基准测试[33]和Waymo Open数据集[34]上表明，作者的单步ASRH方法相比以前最先进的方法取得了更好的结果。

II Related Works

单目3D目标检测旨在从单张图像中估计物体的3D属性。在本节中，作者总结了之前的单目3D目标检测算法。总体而言，这些方法可以分为三个主要方法：基于深度图的方法、基于中心的方法和基于 Transformer 的方法。

Depth Map-Based Methods

基于深度图的方法[35]旨在通过利用独立深度估计网络来补偿单目视觉中空间深度信息的不足，从而从单目图像中回归深度图。这些深度估计分支通常在监督下使用真实深度图[36, 37]进行训练，或者通过顺序图像[38, 39, 40]的自我监督学习。其中，[41]通过结合多尺度深度特征和图像特征来解决尺度变化问题，而[42]则直接将3D坐标融入输入数据中。此外，其他工作将图像般的深度图转换为点状的伪LiDAR表示，以模拟LiDAR点云。技术[46]利用外部深度估计网络[47]来对齐3D边界框。其他方法[48]将 disparity 预测模块集成在双网络结构中，以生成2D区域 Proposal 并预测3D属性，尽管它们可能存在潜在的性能偏差。随后的模型[49]和[44]提高了深度准确性并集成RGB特征以增强3D定位。

然而，这些方法通常缺乏3D信心估计组件[50]，限制了它们的性能。此外，依赖预训练的深度估计网络，这些网络针对像素级精度进行了优化，而不是3D检测，在准确确定前景物体的深度方面也存在挑战。最近的研究[51]也强调了由于训练和验证数据集之间的重叠，导致结果存在偏差，这使得基于深度图的方法在单目3D检测中的有效性复杂化。

Center-Based Methods

许多基于中心的方法是流行 Anchor-Free 中心网络[18]的扩展，它通过将各种3D边界框属性映射到单一的中心点来简化检测过程并提高效率。 [13]继承了这个基于中心的框架，并消除了估计2D边界框的需要。 [14]将深度误差视为限制单目3D目标检测准确性的主要因素。 [16]通过引入辅助学习任务来增强网络泛化。同时，[14, 20, 22]在回归深度之上将几何约束引入深度估计，其中[14]进一步提出了一个分层任务学习策略以确保更稳定的训练。 [24]利用多个深度属性，将它们组合以生成各种深度估计，然后通过多任务学习优化它们。 [56, 57]利用称为同构损失函数的损失函数来平衡不同物体的位置关系。

[27]引入了互补深度概念，利用多个深度线索之间的几何关系来实现正式互补性。 [28, 58]分别提出了形状感知方案和平面约束3D检测框架，分别解决单目视觉中的遮挡问题。 [59]提出的框架通过逐渐放松正则化约束来解决单目3D目标检测中的过度正则化问题。提出了一种新颖的可学习样本选择模块，使用Gumbel-Softmax概率采样[60]在深度图中区分正负样本，有效地减少了与无关的前景和背景信息的干扰。尽管中心方法具有许多优点，但它们往往忽视了回归3D检测属性的2D先验信息提供的指导。因此，当预测检测目标的3D属性时，网络可能会忽略检测目标的距离和尺寸。

Transformer-Based Methods

最近，端到端基于 Transformer 的检测器（DETRs）在2D目标检测领域取得了显著的成功。随后，一些工作将基于 Transformer 的检测框架扩展到单目3D目标检测，提高了模型的全局感知能力。[64]使用 Transformer 实现端到端3D边界框预测，通过在2D图像中投影可学习的3D Query 。 [5]利用激光雷达进行辅助监督，将全局深度信息注入到 Transformer 中，以指导检测。另一方面，[65]通过深度交叉注意力层与解码器中的深度和视觉特征进行完全交互，而不依赖任何额外数据。

为了提高推理效率，[66]引入了一种自适应 Token Transformer ，允许将更多的 Token 分配给图像中更关键的区域。然而，引入全局感受野必然导致这些网络专注于背景噪声，导致训练收敛速度慢且不稳定。此外，基于 Transformer 的单目3D检测器的计算复杂度和推理速度使其在实时自主驾驶系统中不太适合部署。

III Proposed Methodology

在本节中，作者介绍了作者的 MonoASRH 架构。如图2所示，该整体框架主要由 Backbone 网络、高效的混合特征聚合模块、2D回归头和自适应尺度感知的3D回归头组成。作者的流水线主要依赖于 GUPNet [21]。后续将详细讨论实现细节。

Overall Architecture

对于一个给定的RGB图像 ,作者使用预训练的DLA-34 Backbone 网络[32]提取多尺度深度特征。这些特征，表示为，经过进一步的细化和跨尺度融合，得到提出的EH-FAM。最终聚合的特征表示为。类似于[21]，作者的2D检测器基于CenterNet[18]。作者将深度特征输入到三个2D检测Head中，以回归热力图。2D偏移，以及2D大小，以预测2D物体中心和尺寸。

深度特征也被输入到ASRH进行3D属性预测。具体来说，RoI-Align根据2D框从中提取局部语义特征，其中是RoI-Align的大小，是感兴趣区域（ROI）的数量。然后，作者将每个感兴趣区域对应的2D边界框的大小表示为，并进一步编码为缩放特征。通过缩放-语义特征融合模块，将缩放特征和语义特征融合在一起。

最后，ASRH输出3D边界框大小，3D中心偏移，偏航角，直接深度和深度不确定性。此外，还使用深度注意力图来降低无关信息的影响，从而提高3D检测的准确性。

Efficient Hybrid Feature Aggregation Module

为了高效地将不同尺度下 Backbone 网络提取的特征聚合为深度表示，作者提出了一种可插拔的多尺度特征聚合方法EH-FAM。该方法中的"混合"模块将基于注意力的内尺度交互与基于卷积神经网络的跨尺度融合相结合，以提高性能和计算效率。EH-FAM的详细实现如图3所示。

Iii-B1 Self-Attention Block

EH-FAM接收四个具有不同下采样比例的特征图作为输入。为了确保对小规模目标的丰富语义信息进行全局提取，作者对最高层特征应用多头自注意力。作者使用单独的线性投影来处理 Query （queries）、键（keys）和值（values）：

在此，作者提供一篇AI学术论文的简体中文翻译。请注意，这里只提供翻译后的结果，不包含原文内容。

在深度学习中，卷积神经网络（Convolutional Neural Networks, CNNs）已经取得了显著的成功。然而，传统的CNN模型通常需要大量的计算资源和时间来训练。为了解决这个问题，许多研究行人提出了许多改进的CNN模型，例如移动卷积神经网络（Mobile Convolutional Neural Networks, MCNNs）和深度可分离卷积（Depthwise Separable Convolution, DSConv）。

本文提出了一种名为MobileNet的移动卷积神经网络模型，该模型可以实现高效的模型压缩和部署。MobileNet模型采用深度可分离卷积，取代了传统的卷积操作，从而在保持高精度的同时，大大降低了计算复杂度。此外，MobileNet模型还引入了模块化的设计，使得网络结构更加灵活，可以适应不同的应用场景。

在实验部分，作者对MobileNet模型进行了详细的评估。实验结果表明，MobileNet模型在保持较高的精度的同时，具有较快的收敛速度和较低的计算复杂度。此外，作者还通过与其他CNN模型的比较，进一步证明了MobileNet模型的优越性。

总之，本文提出了一种名为MobileNet的移动卷积神经网络模型，该模型在保持较高的精度的同时，具有较快的收敛速度和较低的计算复杂度。实验结果表明，MobileNet模型在许多应用场景中具有优越的性能。

最后，将拼接的输出通过线性层进行处理，将多个头合并为一个单一的输出：

其中是一个可学习的投影矩阵。和分别表示注意力头数和的通道维度。接下来，多头注意力层的输出经过一个FFN，然后 Reshape 回原始的空间维度，表示为。

Ii-B2 Upsampling Block 为了提高EH-FAM对小尺度物体的感知能力，作者设计了一个上采样块和融合块，该块由轻量级卷积模块组成。这些块实现了跨尺度信息交互，并增强了局部语义特征的提取。在向上采样块中，作者用双线性上采样替换了DLAUp的[32]大核转置卷积。

为了进一步减轻信息损失，作者在上采样之前应用了一个7x7卷积，有效 refined特征图。为了提高效率，作者将7x7卷积分解为连续的1x7和7x1卷积，采用的方法与[67]中的方法一致。

此外，由于一些类别（如行人和骑行者），其长宽比较大但尺寸较小，作者采用了水平方向和垂直方向上的解耦卷积，以捕捉这些拉长的尺度特征。

Ii-B3 Fusion Block 在融合模块中，作者采用了RepVGGplus块[68]，该块利用重参化技术，在推理阶段将多分支ResNet风格架构转换为单路径VGG样式的模型，从而保持了模型的表示能力，同时加速了推理过程。最终的深度特征按照如下方式进行聚合：

其中，表示上采样和跨尺度融合操作。

Adaptive Scale-Aware 3D Regression Head

如图4所示，提出的自适应尺度感知3D回归头将3D边界框回归过程分解为三个阶段。首先，通过编码2D边界框尺寸来捕获尺度特征。接下来，尺度语义融合模块将这些尺度特征与感兴趣区域提取的语义特征相结合，动态调整3D回归头的感受野。

由于前景物体的图像空间占用有限（例如，KITTI中的汽车类只覆盖了深度像素的11.42%），作者还引入了一个注意力 Mask ，以确保3D回归头关注相关的前景区域。最后，3D回归头输出3D边界框属性。

Ii-C1 Scale Encoder

级联编码器利用MLP将2D几何属性转换为高维表示。通过学习这种转换，级联编码器有效地编码了缩放信息。对于每个感兴趣的区域，对应的2D边界框大小被映射到高维特征空间：

同时，作者在感兴趣的区域应用一系列卷积层，以进一步优化局部语义特征，得到最终的局部语义特征：

其中 , 是 RoI-Align 大小。然后对进行重排，使其与的空间维度相匹配，表示为。

Iii-B2 Scale-Semantic Feature Fusion Module

本模块包括两个关键组件：偏移特征生成和注意力 Mask 生成。对于偏移特征生成，将比例特征和局部语义特征 ConCat 。

将组合特征通过一个堆叠卷积层处理，该层包括 3x3 和 1x1 卷积，产生一个比例感知的偏移，该偏移用于在后续的可变形卷积中动态调整感受野。

单目3D 目标检测的高效特征聚合和尺度感知回归 ！

正文