最近,基于Transformer的单目3D目标检测技术在从单张2D图像中推理3D属性方面取得了显著进步。通过将深度信息和图像的视觉特征相结合,这些方法提高了空间感知能力,在自动驾驶等应用中发挥关键作用。然而,现有的许多方法依赖于耗资源丰富的Transformer结构,处理长序列数据时往往会导致计算效率和性能急剧下降。
为解决这些挑战,提升单目3D目标检测技术,作者提出了一种创新网络架构,
MonoMM
,即
M
ulti-scale
M
amba-Enhanced网络用于实时
M
单目3D目标检测。
这种精心设计的架构主要包括以下两个核心模块:
-
聚焦多尺度融合(FMF)模块:该模块专注于有效地保留和融合不同尺度下的图像信息,并降低计算资源的消耗。通过精确调控信息流通,FMF模块增强了模型对尺度变化的适应性和鲁棒性,同时保持图像细节。
-
深度感知特征增强Mamba(DMB)模块:该模块利用图像特征融合的输出作为输入,并采用一种新颖的自适应策略,全局集成深度信息与视觉信息。
这种深度融合策略不仅提高了深度估计的准确性,还提升了在不同的观察角度和环境条件下的模型性能。蒙目MM的模块化设计提供了高灵活性和可扩展性,可以根据特定应用需求进行调整和优化。
在KITTI数据集上的大量实验表明,作者的方法超过了先前的单目方法,实现了实时检测。
1 Introduction
基于卷积神经网络(CNNs)的2D目标检测技术得到了迅速发展。它们在各种领域得到了广泛应用,如车牌识别和缺陷检测。然而,在机器人导航、自动驾驶和多目标跟踪等领域,仅通过2D目标检测获得更接近真实世界的检测结果是难以实现的。因此,为了获得更接近真实世界的检测结果,许多研究行人使用距离传感器,如激光雷达(LiDAR)或双目摄像头作为输入设备来获取精确的深度信息。尽管性能很高,但这些方法面临高昂的硬件成本。相比之下,从单图像中获得高精度的3D检测结果可以大大降低计算和设备成本。目前,已经提出了使用单目摄像头的
2 Related Work
Monocular 3D Target Detection
许多现有的单目3D目标检测方法依赖于2D目标检测器。MonoRCNN [25] 通过将目标距离分解为物理高度和投影2D高度,并建模它们的联合概率分布,从而增强了3D目标检测。MonoDLE [32] 强调了对2D边界框估计的准确性对预测3D属性的重要性,并将深度误差视为关键的限制。M3D-RPN [19] 引入了深度感知卷积,以生成受2D边界框约束的3D目标 Proposal 。MonoCon [33] 引入了辅助学习任务以提高泛化性能。Monopair [34] 利用目标对之间的空间关系来增强3D位置信息。MonoJSG [35] 利用像素级几何约束精炼深度估计。MonoFlex [36] 利用多个深度预测器来解决长尾目标预测问题。PDR [37] 采用单视角估算器来简化此方法,并使用较轻的架构。MonoGround [38] 引入了局部地面平面的先验概率,并通过在目标底部平面周围采样来丰富深度监督。MonoDDE [18] 基于关键点信息扩展深度预测分支,强调了深度多样性。
尽管这些方法取得了进步,但由于缺乏深度线索以及几何约束中错误累积,纯单目方法在精确物体定位方面仍然面临挑战。
Depth-assisted Monocular 3D Object Detection
为了获得更高的性能,许多方法利用深度信息来辅助3D目标检测。一些方法 [25, 23] 利用高级深度估计器和相机参数将图像映射到3D空间,将其转换为伪激光雷达数据表示。这些表示然后与基于激光雷达的3D目标检测器一起使用以增强检测。伪激光雷达++ [41] 优化了立体深度估计,利用稀疏激光雷达传感器来改善自动驾驶中的3D目标检测。D4LCN [23] 和 DDMP-3D [25] 开发了基于融合的方法,将图像和估计的深度与专门的卷积网络相结合。CaDDN [43] 根据每个像素的特定深度分布学习鸟瞰图(BEV)表示,并从BEV投影中恢复边界框。MonoDTR [31] 使用激光雷达点云作为其Transformer的辅助监督,并从Transformer中使用学习的深度特征作为解码器的输入 Query 。MonoDETR [39] 使用物体标签来预测前景深度图。为了提高推理效率,MonoATT [42] 引入了一个自适应标记Transformer,将更精细的标记分配给图像中的更关键的区域。
State Space Models
状态空间模型(SSMs)起源于经典控制理论[45],近年来在深度学习中受到关注,因为它们有能力管理长期依赖关系和时序数据。Hippo模型[46]利用多项式最高次幂运算符初始化,增强了SSMs捕捉长期依赖关系的能力。LSSL模型[47]证明了SSMs处理这些依赖性的有效性,尽管它面临与计算和内存效率相关的挑战。为了应对这些问题,Gu等人引入了结构化状态空间序列模型(S4)[48],通过归一化参数化策略降低计算开销,从而使SSMs更实用。S4将深度状态空间模型应用于长期依赖关系。S5模型[49]融合了MIMO SSM和高效并行扫描,而H3[50]缩小了SSMs和Transformer模型在自然语言处理(NLP)中的性能差距。最近,Mamba[51]以其先进的设计,包括选择性机制和优化的硬件使用,在NLP中表现出色,超越了一些Transformer模型。与Transformer不同,Mamba能够有效处理长序列,在序列长度上保持线性计算成本, unlike Transformers,需要指数增长的资源。这种效率使得Mamba成为大规模序列数据的有效解决方案。
3 Methods
Overview
如图1所示,MonoMM框架包括五个主要组件:
一个 Backbone 网络(Backbone),一个关注多尺度的融合(FMF)模块,一个深度辅助感知(DAP)模块,一个深度感知特征增强Mamba(DMB)模块和一个2D-3D检测Head。遵循[31]中的方法,作者采用DLA-102[52]作为 Backbone 网络。
给定一个输入大小的RGB图像(
), Backbone 网络在不同层输出特征。FMF模块将这些特征图整合成一个融合特征图
,其中
,
,
= 256。卷积层通过整合图像中的空间位置信息来增强特征表示,从而提取更高层次和更抽象的视觉特征。此外,作者引入了深度辅助感知(DAP)机制[31],它使用多个卷积层来特别捕捉深度相关的特征。然后,DMB模块高效地整合了视觉和深度感知的特征,进一步增强了特征的全面性和判别性。为了充分利用这些融合特征,作者使用基于 Anchor 的检测Head架构,并选择合适的损失函数,旨在同时实现精确的2D和3D目标检测任务。
Focused Multi-Scale Fusion Model
本论文提出了一种名为MonoMM的单目图像基于三维目标检测的总体框架。首先,输入图像经过backbone提取特征。自注意力机制(Focused Multi-Scale Fusion,FMF)模块通过特定特征聚焦和扩散机制在各个尺度上保持详细信息。深度辅助感知(Depth-Assisted Perception,DAP)模块通过协助监督学习学习深度感知特征。深度感知特征增强Mamba(Depth-Aware Feature Enhancement,DMB)模块使用适应性策略完全集成视觉信息。
现有的多尺度特征融合方法主要关注跨不同层数的上下文信息整合。然而,由于感受野大小限制,将不同层级的上下文信息有效融合在一起是具有挑战性的。此外,引入注意力机制还会增加额外的计算负担。为了解决这些问题,作者受[28]和[29]在密集预测任务中的工作启发,提出了一种全局集中聚焦(FMF)模块,用于单目图像基础的三维目标检测。与现有多尺度融合方法[28; 29; 52]不同,作者提出的FMF模块不仅捕获不同尺度之间的长程依赖,而且避免注意力机制,显著降低计算成本。
初始融合阶段如图2(a)所示,主要包含三个组件:1×1卷积层AConv和上采样层。在AConv单元内,集成了平均卷积(AC)和最大卷积(MC)两个子模块。AC子模块通过合并平均池化和卷积操作有效聚合和平滑特征,降低计算复杂度,并实现关键特征的高效提取。而MC子模块则通过利用最大池化和卷积增强图像中显著的特征,从而提高模型对小尺寸位移的鲁棒性。具体来说,从backbone中提取的不同尺度特征并行处理上述操作,以获得丰富的多尺度特征表示,从而增强特征表达能力。此外,通过调整特征图的大小,可以有效捕获和保留在初始融合阶段跨不同尺度丰富的信息和细节。这一全面方法确保对图像的全局和局部特征有全面的了解。生成的特征表示为F∈R^{3C×H×W},其中C1=256,H1=H/16,W1=W/16。过程可由方程1表示。
深度聚焦扩散模型如图2(a)所示,FMF模块在两个阶段上保持更多详细信息。多尺度特征融合生成特征F,进一步深化和优化在初始融合阶段生成的特征并将其与F融合,最终生成Fout。
具体来说,在详细融合阶段,网络并行处理初始融合阶段生成的特征以进行更深层次的特征提取和管理计算资源消耗。接下来,将不同分支路径的特征图在00维度上堆叠,以确保完全保留多路径信息。为了将多路径信息融合为统一特征图,模块采用00维上的求和,从而凝聚不同路径传输中的丰富信息和小纹理,构建后续检测任务富有和全面的特征表示。此后,卷积和跳跃残差连接机制用于将未经过优化的初始融合特征与通过深度分离卷积优化的当前特征进行集成。这种方法保持全局和局部图像特征的一致性和连续性。最后,通过转置卷积(TConv),特征图大小翻倍,有效补偿由前面降采样步骤引入的信息损失。这一步 enhance 分辨率,确保详细信息的完全恢复和传递。该过程可由方程2表示。
Depth-Aware Feature Enhancement Mamba Model
为了获取用于后续与视觉特征融合的深度感知特征,作者受到了MonoDTR [31]的启发,并采用了一种基于该方法的分层决策堆叠模块(DMB)模块。DMB模块通过将精确的深度图作为辅助监督信号,有效地学习和精炼了与深度相关的特征信息。这确保了DMB模块全面而深入地将深度感知特征与视觉特征集成,捕获和优化来自两个领域的细微信息。因此,它增强了整体检测性能和精度。
作者提出的DMB模块的结构如图3(a)所示。为了处理来自视觉和深度感知特征融合得到的特征
,作者首先将
转换为一个扁平2D序列
,其中
表示特征块的总数,
代表通道数。这一转换可通过方程3表示: