专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
51好读  ›  专栏  ›  3DCV

新世界大门打开!MambaBEV成功将Mamba2引入BEV目标检测

3DCV  · 公众号  ·  · 2024-10-30 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:深蓝AI

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

1

introduction

引言

MambaBEV是一个专为自动驾驶系统设计的基于Mamba2的高效3D检测模型。该模型利用了鸟瞰图(BEV)范式,并整合了时序信息,同时提高了检测的稳定性和准确性。在nuScences数据集上,该模型具有出色的表现。


对于自动驾驶系统而言,更安全、准确地进行3D目标检测至关重要。历史上,这些感知系统主要依赖霍夫变换和关键点提取等技术构建基础框架。然而,深度学习的兴起使得感知精度的重大飞跃。

然而,单目相机的感知方法仍面临诸多挑战,尤其是距离感知误差大和盲区范围广,这些问题对驾驶安全构成了显著威胁。为了解决距离误差问题,研究人员提出了双目立体匹配技术,通过利用一对相机捕获图像之间的视差,在一定程度上改善了距离估计的准确性。然而,这些系统仍然存在关键的局限性:它们无法感知车辆侧面和后部的物体及车道标记,从而在自动驾驶系统的安全范围内留下空白。

为了应对这些局限性,最新的研究探索了使用环视相机系统进行感知,该系统通常包括六个相机。这种方法为每个相机输入部署独立的深度学习模型,并依赖后处理技术将各个输出整合为对环境的一致感知。尽管这种方法克服了单目和双目系统的局限性,但也引入了一系列新挑战,包括大量的GPU内存消耗、感知冗余、跨相机视图的目标重新识别,以及缺乏跨相机的信息交互。这些因素共同影响了感知系统的效率和有效性。

图1 MambaBEV的框架。




为了解决这些障碍,基于鸟瞰图(BEV)的范式作为一种有前景的解决方案应运而生。这种方法将多个相机的输入整合到一个统一的BEV表示中,从而使车辆周围环境的全面理解成为可能。通过直接将图像数据映射到环境的俯视图,BEV方法促进了更准确的距离估计和障碍物检测,同时有效解决了盲区问题。此外,这种方法还促进了不同相机视图之间的信息高效共享,从而增强了感知系统的整体鲁棒性和可靠性。

另一个关键方面是处理时序数据。单帧检测虽然简单,但常常因为帧间目标遮挡和特征不明显而错过检测。为了解决这些问题,整合时序融合技术,利用历史特征来增强当前特征,已被证明可以显著提高模型性能。然而,传统的时序融合范式主要依赖自注意力机制,导致高内存消耗、有限的全局感受野,以及较慢的训练和推理速度。因此,开发一种新的时序融合方法以克服这些缺点具有重要的工程意义。

最近,一个专门处理序列的新模型mamba在多个下游任务中展现出巨大的潜力。Mamba2是mamba的改进版本,在多个任务上显示了更优的性能。这种新方法采用基于块分解的矩阵乘法,并利用GPU的存储层次结构,从而提高了训练速度。将mamba2引入3D自动驾驶感知是一个值得探索的方向。为了解决时序融合模块面临的问题,作者提出了MambaBEV,这是一个基于BEV的3D感知模型,使用了mamba2。据作者所知,这是首次将Mamba2整合到基于相机的3D目标检测网络中。


作者提出了一种基于mamba2的3D目标检测范式,命名为MambaBEV。该方法采用了一个基于mamba-CNN的模块,名为TemporalMamba,用于融合不同帧中的BEV特征。此外,作者在解码器层设计了一种mamba-detr头部,以进一步优化检测效果。

A.预备知识

结构化状态空间模型(SSMs)是一类深度学习模型,特别适用于序列建模任务。通过利用这些结构化公式,SSMs在表达性与计算效率之间提供了一种权衡,成为与基于注意力的模型(如Transformer)的一种有效替代。SSMs的公式代表了推进深度学习中序列建模的一个有前景的方向。作者使用的基模型称为Mamba2,它基于结构化状态空间(S4)序列模型,这些模型根植于连续系统。这些模型通过采取1-D输入序列或函数 和一个中间隐藏状态 ,如下所示:
它结合了一个可学习的步长 ,并采用零阶保持将连续系统转换为离散系统。注意,如果设置D为0,则可以忽略Du(t)。因此,方程(1)可以重写为:
通过应用数学归纳法, 的最终输出可以表示为:

其中M定义为:
表示从 的矩阵乘积,索引j和i分别表示第j个和第i个A,B,C矩阵。Mamba2中的变换矩阵M也符合N-序半可分离(SSS)表示的定义。因此,在Mamba2框架内,SSM和SSS的表示是等价的。这种等价性允许在涉及SSM的计算中高效利用结构化矩阵乘法进行SSS。为了实现这种方法,参数矩阵M被分解为对角块和低秩块,分别使用结构化掩码注意力(SMA)二次模式算法和SMA线性模式算法。此外,多头注意力(MHA)被集成以增强模型的性能。

图2 TemporalMamba的总体框架。

B.总体架构

MambaBEV的主要结构在图1中展示。该模型可以总结为四个主要模块:图像特征编码器、后向投影(SCA)、TemporalMamba和Mamba-DETR头部。MambaBEV以六个相机图像为输入,并通过图像特征编码器生成六个多尺度特征图。这些特征图随后被送入名为空间交叉注意力(SCA)的后向投影模块,以生成BEV特征图。

接下来,历史BEV特征与当前BEV特征进行融合,用于指导生成新的当前BEV特征。此过程由作者提出的TemporalMamba块执行。经过多层处理后,最终使用mamba-DETR头部作为3D目标检测的输出模块。

C. 图像特征编码器

图像特征编码器由两部分组成:高效的主干和经典的颈部。针对场景中不同视图的六张图片,作者使用在ImageNet上预训练的经典ResNet-50、从FCOS3D检查点初始化的ResNet-101-DCN,以及非常有效的VoV-99(同样来自FCOS3D检查点)作为主干,以提取每张图片的高级特征。Vmamba也可以作为主干。为了更好地提取特征并提升性能,作者采用经典的特征金字塔网络(FPN)生成多尺度特征。
图3 Query重组。

D. TemporalMamba块

对于传统的基于注意力的时序融合块,作者采用了可变形自注意力。Temporal Self-Attention(TSA)主要遵循以下流程:首先,给定历史BEV特征图和当前特征图,TSA将它们连接,并通过线性层生成注意力权重和偏移量。然后,每个查询(代表BEV特征)根据权重进行并行计算。然而,作者认为这种方法存在一些副作用。尽管可变形注意力可以降低计算成本,但由于每个参考查询仅允许与三个查询交互,导致大尺寸物体特征在跨帧交互中受到限制。

模型使用了mamba以增强全局交互能力。首先,两种模态的特征通过自我旋转角度进行变换,并通过一个卷积块将维度从512压缩到256,如图2所示。

在处理历史BEV特征图和当前特征图(每个维度为256)时,首先在第三维度将它们连接,连接后的特征分别经过两次带有批归一化的3x3卷积层和一次带有批归一化的1x1卷积层,然后将它们相加。







请到「今天看啥」查看全文