专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

最强单目3D模型MonoDETRNext | 高效混合编码+全新Query生成策略成就单目3D检测兼顾速度与精度!

智驾实验室  · 公众号  ·  · 2024-06-06 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

基于单目视觉的3D目标检测在各个领域都至关重要,但现有方法在准确性和计算效率方面面临重大挑战。在2D检测和深度估计的成功策略基础上,作者提出了MonoDETRNext,旨在最优地平衡精确度和处理速度。

作者的方法包括开发一个高效的混合视觉编码器,增强深度预测机制,并引入一种创新的 Query 生成策略,辅以先进的深度预测器。

基于MonoDETRNext,作者提出了两个变体:MonoDETRNext-F,强调速度;

以及MonoDETRNext-A,关注精度。作者认为MonoDETRNext在单目3D目标检测方面建立了新的基准,并为未来的研究开辟了道路。

作者进行了详尽的评估,证明了该模型相对于现有解决方案的卓越性能。

特别是,在KITTI测试基准上,MonoDETRNext-A在 指标上比MonoDETR提高了4.60 ,而MonoDETRNext-F则显示出2.21 的增长。此外,MonoDETRNext-F的计算效率略高于其前身。

1 Introduction

三维目标检测在自动驾驶、机器人导航、智能监控和虚拟现实等领域有着广泛的应用。这些应用的关键在于对三维空间内物体的精确识别和定位。然而,许多三维目标检测方法常常依赖于昂贵的设备,如激光雷达,这大大限制了它们的实际部署。尽管一些纯视觉策略已经取得了显著的成功,但它们通常需要多个摄像头,并且在某些情况下仍然受限。此外,它们通常还需要大量的计算能力才能有效运行。

单目三维检测方法并没有得到太多的关注,这主要是因为它们相对较低的准确度。在许多需要三维检测的场景中,可以采用激光雷达或多个摄像头,并得到顶级计算资源的支持。然而,在激光雷达或其中一个摄像头出现故障的极端情况下,这些高精度算法可能变得无效。同样,在设备可用性受限或预算有限的场景中,多视图和依赖激光雷达的算法可能并不可行。因此,研究单目三维检测算法具有实际意义。

在二维检测领域,来自DETR系列的模型目前是无与伦比的。MonoDETR[14]是这一类别中第一个端到端的单目三维目标检测模型。它的性能超过了所有先前的单目三维检测方法。然而,MonoDETR的出色结果并不足以满足作者的期望。将一些最近的技术和策略进展引入单目三维视觉检测,本文提出了新一代模型MonoDETRNext-F。

作者还观察到,在MonoDETR中,获取深度信息过于简单,这对于单目三维检测模型至关重要,因为深度信息是少数可用的三维数据类型之一。深度信息的准确性与检测的精度密切相关。为了改进深度信息的获取,作者参考了已建立的3D深度估计网络,并设计了一个直接从图像中提取深度信息的深度预测器。

作者将这个预测器与MonoDETRNext-F集成,开发了MonoDETRNext-A,它提供了增强的检测能力。

通过这项工作,作者旨在为未来单目三维视觉检测模型的发展提供一个重要的起点,为后续的研究和应用打下坚实的基础。

本文包含的显著创新可以概括如下:

  1. 提出了两种新型的单目三维目标检测模型,分别是MonoDETRNext-F和MonoDETRNext-A,前者在速度和精度之间取得了很好的平衡,而后者强调了以精度为核心的目标。
  2. 构建了一个混合视觉编码器,用于3D目标检测,能够高效提取对单目三维目标检测任务至关重要的特征,并结合了一个精致但轻量级的深度估计模块,旨在提高检测精度。
  3. 借鉴迄今为止嵌入在二维目标检测范式中的方法,作者提出了一种针对单目三维目标检测需求的合理目标 Query 生成策略,支撑这一策略的是精心设计的训练策略,旨在有效地优化模型性能。

2 Related Work

当前的三维目标检测方法大致可以分为两类:基于相机的方法和融合了激光雷达(LiDAR)等其他传感器的方法。

基于相机的方法可以根据输入视角的数量进一步划分为单目(单视图)和多视图方法。单目检测器仅使用前向的图像作为输入,用有限的2D信息处理更复杂的任务。多视图检测器同时编码周围场景的图像,利用视角之间的关系来理解三维空间。

另一方面,基于激光雷达和其他传感器融合的方法依赖于来自深度相机和激光雷达等设备的输入,这些设备提供了包括图像和点云在内的多种传感器数据的融合。因此,它们能够获取更丰富、更全面的深度信息。尽管这些方法的成本较高,但它们通常在复杂环境中表现出更强的鲁棒性和准确性,因为它们可以利用多种传感器的优势,并整合来自不同数据源的信息。

MonoDETR and other monocular 3D detection

MonoDETR [14]是一种利用渲染透射率从单个RGB图像预测深度图的最先进方法。通过捕捉输入图像中的细微线索,MonoDETR相比于传统的单目深度估计方法,在光照条件变化下的准确性和鲁棒性都得到了提高。

近年来,已经提出了几种其他的单目3D重建方法。例如,MonoDTR[15]是一个使用基于 Transformer 架构的深度学习模型,从单个RGB图像预测深度图。尽管MonoDTR实现了高精度,但它需要额外的激光雷达数据用于训练辅助。同时,CaDDN[16]和Monorun[17]不仅在训练时需要激光雷达数据,在推理时也需要。Autoshape[18]将CAD数据集成到模型中,以增强受限的3D线索。MonoDETR仅需最小的2D-3D几何先验,并且不需要额外的标注。作者的MonoDETRNext继承了这一特点。

如MonoDLE [19],PGD [20]和PackNet [21]所示的其他方法,通过集成多尺度特征融合和注意力机制进行深度图估计和误差分析,从而提高了性能。

尽管这些方法准确性高,但它们带来了相当大的计算成本并需要大量的内存资源。相比之下,MonoDETR以其轻量级和高效性为特点。此外,MonoDETRNext-F在速度和效率上超过了它,而MonoDETRNext-A则表现出明显更优越的性能。

Multi-view 3D object detection

为了联合提取周围视图的特征,DETR3D [22] 初步使用一组3D目标 Query ,然后将它们反向投影到多视图中以聚合特征。PETR系列  进一步引入了生成3D位置特征,避免了不稳定的投影,并探索了前帧的时间信息优势。

另外,BEVFormer [7] 及其改进版 [8; 9] 使用可学习的BEV Query 生成BEV(鸟瞰图)特征,并引入了一种时空BEV Transformer 用于视觉特征聚合。

后续研究还探讨了跨模态蒸馏 [26; 27] 和 Mask 图像建模 [28; 29] 以提升性能。

LiDAR and multi-source information fusion 3D object detection

方法如DeepFusion [30] 和 PointPainting [31] 在将激光雷达点云数据与相机图像相结合以实现三维空间环境中的精确目标检测方面,代表了显著的进步。这种融合策略最佳地利用了不同传感器模式固有的协同作用,将空间深度线索与颜色纹理信息结合起来,从而增强了检测结果的鲁棒性和准确性。

将BEVFormer的原则整合到融合范式(如BevFusion [6]所示)中,推动了进一步的改进,最终提高了精度,正如MV2D [4]和Futt3d [32]等典型模型所证明的那样。最近的努力,以mmFusion [33]为代表,通过整合来自多个传感器(包括相机、激光雷达和雷达)的数据,扩大了融合方法的范围,从而在性能上取得了显著的进步。

图1:主流3D检测模型的比较,不同颜色代表不同的功能模块。

同时,该领域出现了大规模架构的出现,例如OMNI3D [34]和GLEE [35],它们在3D目标检测任务中展示了卓越的有效性。利用大量的训练数据和具有数十亿参数或更多的复杂模型架构,这些框架使用了先进的优化算法进行训练,从而增强了检测性能和精度。

3 方法

Model Overview

图2展示了MonoDETRNext-A和MonoDETRNext-F的整体框架。这两种模型之间的主要区别在于深度预测器的不同,这将在第3.3节中详细阐述。在第3.2节中,将详细解释高效编码器的设计原则以及视觉和深度特征提取。最后,在第3.4节中,将详细阐述目标 Query 的精细生成以及所使用的损失函数。

Efficient Hybrid Vision Encoder

根据[36]中提出的发现,Deformable-DETR[37]将其49 的计算工作量分配给编码器,但这个组件对平均精度(AP)指标的贡献仅为11

受到RT-DETR[38]结构的启发,作者引入了一种创新的、专门针对3D目标检测任务的高效混合视觉编码器。该编码器以较小的计算足迹同时保持了特征提取的有效性。如图2所示,作者提出的编码器包括两个重要元素:一个单一的编码层和一个基于CNN的跨尺度特征融合模块(CFIM)。CFIM作为一个融合单元,将相邻的特征合并成新的表示,如图3所示。这种融合

与RT-DETR的混合编码器相比,作者的混合编码器在融合模块上展现出显著差异。

Accurate Depth Predictor

作者提出的模型MonoDETRNext-A和MonoDETRNext-F之间的主要区别在于它们的深度预测器架构。最初的MonoDETR中的深度预测器设计为轻量级配置,仅包含两个3x3卷积层,从 Backbone 预处理后的特征中提取 。单目3D目标检测的准确性与获得的深度信息的质量密切相关。为了获得更精细的深度估计并随后提高3D检测的精度,作者对深度预测器进行了重新设计。改造后的深度预测器现在直接利用图像数据本身来提取与深度相关的特征,绕开了对 Backbone 派生特征的二次处理,从而减轻了模型训练期间可能出现的对齐学习问题。

这种新型深度预测器的架构从几个最先进的单目深度估计模型中汲取灵感,如lite-mono[39]和monodepth2[40]。其具体的结构配置如图2所示,从维度为 的图像开始,通过卷积扰动模块进行处理,其中图像数据通过 卷积操作进行下采样。随后,部署两个额外的 卷积层(每个步长为1),用于局部特征提取,产生维度为 的特征图。在接下来的阶段,这些特征与池化的三通道输入图像连接在一起,然后通过步长为2的 卷积层进行另一轮下采样,得到维度为 的特征图。在降采样层中与池化的输入图像整合特征有助于减轻由于特征维度减少而导致的 spatial 信息丢失,这一灵感来自于ESPNetv2[41]。在此之后,引入RGFI和SDC以促进获取丰富的层次特征表示。随后的降采样层同样继承了前一个降采样层的连接特征。同样地,输出特征图经过进一步处理,直到其维度与MonoDETR[14]相匹配,具体为

值得提及的是,MonoDETRNext-A使用了作者定制设计的深度预测器,而MonoDETRNext-F则使用了原始的MonoDETR。在获得 之后,作者的模型以及MonoDETR的后续操作都涉及到通过一个线性分类层和一个编码层进行编码,以获得 以及其他附加数据。这些数据随后被送入深度引导的解码器以解析特征。

序列膨胀卷积(SDC) 模块被引入以使用膨胀卷积提取多尺度局部特征。与lite-mono类似,作者采用分阶段的方法,通过插入多个连续的、具有不同膨胀率的膨胀卷积,有效地聚合多尺度上下文。

对于一个2D信号 ,一个2D膨胀卷积的输出 可以定义为:

其中 是一个长度为 的滤波器, 表示用于卷积输入 的膨胀率。在标准的非膨胀卷积中, 。通过使用膨胀卷积,网络可以在保持输出特征图固定大小的同时,实现更大的感受野。考虑到一个维度为 的输入特征 ,作者SDC模块的输出 计算如下:

其中 表示逐点卷积后跟GELU[42]激活。 表示批量归一化层, 是一个 卷积层。

区域-全局特征交互(RGFI) 模块的工作方式如下:对于一个维度为 的输入特征图 ,它被线性投影为 Query 、键







请到「今天看啥」查看全文