专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

单目3D目标检测 MonoMAE | 应对遮挡挑战,实现精准识别与定位 !

智驾实验室  · 公众号  ·  · 2024-05-20 16:28

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

单目3D目标检测旨在从单视角图像中精确地定位和识别物体的3D信息。尽管近年来取得了进展,但在处理普遍存在的物体遮挡时,它常常会遇到困难,这些遮挡会复杂化并降低对物体尺寸、深度和方向的预测。

作者设计了MonoMAE,一个受 Mask 自编码器启发的单目3D检测器,通过在特征空间中 Mask 和重建物体来解决物体遮挡问题。MonoMAE包括两个新颖的设计。

第一个是深度感知 Mask ,它通过在特征空间中选择性地 Mask 非遮挡物体 Query 的某些部分,来模拟遮挡物体 Query 以进行网络训练。它根据深度信息自适应地平衡 Mask 和保留的 Query 部分,来 Mask 非遮挡物体 Query 。

第二个是轻量级 Query 完成,它与深度感知 Mask 一起工作,学习重建和完成 Mask 物体 Query 。通过提出的物体遮挡和完成方法,MonoMAE学习了丰富的3D表示,无论是在遮挡物体还是非遮挡物体上,都定性定性地实现了卓越的单目3D检测性能。

此外,MonoMAE还学习了可泛化的表示,能够在新的领域内有效工作。

1 Introduction

三维目标检测已成为各种导航任务的关键组成部分。与先前依赖激光雷达[23, 56, 60]或多视角图像[24, 27, 53]的研究相比,单目三维目标检测提供了一种更具成本效益且易于获取的替代方案,它通过单视角图像识别物体并预测其三维位置。另一方面,由于缺乏多视角图像或激光雷达数据中的三维信息,单目三维目标检测要更具挑战性。

在单目三维检测的各种新挑战中,物体遮挡是其中一个关键问题,如图1(a)所示,在自然图像中广泛存在。在预测物体的三维位置时,尤其是在物体的深度、尺寸和方向方面,物体遮挡成为一个重要问题。

大多数现有的单目三维检测器,如MonoDETR  和GUPNet ,忽视了物体遮挡问题,如图1(b)所示,这会导致性能明显下降。一个简单的想法是学习重建被遮挡的物体区域,这样被遮挡的物体可以像非遮挡物体一样处理。另一方面,由于场景图像中物体遮挡的丰富变化,在图像空间中重建被遮挡的物体区域是复杂的。

受到 Mask 自动编码器(MAE)[15]的启发,该方法通过随机遮挡图像块并在表征学习中重建它们,作者将物体遮挡视为自然的 Mask ,并训练网络完成被遮挡物体区域,以学习容忍遮挡的表征。为此,作者设计了MonoMAE,一个新颖的单目三维检测框架,它采用了MAE的思想,首先在特征空间中 Mask 某些物体区域(模拟物体遮挡),然后重建被 Mask 的物体特征(学习容忍遮挡的表征)。MonoMAE包括一个深度感知 Mask 模块和一个轻量级补全网络。深度感知 Mask 根据物体深度信息自适应地 Mask 非遮挡物体的特征,以模拟物体遮挡。它生成了非遮挡和遮挡(即被遮挡)物体表征的成对数据,这些数据可以直接用于训练轻量级补全网络,旨在完成被遮挡物体并学习容忍遮挡的表征。需要注意的是,MonoMAE在推理时引入的计算开销很小,因为它在推理阶段不需要物体 Mask ,且补全网络是轻量级的。此外,通过轻量级网络在特征空间中有效地完成补全,胜过了对图像空间补全所需的复杂编码器-解码器结构。这项工作的贡献可以从以下三个方面总结:首先,作者设计了MonoMAE,一个受MAE启发的单目三维检测框架,通过在特征层面 Mask 和重建物体区域,有效地解决物体遮挡问题。其次,作者设计了自适应图像 Mask 和轻量级补全网络,它们根据物体深度自适应地 Mask 非遮挡物体(模拟物体遮挡),并分别重建被 Mask 的物体(学习容忍遮挡的表征)。第三,对KITTI 3D和nuScenes的大量实验表明,MonoMAE一致优于现有技术水平,并且它也可以推广到新的领域。

2 Related Work

作者回顾了两个主要领域的相关工作:首先,作者讨论了深度学习技术在视觉识别方面的发展;其次,作者对视频动作识别方面的进展进行了调研。

Monocular 3D Object Detection

单目3D检测旨在从单视角图像中识别和定位物体的三维信息。大多数现有工作可以广泛分为两类。第一类采用卷积神经网络,大多数方法遵循传统2D检测器[12]的以中心为导向的流程。

标准方法仅从单视角图像中学习单目3D检测器。为了获取更多的深度信息,一些研究探索利用额外的训练数据,例如激光雷达点云,深度图,以及3D CAD模型[36, 29, 7]。除此之外,一些研究以不同的方式利用2D和3D空间之间的几何关系。例如,M3D-RPN[1]将强大的2D检测器FPN[42]应用于3D检测。

MonoDLE[34]对齐2D和3D框的中心以实现更好的3D定位。GUPNet[31]利用不确定性建模从2D框估计3D框的高度。

第二类引入强大的视觉 Transformer 以实现更准确的单目3D检测。例如,MonoDTR[19]整合了上下文和深度感知特征,并将深度位置提示注入 Transformer 中。

MonoDETR[57]修改了 Transformer 以使其具有深度感知能力,并通过上下文深度线索引导检测过程。然而,大多数现有研究忽视了自然图像中普遍存在的物体遮挡,这常常明显降低单目3D目标检测的性能。

作者采用 Transformer 架构来学习能够有效处理物体遮挡的遮挡容忍表示,而无需任何额外的数据。

Occlusions in 3D Object Detection

目标遮挡在场景图像中普遍存在,已在多个3D检测研究中进行了探讨。

一种典型的方法是学习估计被遮挡目标的完整定位。例如,Mono-3DT [18] 通过从一系列2D图像中重新识别被遮挡的车辆来估计完整的3D边界框。BtcDet [52] 利用目标形状先验并学习估计部分遮挡目标的完整形状。

一些研究在训练中考虑了遮挡程度。例如,MonoPair [8] 利用成对样本之间的关系并从它们的邻居编码被遮挡目标的空间约束。HMF [25] 引入了反遮挡损失以关注遮挡样本。

与先前方法不同,作者的MonoMAE通过在特征空间中遮盖并完成目标部分来学习增强的和容忍遮挡的表示。

Masked Autoencoders in 3D Tasks

Mask 自动编码器(MAE)[15]通过 Mask 图像块并重建它们来学习视觉表示,这一方法已在几项点云预训练研究中被探索。对于户外点云预训练,Occupancy-MAE [35]利用了范围感知的随机 Mask ,采用三种 Mask  Level 来处理激光雷达点云的稀疏 Voxel 占用结构。GD-MAE [54]引入了一个生成式解码器,以层次化地恢复 Mask 标记,并将周围上下文合并。对于室内点云预训练,Point-MAE [37]采用MAE直接重建 Mask 标记的3D坐标。I2P-MAE [58]引入了2D预训练模型,通过多样的2D语义增强3D预训练。PiMAE [5]通过交互处理点云和RGB图像,用MAE学习跨模态表示。与上述研究不同,作者的MonoMAE处理从单视角图像中的单目3D检测,并专注于通过在特征层面学习完成被遮挡物体区域的目标遮挡问题。

3 Proposed Method

Problem Definition

单目3D检测接收单个RGB图像作为输入,旨在对物体进行分类并预测它们的3D边界框。每个物体的预测由物体类别 、一个2D边界框 和一个3D边界框 组成,其中 可以进一步分解为物体的3D位置 、物体在高度、宽度和长度上的尺寸 ,以及物体的方向

Overall Framework

图2展示了所提出的MonoMAE框架。给定输入图像 ,3D Backbone 网络首先生成一系列3D目标 Query 表示 Query 数量),非遮挡 Query 分组随后将这些 Query 分类为两组,包括非遮挡 Query 和遮挡 Query 分别是非遮挡和遮挡 Query 的数量)。非遮挡 Query 掩蔽接着根据它们的深度 掩蔽 ,产生掩蔽 Query 。 Query 完善进一步重建 以产生完成 Query 。最后,遮挡 Query 和完成 Query 被连接起来并输入到单目3D检测中进行3D检测预测。需要注意的是,推理过程不涉及非遮挡 Query 掩蔽,它只是将遮挡 Query 的完成(即 )与非遮挡 Query 连接起来,并将连接后的 Query 输入到3D检测Head中进行3D预测,如图3所示。

Non-Occluded Query Masking

在3D Backbone 网络预测的 Query 要么被遮挡,要么未被遮挡,这取决于输入图像中相应的物体是否被遮挡。在MonoMAE中,作者在特征空间中对未被遮挡的 Query 进行 Mask 处理,以模拟遮挡,旨在生成未被遮挡和 Mask (即遮挡)的 Query 对,以学习容忍遮挡的物体表示。具体来说,作者设计了非遮挡 Query 分组(Non-Occluded Query Grouping)来识别未被遮挡的 Query ,并将它们输入到深度感知 Mask (Depth-Aware Masking)模块中合成遮挡。

具体而言,作者设计了一个非遮挡 Query 分组模块来识别非遮挡 Query ,然后将它们输入到一个设计的深度感知 Mask 模块中合成遮挡,接下来的小节将详细阐述。

非遮挡 Query 分组。 非遮挡 Query 分组根据 Query 对应的物体是否被遮挡来对 Query 进行分类。由于没有关于输入 Query 是否被遮挡的信息,作者设计了一个遮挡分类网络 来预测 Query 的遮挡情况 ,其中对于第 个 Query 。非遮挡 Query 分组可以表示为:

其中 表示 Query 未被遮挡, 表示 Query 被遮挡。遮挡分类网络使用遮挡分类损失 进行训练,如下:

其中 是交叉熵损失。作者采用了二分匹配[4]来匹配预测的 Query 和图像中的物体,其中只有匹配的 Query 具有KITTI 3D[13]关于它们是否被遮挡的 GT 值 。详情请参阅附录。

深度感知 Mask 。 作者设计了深度感知 Mask ,以自适应地在特征 Level 对非遮挡 Query 特征进行 Mask 处理,以模拟遮挡,旨在为学习容忍遮挡的表示创建未被遮挡和遮挡(即 Mask )的对。如图4所示,深度感知 Mask 根据物体深度确定 Mask 比例——物体越近, Mask 比例越大,从而补偿远物体的信息不足。此外,作者在特征 Level 模拟遮挡,因为在图像 Level 进行 Mask 和重建既复杂又计算密集。

在 Query  Mask 之前,深度感知 Mask 首先获得 Query 深度。在没有反向梯度传播的情况下,它采用3D检测Head为非遮挡 Query 获取深度 。在预测的深度下,每个非遮挡 Query 如Figure 4所示随机地被 Mask 。具体来说,距离摄像机较远的物体通常捕获的视觉信息较少。深度感知 Mask 通过为它们分配较小的 Mask 比例来适应这一点,从而为远物体保持更多的视觉信息以进行适当的视觉表示学习。

每个 Query 的 Mask 比例 由以下公式确定:







请到「今天看啥」查看全文