专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

华中科技大学带你探索3D点云检测,SEED 方法与 Transformer 架构的巧妙结合 !

智驾实验室  · 公众号  ·  · 2024-07-25 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

近年来,检测 Transformer (DETRs)因其优雅的框架而在2D检测领域逐渐占据主导地位。然而,基于DETR的3D点云检测器仍难以达到满意的性能。

作者认为主要的挑战有两方面:

  1. 由于点云的高稀疏性和不均匀分布,如何获取适当的目标 Query 是一个挑战;

  2. 如何通过利用点云丰富的几何结构来实现有效的 Query 交互尚未被充分探索。为此,作者提出了一种简单有效的3D DETR方法(SEED),用于从点云中检测3D目标,该方法包括一个双重 Query 选择(DQS)模块和一个可变形网格注意力(DGA)模块。

具体来说,为了获取适当的 Query ,DQS首先通过预测的置信度分数确保高召回率,保留大量 Query ,然后根据估计的质量分数进一步筛选出高质量的 Query 。DGA将每个参考框均匀划分为网格作为参考点,然后使用预测的偏移量来实现灵活的感受野,使网络能够关注相关区域并捕捉到更有信息量的特征。

对DQS和DGA进行的广泛消融研究证明了其有效性。此外,作者的SEED在大型Waymo和nuScenes数据集上均取得了最先进的检测性能,展示了作者提出方法的优势。

代码https://github.com/happinesslz/SEED。

1 Introduction

检测 Transformer (DETR)[3]是首个端到端的基于 Transformer 的检测器,它将目标检测重新定义为集合预测问题,并消除了手工制作的 Anchor 框和非最大值抑制(NMS)后处理。这些优越特性使得DETR范式成为二维目标检测任务的主流方法。

然而,尽管在点云的3D目标检测方面已经对DETR范式做出了许多努力,但它们并没有展现出与二维领域相似的惊人性能,仍然落后于最先进的3D检测器。主要原因是2D图像与3D点之间的巨大差距(即,密集且规则的2D图像与稀疏且不规则的3D点云),这要求作者对DETR范式中的两个关键组件(即, Query 选择和 Query 交互)进行特殊设计。对于 Query 选择,一些方法[1, 7, 61]主要从得分图中选择Top-N(例如,N=200、300或1000)特征作为 Query 。尽管这些方法有效,但它们没有考虑所选 Query 对框定位的质量。对于 Query 交互,一些研究[1, 46]通过执行多个注意力操作来实现充分的特征交互。然而,这些方法没有充分利用点云中3D目标的几何信息。

在本文中,为了缓解上述挑战,作者提出了一种简单有效的3D DETR方法(SEED),用于从点云中检测3D目标。作者SEED中的第一个关键设计是所提出的双重 Query 选择(DQS),以粗到精的方式挑选出高质量的 Query ,包括前景 Query 选择和质量 Query 选择。这种方式不同于现有的一步 Query 选择方法[1, 61]。更具体地说,为了确保高召回率,作者首先根据来自 Mask 预测器的估计置信度,在前景 Query 选择中保留大量的前景 Query 。然后,作者采用SEED解码层允许这些 Query 与鸟瞰图(BEV)特征有效交互。增强的 Query 被送入质量 Query 选择阶段以挑选出高质量的 Query 。

作者SEED中的第二个核心设计是所提出的可变形网格注意力(DGA),使网络聚焦于相关区域,实现更有效的特征交互。具体来说,为了利用点云中丰富的几何信息,作者首先将回归分支估计的参考框划分为统一网格,其对应的特征可以轻松收集来描述3D目标的几何结构。为了减轻对高精度参考框的强烈依赖,作者进一步使用这些采样网格作为参考点,并应用预测的偏移量以获得灵活的感受野。这使得网络能够关注到兴趣区域的周围,即使是对于精度较低的参考框。

如图1所示,作者将SEED与现有的基于DETR的3D检测方法以及其他代表性方法[8, 36]在Waymo验证数据集[39]上的性能和运行速度进行了比较。可以清楚地观察到,作者的小型SEED-S(即小版本)不仅在检测性能上超过了现有的基于DETR的方法,而且在运行速度上也保持领先。总之,作者的贡献如下:

  • 引入了一种新颖的双重 Query 选择模块,以粗到精的方式生成高质量的 Query 。
  • 采用了一种有效的可变形网格注意力模块,它自适应地聚合关键区域,并通过适当利用点云的几何信息执行信息 Query 交互。
  • 所提出的SEED在大型Waymo[39]和nuScenes[2]数据集上实现了3D目标检测的最先进性能。

2 Related Work

基于DETR的2D目标检测。 DETR [3]是一种端到端的目标检测器,它将目标视为 Query ,并利用 Transformer 来将 Query 与图像特征进行交互。此外,DETR放弃了许多手工操作(例如, Anchor 点,NMS),并采用匈牙利匹配来实现与真实值的分配。DETR提出的优雅架构为目标检测研究带来了新的洞见,许多工作从不同角度改进了DETR。Deformable DETR [62]将可变形注意力引入到DETR中,大大提高了DETR的收敛速度。DN-DETR [19]提出了去噪训练策略,有效降低了二分图匹配的学习难度。DINO [56]在去噪训练中利用对比学习以达到更好的性能。

基于LiDAR的3D目标检测。 点云中的3D目标检测器可以分为基于点的方法和基于 Voxel 的方法。对于基于点的方法,大多数方法直接利用类似PointNet的主干网络[32, 33]来提取点特征,这可以保持精确的几何结构信息。然而,这些方法通常需要采样点以降低计算成本,这可能会丢失点云中的一些重要信息。对于基于 Voxel 的方法,大多数方法将点云量化为规则网格,并利用3D稀疏卷积主干网络高效地提取网格特征(例如 Voxel 和柱状)。

基于DETR的3D目标检测。 由于 Transformer 的强大特征表示能力,许多工作已经探索利用DETR进行点云中的3D目标检测,特别是对于DETR中的两个关键组件( Query 选择和 Query 交互)的设计。具体来说,TransFusion [1]基于 Heatmap 选择BEV特征中的局部最大特征作为 Query 。CMT [46]采用可学习的 Query ,以3D网格初始化,并利用全局注意力将 Query 与BEV特征进行交互。ConQueB [61]提出了一种 Query 对比机制以减少误报。FocalFormer3D [7]利用多阶段 Heatmap 进行更好的 Query 选择。此外,FocalFormer3D [7]采用可变形注意力进行有效的 Query 交互。尽管上述基于DETR的方法取得了一些进展,但它们仍然不如一些不属于DETR范式的先进方法[43, 8]。在本文中,作者提出了一种简单有效的3D DETR,名为SEED,包括一个新颖的双重 Query 选择模块,用于挑选高质量的 Query ,以及一个可变形网格注意力模块,通过利用点云丰富的几何信息进行有效的 Query 交互。

3 Method

尽管在基于DETR的3D目标检测方面已经进行了许多尝试,但与现有的先进LiDAR-based 3D检测器[43, 8]相比,性能上仍存在一定差距。作者认为主要挑战来自于两个方面:一方面,从点云的高稀疏性和不均匀分布中选择优质的 Query 并不是一件简单的事;另一方面,探索如何利用点云中丰富的几何结构信息进行有效的 Query 交互仍然具有挑战性。

为了缓解这些问题,作者提出了一种简单而有效的3D DETR方法(SEED),用于从点云中检测3D目标。如图2所示,作者展示了SEED的总体流程。具体来说,作者首先将点云输入到一个经典的基于 Voxel 的三维 Backbone 网络[47]中,以提取3D Voxel 特征,并进一步将它们转换为鸟瞰图(BEV)特征。为了保留它们的位置信息,作者在BEV特征中添加了位置嵌入。然后,将BEV特征展平以进行后续的 Query 选择。至于 Query 选择,作者提出了一种新颖的双重 Query 选择(DQS),它采用从粗到精的方式获取高质量的 Query 。最后,采用包括六个SEED解码层在内的 Transformer 解码器,实现高质量 Query 与展平的BEV特征之间的特征交互,产生最终的检测结果。特别是,作者的SEED解码层利用有效的可变形网格注意力(DGA)进行 Query 交互,而不是经典DETR解码器[3]中的交叉注意力操作。以下,作者将介绍SEED中提出的DQS和DGA的细节。

Dual Query Selection Module

在基于DETR的2D目标检测器中,适当的 Query 选择已证明对于确保准确的目标定位和加速模型收敛至关重要[5, 23, 56]。然而,由于2D图像与3D点云在数据格式上的巨大差异, Query 选择需要考虑点云的一些特性,如高稀疏性和不均匀分布。为此,作者提出了一种新颖的双 Query 选择(DQS)模块,其主要目的是以从粗到精的方式获取高质量的 Query 。作者在图3中详细介绍了DQS的结构,包括前景 Query 选择和质量 Query 选择。

前景 Query 选择。 首先,对于前景 Query 选择,作者利用二分类预测器在鸟瞰图(BEV)特征上区分背景和前景。同时,作者将BEV位置嵌入添加到BEV特征中,并将它们沿空间维度展平以生成所有 Query (也称为展平的BEV特征)。为了描述方便,作者将展平的BEV特征定义为 ,其中 分别是BEV特征的高度、宽度和通道维度。然后,作者从 Mask 预测器的BEV特征 的顶部置信度中按比例 选择 Query 作为粗 Query ,这样可以尽可能保留更多潜在的前景 Query ,以确保高召回率。最后,前景 Query 选择可表述为:

其中 表示根据 中选择顶部 个 Query , 是粗 Query 的数量。

在获得粗 Query 后,作者进一步将它们送入SEED解码层以实现 Query 与展平BEV特征之间的充分特征交互,产生增强的 Query ,其计算如下:

质量 Query 选择。 首先,作者将粗略 Query 输入到三个前馈网络(FFN)分支中,以生成粗略 Proposal 框的分类得分 、定位得分 以及回归得分 。这些得分对应的真实值是基于所提出的质量感知匈牙利匹配进行分配的(详见第3.3节)。在这里,分类得分是指识别3D目标 Proposal 的概率,定位得分定义为 Proposal 框与真实值的3D交并比(IoU)。考虑到定位得分主要是针对前景目标的,作者设置了一个适当的分类得分阈值 来区分前景目标。因此,结合这两个指标的质量得分 可以表述为:

其中 是一个超参数,用于控制分类得分和定位得分的重要性, 。然后,作者根据质量得分 选择前 个细粒度 Proposal 框 ,并将它们与相应的框质量得分 进行拼接。接下来,作者将拼接后的特征输入到多层感知机(MLP)中,以生成几何感知的高质量 Query 。这些步骤可以表述为:

最后,DQS的输出 Query 将被输入到后续的SEED解码器中。

SEED Decoder Layer

提出的SEED解码层通过自注意力操作和交叉注意力操作进一步增强了 Query 特征表示,然后通过FFN将增强的 Query 映射到特定任务的输出。与现有的基于DETR的方法[7, 46, 61]不同,作者的SEED解码层采用了一种新的交叉注意力操作,即可变形网格注意力(DGA)。接下来,作者将介绍DGA的原因和细节。

为什么需要DGA? 为了进一步探索DETR范式在3D检测中的潜力,有必要为点云设计有效的 Query 交互。首先,与2D图像不同,附近的物体可能占据整个图像的大部分,这甚至需要全局感受野来很好地检测物体。然而,3D物体通常只占据一个小局部区域(在SST[10]中也提到),这比整个点云的范围要小得多。因此,点云中的 Query 交互可能只需要局部注意力。其次,点云拥有丰富的几何结构,特别是对于规则车辆。因此,合理利用3D物体的几何信息非常重要。第三,尽管准确的3D Proposal 框可以描述3D物体的几何信息,但它并不适合捕捉一些不规则物体或一些难以识别的物体。这表明需要灵活的感受野。为此,作者提出了可变形网格注意力(DGA),这是一种新的局部注意力,但采用灵活的感受野有效地利用3D物体的几何信息进行 Query 交互。

DGA的细节 。如图4所示,作者展示了DGA的详细结构。具体来说,作者首先将来自DQS的估计 Proposal 框 视为参考框,并将每个参考框均匀划分为 的网格







请到「今天看啥」查看全文