基于LiDAR的三维目标检测在自动驾驶中起着至关重要的作用。现有表现优秀的三维目标检测器通常在主干网络和预测头中构建密集特征图。然而,随着感知范围的增加,密集特征图引入的计算成本呈二次增长,使得这些模型难以扩展到远程检测。一些最近的工作试图构建完全稀疏的检测器来解决这一问题;然而,得出的模型要么依赖于复杂的多阶段流程,要么表现出性能不佳。
在这项工作中提出了SAFDNet,一种简单而高效的架构,专门用于完全稀疏的三维目标检测。在SAFDNet中,设计了一种自适应特征扩散策略来解决中心特征缺失问题。我们在Waymo Open、nuScenes和Argoverse2数据集上进行了大量实验。
SAFDNet在前两个数据集上的表现略优于先前的SOTA,但在具有远程检测特点的最后一个数据集上表现要好的多,验证了在需要远程检测的场景中SAFDNet的有效性。值得注意的是,在Argoverse2上,SAFDNet在mAP上超过了之前的最佳混合检测器HEDNet 2.6%,同时速度快了2.1倍,并且在mAP上比先前的最佳稀疏检测器FSDv2提高了2.1%,同时速度快了1.3倍。
-
代码:https://github.com/zhanggang001/HEDNet
1 Introduction
基于LiDAR的三维目标检测在计算机视觉中提出了重大挑战,并因其潜在应用于自动驾驶和先进机器人技术而受到越来越多的关注。目前,大多数基于LiDAR的三维检测器将稀疏特征转换为密集特征图,以便进一步的特征提取和预测,这类检测器被称为混合检测器(见图1(a))。这些方法在如nuScenes和Waymo Open等成熟基准测试中表现出色,这些基准测试主要针对相对较短的感知范围(低于75米)。然而,将这些方法扩展到更实际的远距离场景(超过200米)变得具有挑战性,因为与密集特征图相关的计算成本会随着感知范围的增加而呈二次增长。此外,处理未占用区域常常是不必要的,甚至可能妨碍检测精度。因此,研究人员越来越有兴趣开发完全稀疏的检测器。
构建完全稀疏检测器,通过从现有的混合检测器中移除稠密特征图,这是一项非平凡的任务,因为这些特征图在这些方法中起着至关重要的作用。大多数混合检测器依赖于对象中心特征进行预测,认为它们是整个对象的可靠表示。这些方法通常首先使用稀疏体素编码器从非空体素中高效提取特征。
随后,它们将这些稀疏特征转换成鸟瞰图(BEV)中的稠密特征图,并使用卷积神经网络(CNNs)将特征向对象中心扩散,创建中心特征。然而,对于完全稀疏检测器来说,在缺少稠密特征图的情况下,大型对象如车辆和卡车的中心通常仍然是空的,导致“中心特征缺失”问题。因此,学习适当的对象表示对于构建完全稀疏检测器变得至关重要。
为了解决中心特征缺失问题,FSDv1 提出了一个涉及实例聚类的多阶段处理流程(图1(b))。具体来说,它首先将原始点云分割为前景和背景,然后进行实例聚类的中心投票。随后,从每个簇中提取实例特征进行初步预测,这些预测通过一组修正头进行细化。FSDv2 用虚拟体素化模块替代了特征聚类,以减少手工制作的实例级表示的归纳偏置,但它仍然依赖于点分割和预测细化。复杂的处理流程使得由于需要调整的众多超参数,它们难以在现实世界场景中部署。相比之下,VoxelNeXt 直接基于最接近对象中心的特征来预测物体,但其准确度较差。
在这项工作中,我们介绍了SAFDNet,一个简单但有效的架构,专为完全稀疏的3D目标检测而设计(图1(c))。与混合检测器类似,SAFDNet最初采用一个稀疏体素编码器来提取3D稀疏特征,然后将这些特征转换为2D稀疏鸟瞰图(BEV)特征。随后,提出了一种自适应特征扩散(AFD)策略,将特征向目标中心传播,作为SAFDNet中的核心组件,解决中心特征缺失问题。
与混合检测器中通过密集卷积网络实现的均匀特征扩散不同,我们的AFD选择性地在目标边界框内扩展特征到邻近区域,根据体素位置动态调整扩散范围。因此,SAFDNet仍然可以在稀疏特征上进行高效计算。扩展的特征被送入稀疏检测头进行预测。重要的是,SAFDNet保持了与现有混合检测器大多数超参数的兼容性,包括检测头的超参数,这使得可以轻松地适应新场景。
我们在具有挑战性的Waymo Open,nuScenes,和Argoverse2数据集上进行了大量实验,以验证我们方法的有效性。在用于短距离检测的前两个数据集上,SAFDNet的表现与之前的最佳混合检测器HEDNet相当,并且比之前的最佳稀疏检测器FSDv2快了2倍。在用于长距离检测的Argoverse2数据集上,SAFDNet在速度上比HEDNet快2.1倍的同时,mAP超过了2.6%,并且在速度上比FSDv2快1.3倍的同时,mAP超过了2.1%。这些结果证明了在需要长距离检测的场景中,SAFDNet的有效性。
2 Related work
Dense detectors
VoxelNet [3]首次将密集卷积应用于基于激光雷达(LiDAR)的3D目标检测,并取得了具有竞争力的性能。然而,由于计算复杂度,直接将密集卷积应用于3D体素特征学习提出了效率挑战。为了克服这一限制,基于柱状的方法改为在鸟瞰图(BEV)密集特征图上使用2D密集卷积,这提高了计算效率,但导致了准确度的降低。
Hybrid detectors
与密集检测器不同,混合检测器结合了稀疏和密集特征。例如,SECOND作为一项开创性工作,使用稀疏CNN提取3D稀疏体素特征,然后将它们转换为密集的鸟瞰图(BEV)特征图以进行预测。FocalsConv通过自适应的空间可学习稀疏性扩展特征,提高了稀疏CNN的效率。CenterPoint引入了一种基于中心的检测头,在3D目标检测和跟踪方面展现出卓越的性能。最近的研究从不同角度进一步增强了CenterPoint。
此外,另一系列工作探讨了Transformer以捕获空间特征之间的长距离依赖关系。然而,尽管这些方法采用了稀疏的主干网络,但它们在扩展到长距离场景时面临挑战,这主要是由于它们依赖于密集特征图。
Sparse detectors
一些早期工作采用PointNet系列从原始点云中提取稀疏特征进行预测。Point R-CNN作为开发完全基于点的检测器的先驱。VoteNet引入了中心投票机制,并从投票中心生成提案。尽管努力加速全点基础方法,但对于大规模点云而言,耗时的邻域搜索仍然不切实际。相比之下,FSDv1将原始点云分割为前景和背景,然后将前景点聚类以表示单个对象。
然后,它使用类似于PointNet的网络从每个簇中提取特征进行初步粗略预测,并通过一组校正头进行细化。FSDv2用虚拟体素化模块替换实例聚类,旨在消除手工制作实例级表示的归纳偏差。然而,它仍然需要点分割和预测细化。复杂的流程需要调整众多超参数,以便在实际场景中部署。
相比之下,SWFormer提出了一种完全基于Transformer的3D对象检测架构。而最近的VoxelNeXt简化了全稀疏架构,采用纯粹基于体素的设计,通过靠近对象中心的特征来定位对象。尽管SWFormer和VoxelNeXt的效率值得注意,但与混合检测器相比,它们的准确度较低。
3 SAFDNet
Background
稀疏卷积。现有的基于激光雷达的3D目标检测器通常利用稀疏卷积进行数据处理,以提高计算效率。主要使用两种类型的稀疏卷积:子流形稀疏卷积,它在输入和输出特征图之间保持特征稀疏性;以及规则稀疏卷积,它通过将特征扩展到邻近区域来增加特征图的密度。由于规则稀疏卷积显著降低了特征的稀疏性,因此在现有方法中,它通常只被用来下采样特征图。
稀疏残差块(SRB)。
大多数基于体素的方法采用稀疏CNN来提取特征。这些CNN通常包括一系列稀疏残差块,每个块包含两个子流形稀疏卷积和一个跳跃连接,将输入和输出连接起来。
稀疏编码器-解码器块(EDB)。
由于子流形稀疏卷积能够从输入到输出保持特征稀疏性,它们可能会阻碍空间上相距较远特征之间的信息交换。因此,仅仅堆叠SRBs可能导致接受域的大小有限。HEDNet 通过整合稀疏编码器-解码器块来解决这个问题,这些块能够捕捉特征之间的长距离依赖关系,同时保持计算效率。图3展示了EDB的一般结构。它通过特征下采样减少远距离特征之间的空间距离,并通过多尺度特征融合恢复丢失的细节。通过将3D和2D子流形稀疏卷积应用于构建SRB,我们可以分别获得3D-EDB和2D-EDB。
Overall architecture
图2展示了所提出的SAFDNet的概览。SAFDNet与现有的混合检测器具有类似的处理流程。它由三部分组成:一个3D稀疏骨干网络,一个2D稀疏骨干网络,以及一个稀疏检测头。
三维稀疏骨干网络。
该网络以原始点云作为输入,最初通过体素特征编码器(VFE)提取稀疏特征图,并逐步对它们进行下采样以提取高级特征。在骨干网络的末端,它融入了一个3D-EDB来促进远距离特征之间的信息交换。随后,将三维稀疏特征压缩成二维稀疏鸟瞰图(BEV)特征。这种压缩是通过使用两个步长为2的常规稀疏卷积来沿着Z轴下采样特征,然后聚合在BEV中具有相同坐标的体素的特征来实现的。
二维稀疏主干网络。
该网络以鸟瞰图(BEV)稀疏特征作为输入,首先对每个体素进行分类,以确定每个体素几何中心是否位于特定类别的对象边界框内,或属于背景。随后,结合二维扩展距离变换(2D-EDB),采用自适应特征扩散(AFD)操作来将体素特征向对象中心传播。
稀疏检测头。
由于大多数高性能的混合检测器都采用了由CenterPoint [4]提出的基于中心的头,我们也为SAPDNet采用了类似的头。然而,由于CenterPoint中的分类和回归设计是针对密集特征图的,我们对它做了一些调整以适应稀疏特征。更多细节请参考第3.4节。
Adaptive feature diffusion
现有的混合检测器通常将3D目标检测分解为分类和回归任务。分类任务旨在为每个类别定位到对象中心的体素,而回归任务则基于这些中心特征预测精确的边界框。鉴于激光雷达点云位于物体表面,简单地移除密集特征图以构建完全稀疏检测器会导致中心特征缺失问题。一个直接的解决方案是基于离对象中心最近的特征进行预测。
具体来说,我们将分类任务重新定义为识别最接近对象中心的体素,使得回归任务能够使用这些最接近的体素特征来预测精确的边界框。我们的实验,详细见表1,表明这样的稀疏模型(底行)的表现不如混合检测器HEDNet。这种差异在较大车辆上尤为明显,它们受到中心特征缺失问题的影响更为严重。这些发现表明,中心特征确实比它们最近的特征提供了更好的对象表示。
均匀特征扩散(UFD)。探测器是否能够在尽可能保持特征稀疏性的同时提取更接近或位于对象中心处的特征?一个直观的想法是将稀疏特征扩散到相邻体素,而不是像混合探测器那样扩散到所有体素。图4(a)描述了一种均匀特征扩散策略,其中输入体素特征扩展到一个
邻域,这里以
设置为5作为一个例子。有两种可能的实现方式:
基于参数的(PB)不确定性特征扩散(UFD):
采用常规的稀疏卷积,其核大小为
来传播特征,并结合2D-EDB进行进一步的变换。
参数自由(PF)的无监督特征扩散(UFD):
在邻近区域初始化零特征,然后结合一个2D-EDB逐步扩散特征。
自适应特征扩散(AFD)。
通过对3D稀疏主干输出的稀疏体素进行分析,我们观察到:(a)少于10%的体素位于物体边界框内;(b)较小物体的体素特征通常位于或接近它们的中心。这表明在将特征均匀扩散到相同大小的邻域时可能存在潜在冗余,特别是对于位于小物体边界框内以及属于背景的体素。
因此,我们根据体素位置提出了一种自适应特征扩散策略,如图4(b)所示。_该想法_是给位于大物体边界框内的体素分配更大的扩散范围,以使特征更接近物体中心,而给位于小物体或背景边界框内的体素分配较小的范围,以保持特征稀疏性。实现这个想法需要通过体素分类来确定一个体素的中心是否位于特定类别物体的边界框内,或者属于背景。
训练。对于体素分类的训练过程,我们将大小相似的对象类别分组,并对每个组执行二分类。设
表示类别组的数量,
为稀疏体素的数量。对于第
组,模型预测一个长度为
的向量
。相应的训练目标
定义如下:
在式中,
,