专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

距离不再是障碍：POP-RCNN在远距离目标检测中的优势!

智驾实验室 · 公众号 · · 2024-09-19 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

有效点云处理对于基于激光雷达的自动驾驶系统至关重要。在智能车辆的目标检测中，需要理解多种尺度的特征，因为道路使用者可能以不同的大小出现。

recent 方法集中在特征聚合算子（aggregator）的设计上，从编码器 backbones 收集不同尺度的特征，并将其分配给感兴趣的点。虽然对聚合模块进行了努力，但对如何融合这些多尺度特征的重要性却忽视了。这导致特征在不同尺度之间缺乏足够的交流。

为解决这一问题，本文提出了一种基于点云的特征金字塔 RCNN（POP-RCNN），它是一个基于特征金字塔的网络，用于3D目标检测。POP-RCNN 包括一个 Point Pyramid Feature Enhancement (PPFE) 模块，用于在空间尺度和语义深度之间建立连接并进行信息交换。

PPFE 模块在聚合多尺度特征时有效融合了多尺度特征，而不增加特征聚合的复杂性。为了弥补点密度不一致的影响，本文部署了一个点密度信心模块。这种设计集成使得可以使用轻量级的特征聚合器，并强调浅层和深层语义，实现了用于3D目标检测的检测框架。

具有很高的可适应性，所提出的算法可以应用于各种现有框架，增加特征丰富性，尤其对于远程检测效果显著。通过在 Voxel 基和点 Voxel 基基准中采用PPFE，KITTI和Waymo Open Dataset上的实验结果显示，即使资源受限，所提出的算法也能实现显著的性能。

I Introduction

二维空间中的目标检测通常基于RGB图像的纹理信息，而不了解物体的距离。通过在二维模型中扩展多视图或深度估计 [3] ，可以在3D空间中实现检测，而无需使用光检测和测距（LiDAR）传感器。但是，没有涉及实际深度测量。LiDAR传感器通过提供准确的深度测量来提高性能。与图像检测相比，虽然可以观察到性能的优势，但由于点云的稀疏性和不规则性，处理点云仍然具有挑战性。这些限制通常导致远离目标的子优检测结果。在本文中，提出了一种基于点云金字塔区域的卷积神经网络（POP-RCNN），该网络采用特征金字塔结构，以促进空间和语义尺度的信息交换。提出的点云金字塔特征增强模块有效地将多尺度特征融合，以增加特征丰富性并缓解点分布不均衡。尽管一些研究通过融合RGB图像和点云探索了多模态方法，但仍需克服纯点云表示的稀疏性。一个更丰富的点云基于特征表示仍然可以提高系统的鲁棒性，特别是在其他传感器失败的情况下。因此，本文专注于纯点云输入，并与Waymo和KITTI数据集上的多模态方法进行了比较。

在点云上进行3D检测的主要研究可以分为两大类别：单阶段和两阶段。单阶段检测器（SSDs）在单一的编码-解码过程中输出检测结果，而两阶段检测器（TSDs）则在区域 Proposal 网络（RPN）方案之后对可疑结果进行额外优化。对于这两种框架，特征提取通常实现为部署3D编码器 backbone，它由稀疏和小子流形卷积的不同空间步长组成。步长增加导致更大的感受野和编码多个尺度特征。大多数SSD通过flatten最后一层的3D特征在2D鸟瞰视角（BEV）特征图上预测检测结果 [15]。

由于细化阶段利用的更细致细节，TSD在准确性和计算负载方面优于SSD。传统的优化阶段包括一个Region ofInterest（RoI）池化模块，以及回归和分类头。 RoI池化模块根据 Proposal 区域收集多尺度特征，并将这些特征分配到 Proposal 中的每个 Anchor 点。这些特征通过使用全连接层堆叠并融合之前被输入回归和分类头。然而，这些细致编码的特征并没有得到有效利用。简单 ConCat 和全连接层的组合不足以建立空间尺度之间和语义深度之间的交流，导致检测远处物体的能力降低。因此，最近的研究倾向于通过优化其他模型的组件来提高长程目标的检测精度。然而，这种过度设计可能会导致网络其他组件的低效。

为了弥补这种 Level 的失衡，研究行人在2D检测领域探索了特征金字塔网络（FPN）的潜力[20, 21, 22]。在3D空间中的点分布进一步加剧了与2D检测的这种低效性。因此，目标中的点数存在较大的变化，这是个挑战，比如在KITTI数据集中[23]，最接近和最远离目标的前10%物体的平均值为约为350和15个点。Voxel-FPN[24]是向3D点云中引入金字塔结构的较早的介绍之一。然而，将FPN与单阶段网络中的立方体编码器背进行集成，导致了对小目标改进有限。

为了克服特征融合失效和点分布不平衡的问题，提出了一种新颖的多尺度金字塔区域卷积神经网络（POP-RCNN）TSD网络，针对3D点云。POP-RCNN在不同尺度间构建了联系以进行信息交换，特别是，提出的算法包括使用3D立方体 Backbone 和金字塔式精炼网络。第一阶段3D Backbone 使用稀疏和小子流形卷积来编码多个尺度下的点云特征，然后是一个3D到BEV模块，将高度抽象的3D特征映射到2D特征图。使用一个中介的2D检测Head来生成区域性建议。第二阶段由Point Pyramid Pooling和Fusion（POP-Pool和POP-Fuse）模块构建。为了聚合多个尺度的特征，POP-Pool模块为每个建议设置了一个网格点集合。不同于最近的方法[19, 25]中的池化模块，POP-Pool模块将多个尺度下的特征分别对各网格点进行聚合。POP-Fuse模块遵循Generalized FPN[26]以在所有空间尺度和语义深度之间建立蜘蛛网状的联系，同时采用点特定的最近邻插值来匹配不同 Level 下的POP-Pool的点特征大小。将POP-Pool与POP-Fuse相结合，PPFE模块可以通过鼓励信息交换充分发掘编码特征。融合的特征携带有密集的语义和几何证据来平衡点分布。为了考虑距离不变的特征，作者集成了一种距离敏感的密度置信评分（DADCS）方案以提供分类置信度的额外指导。POP-RCNN可以应用于不同的TSD。例如，基于立方的检测器，Voxel-RCNN[18]和基于点立方体的检测器，PV-RCNN[19]通过所提出的做法进行了扩展。作者的POP-RCNN在Waymo Open Dataset上的LEVEL_2（车辆）中分别将Voxel-RCNN和PV-RCNN提高了2.88%和1.12%的AP。对于KITTI _val_集上的Moderate Car类别，分别将Voxel-RCNN和PV-RCNN提高了0.63%和0.66%。在强调长程检测的情况下，作者提出的POP-RCNN在其基准上分别将Waymo Open Dataset上的LEVEL_1长程（大于50m）Vehicle，Pedestrian和Cyclist类别中的mAP提高了2.02%，3.32%和1.02%。

基于有效多尺度特征表示的点云处理，POP-Pool和POP-Fuse模块被设计出来。分离的池化和融合方案可以通过确保空间和语义维度上的充分信息交换来降低点稀疏性和分布不平衡。
提出了一种新的特征金字塔检测框架POP-RCNN，用于点云上的3D目标检测。POP-RCNN将POP-Pool和POP-Fuse集成，在帮助DADCS方案的同时，为不同大小 road user 生成高质量预测。
进行了大量实验，证明了POP-RCNN在提高现有两阶段3D点云检测器兼容性和有效性方面。

II Related Works

3D Object Detection from Point Clouds

3D目标检测方法大多数可以归类为SSDs（单阶段检测器）和TSDs（阶段式检测器）。SSDs利用检测模型中由 Backbone 网络编码的特征生成一次边界框。例如，VoxelNet利用基于体元的3D Backbone 网络，其中可以将3D卷积应用于规范化网格的3D表示。SECOND通过子流形和稀疏卷积提高了3D卷积在稀疏点云上的效率。CIA-SSD在 Backbone 网络之后结合空间和语义特征进行注意力融合。SA-SSD在SECOND基础主分支中并行构建辅助网络，该辅助网络对体元化进行反转变和主分支权重校准。PointPillar通过在z方向压缩3D场景来减少计算强度，同时使用 Anchor-Free 框检测Head和IoU校准模块避免人工设计。3D-SSD采用基于点型的 Backbone 网络来自[30]以降低体元化带来的区域划分效果。SE-SSD通过自注意力网络提高SSD的检测准确性。然而，由于没有针对每个边界框进行特定细化，这种方法的性能受到限制。与上述现有研究相比，本研究中提出的POP-RCNN采用SECOND-基于SSD Backbone 作为框架，第一阶段RPN的第一种尝试。

TSDs通过附加一个细化模块对SSDs进行二次边界框生成。细化模块通过第一阶段RPN生成的建议收集特征，并使用更细粒度的特征进一步提升检测效果。F-PointNet基于RGB图像的2D检测器生成的建议，收集基于建议的点子集。这些点子集由基于点Net的3D边界框细化网络处理。Point-RCNN使用基于点型的 Backbone 网络生成建议，并进行区域池化，以用于规范的3D边界框细化。Voxel-RCNN将基于体元的区域池细化集成到SECOND Backbone 中。PV-RCNN将体元中心定位和点密度感知集成到TSD框架中。Semantic point generation (SPG)通过采用SPG模块恢复丢失的前景点。SFD通过估计从RGB图像中获得的深度信息增强原始点云。然而，这些多尺度特征没有完全被利用。这些方法的细化模块将聚合特征与 ConCat 和多层感知（MLP）结合。相比之下，本研究中提出的POP-RCNN模型探索了全面多尺度特征融合的潜力，其中特征密度和丰富性向着更高质量的边界框生成方向提高。

Feature Pyramid Network in Object Detection

特征金字塔结构在2D图像处理中更为普及，通过多次下采样阶段或步长卷积。FPN [20]为金字塔特征层次添加了自上而下的路径，以在较高分辨率下丰富浅层特征。PANet [21]在一个单一的特征图上预测所有物体，该特征图通过多尺度特征图融合（与自适应特征池和RoIAlign相结合）。ASHF [34]并结合自适应空间特征融合在金字塔特征融合中执行金字塔形特征融合。FPT [35]通过使用 Transformer 考虑目标的上下文非局部性进行特征融合。引入特征金字塔结构到3D检测器并不容易。Voxel-FPN [24]采用金字塔结构在SSD中融合多尺度 Voxel 特征。Pyramid-RCNN [25]将金字塔RoI头作为TSD的优化阶段。尽管Voxel-FPN [24]在检测小物体时受限，但Pyramid-RCNN [25]由于多阶段的RoI-Grid Pooling和RoI-Grid Attention而受到推理时间的限制。在这项研究中，通过引入金字塔特征增强模块，相比于其基准模型，提高了准确性。与现有方法相比，所提出的法

3D Backbone Network

为从原始点输入中提取足够的信息，作者采用了近期方法的配置[18, 19]，其中使用3D voxel backbone网络[15]。一个3D检测器的输入是一个点集， , ，其中和是每个单独点的坐标和特征，而是点集的总数。首先，将点集转换为规范化的表示。特征值从每个voxel中的点的坐标和特征和计算得出，特征位置由该voxel的中心给出。通过应用3D稀疏和子流形卷积，作者获得了4种3D voxel特征，它们与原voxel映射大小相比，具有，，和下采样分辨率。最后一层的3D特征沿方向展开以产生2D BEV特征图。与基于图像的方法的对应物类似，一系列2D卷积层被构建以编码抽象2D特征，然后将其输入到2D检测Head进行 RoIs和分类生成。这些RoIs和分类分数被用作后续优化阶段的建议。对于基于点-voxel的网络[19]，需要的是点特征而不是voxel特征。voxel特征对应于虚拟的voxel中心，而点特征则被分配到3D空间中的实际点位置。在[19]中，作者还构建了一个额外的Voxel Set Abstraction模块，将最近的voxel特征关联到每个采样的关键点。总之，3D Backbone 网络和2D RPN的输出是：1）3D特征，，其中是voxel或点特征，具体取决于网络类型；2）2D BEV特征，，来自2D RPN；3） RoIs，，其中是由盒心的3D位置表示的候选框的列表，包括 Box 的尺寸和旋转角度；4）分类分数，，用于建议的边界框，以及5）二进制每个点 Mask ，，仅在点-voxel型网络中过滤前景和背景点。

Point Pyramid Feature Enhancement

在精炼阶段，RoI池化模块通过2D RPN提供的RoI（感兴趣区域）收集3D和BEV特征图的多尺度特征。在大多数现有方法[19, 36, 37]中，特征选择是通过为每个建议分配RoI网格点来实现的。RoI网格点均匀地分布在建议边界框内部，并作为下采样关键点，将来自相邻点或 Voxel 中心的特征聚合起来。对于给定的网格点集合，池化后的特征可以表示为：

其中是基于相邻特征的最大响应或插值的特征聚合函数。是源特征的位置列表，这些是 Voxel 网络中的 Voxel 中心或点- Voxel 网络中的采样关键点。在某些场景中，单个网格点集合可以提供充分密集的信息。然而，由于点云的非均匀分布和稀疏，这种方法在物体离远距离时限制了特征丰富度。

为了结合池化后的特征，作者使用简单的 ConCat 并行，然后使用共享权重的卷积层。

其中和分别表示卷积和 ConCat 并行操作。

尽管强大的 Backbone 和聚合模块具有精妙的设计，但编码的特征并未被充分利用。这导致了不同尺度特征之间的信息交流不足。因此，作者在PPFE内部引入了池化和融合方案。

Iii-B1 Point Pyramid Grid Pooling

为抵消点云的负向影响，本文构建了一种基于点的特征池化金字塔结构，名为 POP-Pool。受到 Pyramid-RCNN [25] 的启发，作者在每个 Proposal 框上均匀地采样多级网格点，以确保在各个空间尺度上都捕获了密集的上下文信息。第级的网格点可以定义为：

其中 , 和分别表示每个维度上的点数。在 [25] 中的每个网格点金字塔的每一层都被任务为收集相同来源的特征，这包括所有尺度的特征。而 POP-Pool 任务将不同的特征来源分离，并将工作负载分配到金字塔中的每个单独层级。一个层级仅负责收集一个源的特征，例如在一尺度上或 BEV（Bounding Box Element Vector）特征。这确保相同来源的特征不会被重叠。相比之下，在 Pyramid-RCNN [25] 中，所有的网格点都被用于从组合特征图（通过拼接多个尺度编码的特征）中收集特征，这导致了特征重叠。这表明不同空间尺度的特征实际上是通过对拼接的，无论金字塔结构如何。此外，Pyramid-RCNN 之后的池化过程并不是专为多尺度融合而设计的。为此，POP-Pool 和 POP-Fuse 的集成可以确保后续融合任务的效率，通过独立处理单个特征源。因此，POP-Pool 中的网格点组数量设计为等于特征源组数，并且点之间的距离按中间体 Voxel 大小定义，以考虑 3D Voxel 的分辨率不同。考虑到 3D Voxel 的分辨率，独立的特征池化方案可以通过在每个空间尺度 Level 匹配网格大小并减少冗余操作，从而提高效率。更具体地说，低分辨率的特点点被浓密的网格点（即更小的）聚合，这些网格点具有更大的感受野。方程（1）可以变形为表示第级网格点金字塔的点汇总特征，如下所示：

其中是和中的一个特征源，是金字塔的层数。分离的池化特征既提供了被提出边界框内外的丰富上下文，又保持了合理的计算开销。通过鼓励在稀疏数据表示的多尺度信息交换中的信息交换，本文的设计确保了特征丰富性。

Iii-B2 Point Pyramid Feature Fusion

为了将POP-Pool的多级特征进行融合，作者使用基于FPN的子网络POP-Fuse，如图2所示。VoxelFPN [24]构建了从体块骨架进行多级特征融合的上下文路径，它缺乏跨尺度和中断连接。更多的跨尺度连接可以促进不同分辨率之间的信息交换，而短路连接则可以将深度进行权衡，以减轻梯度衰减。受到了 [26] 的启发，作者采用了扩展的FPN结构将一系列特征节点进行连接，如图2所示。特别地，池化特征被认为是第一层节点特征，即。短路连接用于连接同一空间尺度层次的节点。利用Dense Connections [38, 39]或连接，来自前层的特征可以进行如下处理：

$f_{d}^{l}=\mathrm{Conv}(\mathrm{Concat}(f_{d}^{l})),\;0\leq\hat{d}

其中，的选择取决于连接模式。

跨尺度连接用于连接来自相邻尺度 Level 的前一层节点。由于相邻 Level 的分辨率不同，对特征进行重采样以匹配目标分辨率是必不可少的。双线性插值和最大池化是二维数据的两种常见方法。然而，在稀疏3D点云中，点对点最大池化会导致信息丢失，而这种问题在资源稀缺的数据集上变得更加严重。为解决此问题，作者在上/下采样时都应用了3NN插值。通过POP-Fuse增强的特征可以总结为：

其中表示深度网络的总层数。融合特征被输入到边界框回归和分类 Head 。

通过利用跨尺度连接和短路连接，多级特征的融合更加复杂，并可以扩展到深度以探索高维语义。处理数据集中特征稀疏性和大规模差异的有效组合丰富的空间信息和多维语义是必不可少的。

Distance-Aware Density Confidence Scoring

图3：距离感知密度置信评分说明。每个边界框预测了MLP的边界框。根据预测结果，每个边界框中的点数进行总结，并计算到传感器的距离。根据公式（8）和（9），这一信息与共享特征相结合。分类头使用MLP生成校准的置信得分。

为了进一步解决点集的稀疏性和非均匀分布，采用了DADCS（距离感知密度自信评分）方案。除了融合特征外，利用边界框内点集的信息。参考文献[31]采用了一个包括特征图中点数数量的战略。所提出的距离感知密度置信评分方案进一步解决了点云的密度变化，通过考虑距离和点稀疏度的关系。由于激光雷达传感器的特性，在以传感器为中心的圆柱坐标中，随着半径的增加，点密度会降低。较远的物体在特征图中的响应较低。然而，在尝试准确检测出距离范围较广的物体时，需要保持特征不变。这一概念遵循了图像上的2D特征尺度不变性。特别地，从回归头的预测输边界框中计算额外特征，如下所示：