专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

超越三维点云，RadarPillars 可在边缘设备上实现目标检测！

智驾实验室 · 公众号 · · 2024-08-20 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

汽车雷达系统已经发展起来，不仅能提供距离、方位和多普勒速度数据，还能提供高度数据。这额外的一维数据使得可以将以雷达成像学表示的四维雷达简化为三维点云。

因此，最初为激光雷达数据开发的成功深度学习方法通常应用于这些雷达点云。然而，这忽视了四维雷达数据的特殊特性，例如极端稀疏性和最佳利用速度信息。

为了弥补这些先进技术的不足，作者提出了RadarPillars，这是一个基于柱的目标检测网络。通过分解径向速度数据，引入PillarAttention进行有效特征提取，并研究层缩放以适应雷达稀疏性，RadarPillars在View-of-Delft数据集上显著超过了最先进的检测结果。

重要的是，这大大减少了参数数量，在效率方面超过了现有方法，并能够在边缘设备上实现实时性能。

I Introduction

在自主驾驶和汽车应用的背景下，雷达作为一种关键的感知技术，能够使车辆检测到其周围的物体和障碍物。这一能力对于确保各种自主驾驶功能的可靠性和效率至关重要，包括碰撞避免、自适应巡航控制和车道保持辅助。近年来，雷达技术的发展使得4D雷达的出现成为可能，它合并了三个空间维度和一个额外的多普勒速度维度。与传统雷达系统不同，4D雷达引入了高度信息作为其第三个维度。这一增强使得雷达数据可以表示为3D点云，类似于由激光雷达或深度传感器产生的点云，从而允许深度学习方法的应用，这些方法通常仅限于这些传感器。

然而，尽管从激光雷达检测领域引入了深度学习技术并应用于4D雷达数据，但这些方法尚未完全探索或适应其独特特性。与激光雷达数据相比，4D雷达数据具有显著的稀缺性。尽管如此，雷达独特地提供速度作为特征，这可能有助于在各种场景中检测到移动的物体，例如在激光雷达传统上难以实现的远距离场景中。在View-of-Delft数据集中，一个平均的4D雷达扫描包括仅216个点，而相同视场内的激光雷达扫描包含21,344个点。为此，作者提出了一种名为_RadarPillars_的特定于4D雷达数据的3D检测网络。通过RadarPillars，作者通过以下贡献解决了当前最先进方法的不足，同时保持了实时能力：

提高了速度信息利用率：作者将径向速度数据分解，提供了额外的特征来显著提高网络性能。
适应雷达稀疏性：RadarPillars利用柱状表示（也称为_PillarAttention_） [3]进行高效实时处理。作者利用4D雷达数据固有的稀疏性，同时引入了一种新型的自注意层，将每个 Pillar 视为标记，同时保持了效率和实时性能。
可伸缩性适配稀疏雷达数据：作者证明了雷达数据的稀疏性可能会导致检测网络中的信息不完整特征。通过使用统一的网络，作者不仅改进了性能，而且显著减少了参数数量，提高了运行效率。

II Related Work

近年来,随着深度学习的快速发展,人工智能领域的图像识别技术取得了重大进展。深度学习通过将人工神经网络应用于图像识别任务中,可以将图像的特征提取任务从人类视觉系统中分离出来,实现对图像的自动分类,并取得了较好的效果。此外,深度学习还可以用于图像生成、视频分析、自然语言处理等领域。

本文主要介绍了深度学习在图像识别领域的应用以及相关研究。本文分为四个部分,第一部分介绍了本文的理论框架;第二部分介绍了深度学习在图像分类和目标检测中的应用;第三部分介绍了深度学习在图像生成和风格迁移中的应用;第四部分介绍了深度学习在视频分析中的应用。

本文还介绍了深度学习的限制和挑战,以及未来的研究方向。尽管深度学习在图像识别领域取得了巨大进展,但仍存在一些挑战,如数据不平衡、模型黑箱、透明度和可解释性等问题。未来的研究方向包括更好的数据平衡、更好的模型可解释性和更好的模型泛化能力等。

4D Radar Object Detection

图1：作者在4D雷达上的RadarPillars检测结果示例。汽车用红色标出，行人在绿色中，自行车在蓝色中。点的径向速度用箭头表示。

点云可以以各种方式处理：作为无序的点集，按图进行排序，在离散 Voxel 网格中或在范围投影中。在这些表示形式中，柱子是一种独特的类型，其中每个 Voxel 都被定义为竖直的列，从而允许高度维度的减少。这使得可以将柱子特征转换为2D伪图像，其高度和宽度由用于 Pillar 的基础网格大小定义。这种维数减少有助于应用2D网络体系结构进行鸟瞰处理。基于PointPillars的网络已证明在LiDAR数据上特别有效，既能平衡性能，又能高效地降低运行时间。因此，研究行人开始将柱子表示应用于4D雷达数据。目前，除了 Pillar 之外，对4D雷达数据的其他表示方法的进一步探索还相当有限。

Palffy等人[2]通过在他们的View-of-Delft数据集上基准测试PointPillars，只调整 Pillar 网格的参数以匹配雷达传感器规格。认识到4D雷达数据固有的稀疏性，后续工作旨在通过并行分支或多尺度融合技术最大限度地利用信息。SMURF[4]引入了 Pillar 表示的并行可学习分支，并集成了核密度估计。MVFAN[5]使用了两个并行分支--一个用于圆柱投影，另一个用于 Pillar 表示，在通过编码器-解码器网络合并特征之前将它们传递。SRFF[6]没有并行分支，而是采用基于注意力的高度并行卷积的 Head 将编码器阶段的特征融合。认为多尺度融合可以提高从稀疏雷达数据中提取信息。

进一步的方法如RC-Fusion[7]、LXL[8]和GRC-Net[9]选择将摄像机和4D雷达数据相结合，采用双模态方法进行目标检测。CM-FA[10]在训练时使用LiDAR数据，但在推理时并不使用。

需要注意的是，这些方法引入的修改会带来计算负载和内存需求的增加，这会损害 Pillar 表示的实时优势。此外，这些方法并没有完全探索雷达本身的特征的最佳利用。这还存在着未被开发的潜力。

Transformers in Point Cloud Perception

自注意力机制[11]可以根据每个输入元素之间的关系动态地为其调整权重，捕获长程依赖性，并实现全局感受野以进行特征提取。将自注意引入 transformer 层在自然语言处理，计算机视觉和语音识别等任务中受益，跨领域实现了最先进的表现。然而，将自注意应用于点云数据提出了独特的挑战。计算成本为二次方，限制了标记（上下文窗口）的数量，并阻碍了与卷积方法相比的长程处理。此外，点云数据固有的稀疏性和多种点分布复杂化了逻辑和几何顺序，从而阻碍了基于变流传感式架构在点云处理中的应用。

已提出各种策略以解决这些挑战。点传输器[12]利用 K 近邻（KNN）将点在应用向量注意力之前进行分组。然而，邻居大小有限，KNN 组分也是关于内存需求和复杂性的二次方。在分组之上，一些方法通过池化[13]或最远点采样[14]进行点云降采样，导致了信息损失。

其他方法将点云分成具有相同几何形状的组，并采用基于窗的注意力[15,16,17]或八叉树表示[18]。几何分区的缺点是具有相同形状的组将具有不同的点数。这对并行化产生了负面影响，即这些方法不具有实时处理能力。尽管如此，基于分组的注意力受到局部上下文的限制，可以通过改变邻居大小，降采样或窗口移动等方法促进这些组之间的信息传递。添加常数移动和重新排序数据导致了进一步的内存不效率和延迟增加。

针对这些挑战，Flatformer[19]通过形成具有相同尺寸而非相同几何形状的组来实现计算效率，牺牲了空间接近性以实现更好的并行化和内存效率。同样，SphereFormer[20]通过在球坐标系中基于指数距离对点云进行 Voxel 化，以实现更高的密度 Voxel 网格。点传输器 v3[21]首先通过稀疏卷积和池化对 Voxel 进行嵌入，然后通过空间填充曲线对结果标记进行排序和组分。这样，沿曲线仅需最后一组进行填充，从而通过基于模式的排序优于空间排序或几何分区来实现效率。

这些方法通常需要使用专门的注意力库，这些库无法利用标准框架中可用的有效注意力实现。

III Method

当前，四维雷达目标检测的最先进状态主要依赖于激光雷达（LiDAR）方法。因此，对速度信息进行全面利用以提高检测性能的研发工作明显不足。尽管相关工作取得了逐步改进，但这些改进往往牺牲了效率和实时可用性。为了解决这些问题，作者深入研究了在提高输入数据质量的基础上，优化雷达特征以提高网络性能。

尽管在点云感知中已经探索了多种自注意力的变体，但其受限制的接收 field 与其点云的稀疏性和不规则性相结合，导致了计算密集的层。利用四维雷达数据中固有的稀疏性，作者引入了PillarAttention，这是一种新型的自注意层，通过将每个柱子都视为标记，提供全局接收 field。与现有层不同，PillarAttention不会通过标记化或需要复杂的排序算法来减少特征。此外，作者还研究了网络扩展技术，以进一步提高雷达数据稀疏性方面的运行时效率和性能。

4D Radar Features

4D雷达点云中的单个点具有多种参数，包括距离（r），方位角（α），海拔（θ），雷达散射截面反射率（RCS反射率），相对径向速度（v_{rel}）。径向速度的确定依赖于多普勒效应，它反映了物体与传感器位置之间的关系。当处理非静止的雷达传感器（例如，安装在汽车上的传感器）时，用自身体动来补偿 v_{rel}，得到绝对径向速度 v_{r}。球坐标（r，α，θ）可以转换为笛卡尔坐标（x，y，z）。尽管雷达和激光雷达之间的坐标系统具有共性，但雷达中包含的 velocities 仍具有独特性和未充分利用的潜力。当前的做法常常仅将速度信息作为网络中的额外特征。因此，作者的研究调查了相对和绝对径向速度的影响。通过这种分析，作者提倡创建从径向速度衍生出的补充特征，从而丰富原始数据点。

首先，作者将 v_{r} 分解为 x 和 y 部分的向量，分别得到 v_{r,x} 和 v_{r,y}。这种方法也适用于 v_{rel}。这种概念在图2中得到视觉化。每个点的速度向量可以通过以下方程进行分解。请注意，公式（1）和公式（2）适用于笛卡尔坐标系统中的 v_{r} 和 v_{rel}，其中。

其次，作者通过计算柱内的速度偏移来构造新的特征。首先，作者计算柱内速度的平均值，然后从每个点的速度中减去平均值，从而形成一个额外的偏移特征。这些新特征可以对径向速度和其分解的 x，y 变种进行计算。在随后的实验中，作者将使用这些新的偏移特征来标记，例如使用偏移速度时的，作者可以用下标 m 表示，例如

这些额外的点特征的构建旨在使模型更容易学习数据中的依赖关系，以提高性能，而不会影响模型的运行时间，超出其输入层。

PillarAttention

4D雷达数据的 Pillar 表示为二维伪图像非常稀疏，仅有少量有效 Pillar 。由于这种稀疏性，属于同一物体的 Pillar 之间距离较远。当处理局部视觉的卷积 Backbone 网络时，这意味着早期层无法捕获邻域依赖性。这是通过后续层和有效感受野的增加，或通过网络阶段的下采样[22, 23]实现的。因此，同一物体的信息聚合发生在网络 Backbone 的后期。然而，下采样可能导致小物体关键信息损失。点云 Transformer 的标记和分组方法也可能产生类似负面影响。

受到自注意[11]的启发，作者提出了PillarAttention，以在全局范围内连接整个 Pillar 网格中单个 Pillar 的局部特征。作者通过充分利用4D雷达数据的固有稀疏性来实现这一点，将每个 Pillar 视为标记，使作者的方法免去了分组或下采样方法。PillarAttention在处理稀疏性方面偏离了传统自注意的方式。对于尺度为和的 Pillar 网格，作者使用稀疏 Mask 来仅收集占用 Pillar 特征。然后，作者在学习关键( )、 Query ( )和值( )之后应用标准的自注意。在传统自注意中，稀疏值通常在计算时进行 Mask 。然而，作者的方法将自注意的时空复杂性和内存需求从简化为。然而，必须承认的是，稀疏性，从而有效 Pillar 的数量，在不同的扫描中是不同的。因此，在训练和推理期间，标记的序列长度会波动。与传统自注意相比，作者没有发现位置嵌入的必要性。这可以归因于柱子特性本身就包含由点云推导出的位置信息。

此外，由于 Pillar 在2D网格中组织，标记的顺序在不同的扫描之间保持一致，使得模型可以学习单个 Pillar 之间的上下文关系。因此，对于排序算法，如八叉树和填充曲线等专门算法是不必要的。此外，PillarAttention并不依赖于专门的库，并从空间领域 recent developments 受益，如Flash-Attention-2 [24]。

作者接下来将PillarAttention放入一个 Transformer 层。由两个MLP控制的该层控制着其隐藏维度。在PillarAttention之后，转换后的特征被散射回它们原来的 Pillar 位置。PillarAttention的概念如图3所示。

Architecture and Scaling

作者的架构（见图3） loosely 受到Point Pillars[3]的启发。类似于Point Pillars，作者将来自 Pillar 中心的偏移坐标作为额外的特征添加到点云中。接下来，作者使用PointNet[25]层将点云转换为 Pillar 特征，类似于2D伪图像。这些 Pillar 特性通过作者的新颖PillarAttention机制进行处理，然后由三个阶段的编码器进行处理。每个编码器阶段包含3 3 2D卷积层，带有ReLU激活函数和批处理归一化。第一阶段采用三层，而后续阶段采用五层。另外，阶段二和三的卷积层以步长为二的下采样特性。每个编码器阶段的输出特性通过转置2D卷积上采样，然后进行拼接。最后，作者使用一个SSD[26]检测Head从这些拼接特征中得到预测。

4D雷达数据中固有稀疏性严重影响神经网络学习。以前的研究[22, 23] 在LiDAR感知的背景下表明，稀疏性在层之间传播，影响单个层的表达能力。这导致网络在从数据中提取有意义特征的能力受到限制，因为在输入不足的情况下，某些神经元无法激活。因此，网络可能很难对未见数据进行良好泛化，或在诸如目标检测或分类等任务中表现不佳。因此，适应数据稀疏性对于确保基于神经网络的4D雷达感知任务的可靠性和效率至关重要。

在Delft视图数据集中，激光雷达点相对于雷达点约为98.81。尽管存在这样的显著差异，当前最先进的4D雷达检测方法仍然使用用于密集激光雷达点云的原始架构。考虑到4D雷达获取的点数量有限，作者认为网络需要更少的容量，因为可以学习到有限的有意义特征。

作者提出一种解决方案，当从LiDAR过渡到4D雷达数据时，需要对神经网络编码器阶段进行统一的缩放。在RadarPillars的情况下，作者在架构的所有编码器阶段的通道数上使用相同的通道数。相比之下，基于PointPillars的网络将每个阶段的通道数加倍。作者的方法希望通过通化进行性能提升和运行时效率。

IV Evaluation

作者在 View-of-Delft（VoD）数据集[2]上的4D雷达数据上的目标检测上评估作者的网络RadarPillars。由于没有公开的基准或测试划分评估，作者遵循确立的做法，在验证划分上进行所有实验。遵循VoD后，作者使用整个传感器区域和驾驶走廊的平均精确率（mAP）作为指标。在训练过程中，作者对数据集进行了增强，通过随机翻转和缩放点云。数据根据平均值和标准差进行归一化。

作者采用一种OneCycle节奏[27]：以0.0003为起始学习率，以0.003为最大学习率。对于损失函数，作者使用Focal Loss[28]进行分类，使用平滑 -Loss进行边界框回归，使用交叉熵损失进行旋转。作者的RadarPillars使用所有加密器的C=32进行所有加密器阶段，PillarAttention的隐藏维度E=32，以及额外特征和。

这使RadarPillars在仅有0.27M参数和1.99GFLOPS的计算下。作者的 Pillar 网格大小设置为1-、3-和5帧数据为320x320。检测Head的组合特征大小设置为160x160。作者在OpenPCDet框架[29]中实现作者的网络，在Nvidia RTX 4070 Ti GPU上训练所有模型，批次大小为8，并且使用float32数据类型。

作者在第IV-B, IV-C和IV-D部分的消融研究是为1帧检测。在每个消融研究中，作者只研究单一方法的影响。在第四章-A部分，作者涵盖了将作者的方法组合形成最终模型。

RadarPillars

作者对RadarPillars进行了全面的对齐，以与最先进的网络进行比较，结果在表格I中详细列出。由于4D雷达检测的初始阶段，作者通过训练四维雷达数据的对称式重建网络：PV-RCNN [32]，PV-RCNN++ [33]，PillarNet [35]，Voxel-RCNN [31]，和SECOND [34]。对于这些网络，作者采用与PointPillars [3]的适应性训练相关的设置：Palffy等人[2]。遵循其他研究，作者在Nvidia Tesla V100，Nvidia RTX 3090 和Nvidia AGX Xavier 32GB上评估帧率性能。

作者的比较突出了作者的RadarPillars与当前最先进相比的显著优势。这些发现充分确立RadarPillars为具有显著降低计算需求的轻量级模型，超越了所有其他仅用于4D雷达的模型。尽管RadarPillars在精度上与SMURF [4]相当（驾驶走廊上的优势为+0.8，雷达区域的整体优势为-0.3），但其在帧率方面的优势则震撼人心，比SMURF快2.73倍。考虑到这个差异，SMURF可能难以在像Nvidia AGX Xavier这样的嵌入式设备上实现实时功能，而RadarPillars在此方面表现出色。在3帧和5帧设置下，RadarPillars在精度和其他方法相比均表现出色，在帧率方面更是出类拔萃。然而，累积雷达帧需要轨迹信息。在Delft视图数据集上预处理累积的数据。在实际应用中，处理多个时间步的帧并在将其传递给网络之前等待和处理帧可能会导致检测预测的延迟。这种延迟，如反应行人过马路等情况，可能会带来不利。因此，1帧设置可以被认为是更有意义的。尽管与复杂的网络结构相比，RadarPillars的简单性更具挑战，但RadarPillars却为性能设定了一个新的标准，甚至超过了已有的LiDAR检测网络的帧率和精度。与PointPillars相比，作者的网络在mAP ( )和帧率上都有显著的提升，参数（从减少到