专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
大道无形我有型  ·  原来逆向思维就是“stop doing ... ·  10 小时前  
大道无形我有型  ·  确实太集中了!你不妨分一半去买那些你搞不懂的 ... ·  3 天前  
51好读  ›  专栏  ›  智驾实验室

突破4D雷达点云稀疏难题!新知识蒸馏框架登场,K-Radar数据集性能超 RTNH 25% 且实时推理 !

智驾实验室  · 公众号  ·  · 2025-03-14 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

精确的3D目标检测对于安全的自主导航至关重要,需要在不同天气条件下保持可靠的表现。尽管在恶劣天气下LiDAR的性能会下降,但雷达系统仍能维持其可靠性。

传统雷达由于缺乏高度数据而存在局限性,但最新的4D雷达通过测量距离、方位角、多普勒速度和高度,克服了这一缺陷,对自动驾驶车辆变得极为重要。利用4D雷达的主要挑战在于其点云的稀疏性。

先前的研究通过开发能够更好地捕捉稀疏点云中的语义和上下文的架构来解决这一问题,这些架构在很大程度上借鉴了基于LiDAR的方法。然而,这些方法往往忽视了4D雷达的独特优势:密集的雷达张量,该张量包含了三个空间维度和多普勒维度的功率测量。作者的论文利用这个张量来处理稀疏性问题。

作者引入了一种新的知识蒸馏框架,使学生模型能够通过模拟一组教师模型,在潜在空间中对其稀疏输入进行稠化。作者的实验表明,在K-Radar数据集上,作者的模型比最先进的RTNH模型提高了25%的性能。

值得注意的是,这一改进是在保持实时推理速度的同时实现的。

引言

目标检测对于实现精确的自主导航至关重要,它确保了周边道路使用者的精准定位,并且在各种天气条件下保持稳健的性能对于整体安全至关重要[1]、[2]、[3]。虽然激光雷达(LiDAR)由于其能够精确测量三维距离的能力,一直是这一应用的传感主要模式,但由于其依赖于对人类眼睛无害的光线,它们在雪、雨和雾等恶劣条件下难以正常工作[4]。相比之下,雷达不受这些条件的影响,因为它利用电磁波。然而,传统雷达有一个显著的局限性:其测量范围仅限于近距离,无法实现长距离的目标检测。

单平面雷达使其无法检测三维空间中的物体[5]。雷达技术的最新进展促使4D雷达的发展,这种雷达在传统的距离、方位角和多普勒速度数据中增加了高度测量。这一增加使得雷达测量能够覆盖完整的3D空间,使4D雷达成为稳健三维目标检测的有力解决方案[5]、[6]、[7]。

4D雷达的主要局限性在于其点云的稀疏性。之前的基于雷达的目标检测方法通过设计能够更好地捕捉稀疏点云中语义和上下文信息的架构来解决这一问题。RPFA-Net[8]在PointPillar[9]的Pillar Feature Net基础上进行扩展,引入了自注意力模块[10],以提升每个柱内雷达点之间关系的建模。类似地,SMURF[11]通过补充基于柱的特征和通过核密度估计提取的基于密度的特征来扩展PointPillar,减轻了点云稀疏性的影响。RTNH[7]利用4D雷达张量数据证明雷达点云的密度显著影响模型性能[12],并采用基于稀疏3D卷积的架构将高度相关信息集成到雷达特征中。

MVFAN[13]引入了一种多分支架构,可以从雷达点云的鸟瞰图(BEV)和圆柱视图表示中提取特征。进一步采用多视图方法,SMIFormer[14]从BEV、前视图(FV)和侧视图(SV)表示中提取特征,并使用多视图交互 Transformer 进行融合。通过利用雷达点的多普勒速度来补偿动态物体的运动,RadarMFNet[15]聚合多个点云以获得更密集的输入。

这些方法深受基于激光雷达的目标检测技术的影响,忽略了4D雷达的独特特性。与直接产生点云的激光雷达不同,4D雷达生成一个包含三个空间维度(距离、方位角和仰角)和多普勒维度的密集4D张量,其中包含功率测量值。

本文中将此张量称为4DRT。为了创建雷达点云,密集的4DRT经过预处理步骤,仅保留高功率测量值。

直接解决稀疏性挑战的简单方法是对“高功率测量”的定义进行放宽,从而生成更密集的点云。如图1所示,这种增加的密度直接提升了检测性能。然而,这种方法以更高的内存消耗为代价,更重要的是,推理时间更长。这种性能与效率之间的权衡使得这一简单方法变得不切实际,尤其是对于对实时性要求严格且资源受限的应用,如自动驾驶。

图1:平均点数与模型性能之间的关系:实线和虚线分别表示RTNH模型的BEV和3D精度,颜色渐变表示GPU RAM的使用情况。

在这篇论文中,作者利用4DRT技术来解决雷达点云的稀疏性问题,同时不牺牲性能的效率。作者的主要贡献包括:

  1. 首个采用4D雷达的多教师知识蒸馏框架,该框架允许学生模型在潜在空间中对其稀疏输入进行密集化处理,从而实现直接在高度稀疏点云上运行的雷达检测模型,确保低内存消耗和高推理速度,同时不降低检测性能,
  2. 消除了雷达与其他模态之间进行知识蒸馏的外部校准需求, 在大型K-Radar数据集[7]上进行了全面实验,结果显示,在处理稀疏点云时,检测性能比最先进的RTNH模型提高了25%,同时在NVIDIA RTX 3090 GPU上保持了30帧每秒(FPS)的实时推理速度。

第二章:相关工作

雷达处理

为了提供作者工作的背景,作者简要概述了图2中所示的雷达处理流程,该流程将电磁波响应转换为雷达点云。该过程首先将接收到的信号从模拟转换为数字,然后进行两次快速傅里叶变换(FFT),生成包含距离、方位、仰角和多普勒测量的四维张量(4DRT),如第I节所述。最后,预处理(算法1)对多普勒维度进行平均,并保留高百分位数的测量数据子集,如图3所示,在降低噪声的同时保持数据稀疏性。

图2:雷达处理流程:微波信号被数字化,然后通过两次快速傅里叶变换(FFT)转换为密集的4D张量。随后,一个预处理步骤将其转换为稀疏点云。

算法I:将4DRI转换为点云

4D雷达目标跟踪模型属于 空间(方位角、距离、仰角、多普勒频移),输出百分位数 。雷达点云 ,不等于功率映射 。1. 功率计算:平均(4DRT,维度=多普勒)2. 功率阈值: 百分位数的功率 。阈值处理和坐标转换*/ 4. 对于功率的每个离散坐标[方位角、距离、仰角]进行遍历5. [方位角,距离,仰角]6. 离散到连续坐标转换([方位角,距离,仰角])7. 如果 ,则8. 9. 10. 11. 将 添加到P 12. end 13. end图3:比较使用各种百分位数 预处理的4D雷达点云:(a)4DRT原始输出,(b)95百分位数,(c)90百分位数,和(d)80百分位数。

图4:4DMT:一种基于雷达的高效目标检测的多教师知识蒸馏方法。使用高密度点云来训练教师模型,使它们能够达到高检测性能,而稀疏点云则输入到学生模型中。在训练过程中,学生模型优化检测损失和蒸馏损失的加权总和,学习在稀疏雷达点云中检测目标,同时模仿教师模型的融合中间特征图。

B. 方法:使用原始雷达数据

随着作者对未经预处理的密集4D雷达张量进行利用,作者的方法属于使用原始雷达数据的方法类别。由于雷达数据在生成稀疏点云之前经历了多阶段处理,这类方法以ADC信号、距离-多普勒图(RDM)或4DRT作为输入。早期工作FFT-RadNet[16]直接在RDM中检测物体。由于这个张量缺少对3D目标检测至关重要的显式方位角,FFTRadNet通过强制其特征图的一个轴代表方位值,在潜在空间中隐式估计方位角。ADCNet[17]和T-FFTRadNet[18]进一步使用ADC信号。

基于可学习的离散傅里叶变换形式,它们设计了一个可学习的信号处理模块,将输入的ADC信号转换为距离-方位-多普勒图的潜在表示。DPFT[19]以4DRT作为输入,并将这个张量投影到距离-方位平面和方位-仰角平面进行特征提取。得到的两个特征图通过可变形注意力机制[20]与相机融合。

虽然上述方法在训练和推理阶段都使用了原始雷达数据,但作者的方法仅需原始数据用于训练。具体来说,作者通过改变预处理步骤的百分位数 来获取高密度点云用于训练教师模型。在推理过程中,学生模型直接使用预处理的稀疏点云。这确保了学生模型的内存消耗低,推理速度快。

C.1 知识蒸馏方法

知识蒸馏框架[21]的构想是利用一个称为“教师”的模型的特征图来指导另一个称为“学生”的模型的特征计算。这通过在学生的任务特定损失函数中补充额外项来实现,这些额外项衡量了其特征图与教师特征图之间的相似性。先前针对基于雷达的目标检测的知识蒸馏研究,将基于激光雷达或摄像头模型的密集表示进行蒸馏。

RadarDistill[22]在BEV中对雷达和激光雷达的表示进行对齐。然后,强制雷达模型在关键区域模拟激光雷达模型的表示。CRKD[23]采取了类似的关键区域方法,从基于摄像头的模型中转移知识。CRKD的发展是通过在摄像头和雷达表示的亲和矩阵上应用L1损失,在全局层面上强制实施相似性。

与跨模态蒸馏方法不同,作者的方法不需要雷达与其他模态之间的外部校准,考虑到雷达校准的复杂性,这提高了其实用性。此外,感知能力的差异,例如雷达测量径向速度的能力与RGB相机的光强度感知能力之间的差异,为学生创造了不可观测的特征,从而增加了蒸馏的复杂性。

三、提出的方法

作者命名的蒸馏框架为4DMulti Teachers(4DMT)。本节首先概述了作者方法的不同模块以及数据如何在这些模块间 Stream 。随后,将详细介绍每个模块的细节。

A. 4DMT概述

4DMT,即四维运动跟踪技术,是一种先进的计算机视觉与运动捕捉技术。它通过捕捉和分析物体在三维空间中的运动轨迹,实现对物体运动状态的实时追踪。4DMT在多个领域具有广泛应用,包括虚拟现实、增强现实、游戏开发、动画制作以及机器人控制等。以下是4DMT技术的一些关键特点和应用场景的简要介绍。

作者的知识蒸馏方案,称为4DMT,如图4所示,包括N个教师模型和一个学生模型。这些模型以雷达点云作为输入。值得注意的是,每个模型(包括教师和学生)都使用不同密度 Level 的点云。教师模型和学生模型使用相同的(但未共享) Backbone 网络来计算其在BEV中输入雷达点云的特征图。

其 Backbone 网络具有多阶段架构,逐步提高每个阶段特征图的语义 Level ,同时降低其空间分辨率。这是通过一系列类似RTNH的稀疏3D卷积[26]实现的。基于 Anchor 点的检测Head[27]使用最后阶段的特征图检测目标。

为了为每个教师选择输入点云,作者选取了预处理模块从4DRT中提取的不同百分比的能量。教师模型通过RTNH的目标检测损失进行训练。在学生模型的训练过程中,教师模型不进行权重更新。在第二部分I-B中详细描述的聚合模块将每个教师模型的 Backbone 输出合并成一个特征图,该特征图充当学生模型的目标特征图。

与教师模型类似,作者使用不同的百分位数来为学生模型生成输入点云。由于学生模型旨在部署在资源受限的硬件上,并且必须满足严格的实时性要求,作者选择了一个较高的百分位数,从而得到非常稀疏的点云。除了 Backbone 网络和检测Head之外,学生模型还有一个在第三节C详细描述的稠密化模块,该模块将 Backbone 网络的输出上采样,以减轻输入稀疏性的影响。学生模型的损失函数是蒸馏损失(见第二节D)和用于训练教师模型的相同检测损失的加权总和。在推理过程中,教师模型和聚合模块被移除。

B. 聚合模块

利用多个教师,每个教师作用于不同层次的点云密度,从而产生了多样化的特征用于蒸馏。另一方面,学生的点云稀疏性使得某些需要蒸馏的特征无法计算,因为学生无法观察到环境中的某些区域。因此,根据学生的输入选择合适的教师特征进行蒸馏是必要的。作者通过聚合模块实现了这一点。

对于第i个教师,其特征图在每个阶段都被上采样以获得相同的空间维度,然后沿着通道维度进行拼接,使得 聚合模块能够从所有







请到「今天看啥」查看全文