准确的3D目标检测对自动驾驶至关重要。虽然激光传感器非常适合这项任务,但它们价格昂贵,并且在恶劣的天气条件下有局限性。3+1D成像雷达传感器提供了一种成本合理、健壮的替代方案,但由于其分辨率低和高测量噪声,仍面临一定的挑战。
现有的3+1D成像雷达数据集包括雷达和激光雷达数据,从而实现了跨模态模型改进。虽然激光雷达在推理过程中不应使用,但它可以帮助仅针对雷达目标的检测器进行训练。作者探索了两种从激光雷达域向雷达域和仅针对雷达目标的检测器域转移知识的方法:
-
-
在多阶段过程中,作者研究了三种稀疏方法。作者的结果显示,通过多阶段训练平均精度获得了4.2个百分点的显著提升,通过对教师权重进行初始化的知识蒸馏,甚至获得了3.9个百分点的提升。
这些方法的主要优势在于它们可以应用于不需要改变其架构的其他3D目标检测网络,作者通过在两种不同的目标检测器上进行分析来证明这一点。
作者可以通过在这里查看https://github.com/rst-tu-dortmund/lerojd找到作者的代码。
1 Introduction
环境感知是自动驾驶堆栈中的第一部分,通常使用如摄像头、激光雷达和雷达等多种传感器进行此任务。由于其对抗恶劣照明、困难和恶劣天气条件(如雨或雪)的鲁棒性以及成本效益,雷达传感器具有独特的吸引力。其唯一的一个独特优势是,由于多普勒效应,直接测量反射的相对径向速度。
尽管不带高程角的传统雷达传感器可以精确定位物体的位置,但它们的定位受到水平平面的限制。另外,由于反射的稀疏性,预测物体的范围也是具有挑战性的。3+1D高分辨率成像雷达传感器的引入,在很大程度上缓解了这些限制。除此之外,通过提高测量的密度,除了可以测量反射的高程角,还增加了测量量。因此,仅利用雷达传感器进行环境感知的方法尤为重要。
尽管雷达基础的目标检测技术得到了改进,但其性能仍然落后于如激光雷达等其他传感器模式。2+1D传统雷达和3+1D成像雷达传感器的一个持久性的主要限制是点云的相对稀疏性,这限制了检测性能。
另一方面,激光雷达传感器非常适合目标检测,因此它们经常作为评价不同传感器模态性能的参考,这是因为激光雷达能够产生准确且密集的场景理解。在检测附近不存在遮挡的交通参与者时,其有效性尤为突出。
目前包含3+1D成像雷达数据的全部数据集中,还包含激光雷达传感器数据。这些数据集目前要么用于标记,要么用于将多个传感器模式结合以实现精确目标检测,要么将雷达仅技术的表现与其他传感器模式进行比较。尽管由于成本和车辆设计限制,大多数量产车辆可能不包括激光雷达传感器,但它们仍然可以在基于学习的方法的训练过程中使用。通过在训练过程中使用雷达仅方法与激光雷达传感器数据,已证明是一种可行的方法,用于估算成像雷达点云上的点流传输流密度的估算。这些观察结果导致了以下研究问题:_激光雷达传感器数据是否可以在成像雷达基于3D目标检测的训练过程中用于提高在仅基于雷达数据进行推理时的目标检测性能?_为了在训练中使用不同的传感器模式进行,迁移学习和知识蒸馏(KD)原则可以被利用。尽管KD通常在诸如摄像头图像和激光雷达点云等其他传感器模式之间被广泛使用,但在3+1D成像雷达与激光雷达传感器之间的应用仍然尚未探索。由于激光雷达和成像雷达具有结构相似的数据表示,可以利用一个相同的网络基础,具有不同的输入模式,以在不同的输入模式之间传递知识。作者研究了两种从激光雷达基础目标检测器到雷达基础目标检测器传递知识的方法:基于KD的方法和多阶段训练方法。这两种方法的主要原理可以在图1中看到。
这项工作的贡献总结如下:
-
作者研究了将激光雷达和雷达传感器结合在目标检测器训练阶段以改善仅基于雷达的目标检测在推理时的性能。
-
作者研究了三种激光雷达点云的简化策略,以将激光雷达到稀疏激光雷达和仅基于雷达的目标检测器的知识传递。
-
作者提出了一种多阶段训练程序,以将激光雷达到稀疏激光雷达和最后将激光雷达到仅基于雷达目标检测器的知识传递。
-
作者修改并分析了几种知识蒸馏基于的方法,以将激光雷达知识传递到仅基于雷达的目标检测器。
2 Related Work
图像雷达传感器通常将点云用作数据表示格式,而不是雷达张量,因为其计算效率更高。这种格式类似于用于激光雷达的格式,使得可以应用激光雷达上开发的目标检测方法到雷达上。在激光雷达上的目标检测可以分为两个主要类别。基于点的
3 Method
本文调查了两种从激光雷达基础转移到雷达基础目标检测器中的知识迁移方法:知识蒸馏(KD)(第3.1节),该方法已针对迁移学习任务进行了修改,以及作者提出的多阶段训练程序(顺序点云稀疏化)(第3.2节)。此外,还描述了用于激光雷达点云的稀疏化策略(第3.3节)。
Knowledge Distillation
常见的KD有两项任务。首先,通过将更大的教师网络的知识转移到较小的学生网络来设计计算高效的模型 [18, 49, 51]。其次,通过为教师和学生使用不同的模型架构来跨传感器模态转移知识 。激光和雷达基础的点云目标检测可以利用相同的模型结构但具有不同的输入模式。这使得可以首先用于设计计算高效的模型来进行从激光到雷达目标的跨模态知识转移。在这种情况下,教师网络在完整的激光点云上进行训练,而学生网络在雷达点云上进行训练。使用了三个不同的损失项,如 [7]所述:
Logit-KD
是最初、经典的用于描述知识的消融类型 [18]。对于3D目标检测,logit-KD损失
分为分类
和回归损失
。这些损失通过比较学生和教师的预测,使用3D检测器的回归损失和学生在教师输出类别之间的双线性插值进行计算。
Feature-KD
在2D目标检测中非常广泛使用 [28, 51]。它利用一个损失项,要求学生网络模仿教师的中间特征图(feat)。在本工作中,与 [7]中的鸟瞰图特征编码的最后层相似,使用了一种特征模仿方法。
Label-KD
是一种最近的消融方法,它简化并广义了Logit KD。它最初由 [33] 描述。教师预测通过它们的得分使用阈值进行过滤,并由过滤后的预测和 GT 集相结合,构建一个适应的 GT 集。这个适应集在学生训练中使用。损失分为分类
和回归损失
。它用
代替通常在 GT 集上计算的损失。
三个KD损失项结合为一个带有
的联合损失
Multi-Stage Lidar Thin-Out Training Procedure
在论文中,使用不同的输入数据模式,要么预训练网络在一个大型数据集上,要么在基于点云的网络训练过程中使用模拟数据,已被证明可以提高目标检测性能[54]。本文提出的多阶段训练方法(MSTM)通过利用基于课程学习的训练过程,使得网络可以迭代地稀疏化激光点云,类似于[52],并在雷达点云上进行微调。图2可视化了作者的多阶段训练过程。首先,网络在全激光点云上进行训练,直到收敛。然后,接下来的步骤中,激光点云以因子2的等比方法进行稀疏化,并利用它来训练一个初始为以前训练模型重置的网络。这强制网络学习在越来越稀疏的点云上的良好目标检测特征。在最后一步,激光点云与雷达点混合,网络可以从中将激光转换为雷达域。最后一步,只训练雷达点。在这里,不使用多个阶段的训练被称为单阶段训练方法(SSTM)。
除了仅在第一阶段的训练中使用激光点云的训练,作者还研究了在所有阶段的训练中同时利用激光点云和雷达点云。稀疏化层的激光点仍然相同,并在每个步骤中与雷达点云混合。这样,模型在第一阶段就对雷达域进行了条件化,以优先考虑与仅雷达数据中良好目标检测相关联的激光点云中的特征。
为了混合激光点和雷达点云,将 Voxel 或柱特征编码器进行了修改,以在随机取样过程中优先考虑雷达点云,如[34]所做的那样。否则,稀疏化后的大量激光点(即使只有稀疏化后的数量)可能会完全排除雷达点。
激光点云稀疏化策略
作者调查了三种不同的激光点云子采样方法。图2展示了每种稀疏化阶段的示例。
随机取样
是最简单的点云稀疏化方法,它忽略了点云表示的结构和固有限制,尤其是远离物体的点云或具有高度遮挡的物体。忽略结构可能导致表示这些物体的少数点丢失信息。
邻近性采样
通过仅保留靠近雷达反射的激光反射来近似雷达点云的反射密度分布。这种算法在算法1中进行了描述。因此,未检测到的物体也会完全排除在邻近性稀疏化激光点云中。
Voxel (Voxel)基取样
旨在在保持点云各个区域的总体分布的情况下,减少每个区域的点数量。这一方法受到雷达传感器在距离上对分辨率损失较小的事实的启发。该方法在算法2中进行了描述,并执行一系列稀疏化步骤。
算法1
邻近性采样
算法2
Voxel (Voxel)基取样
另一种常用于模拟低分辨率激光传感器的方法是基于层取样[52, 61]。虽然雷达传感器不会以层的方式捕获环境,但并未在此研究中调查此类取样方法。
4 Experimental Evaluation
Experimental Setup
数据集:
在所有的实验中,作者使用了《荷兰鹿特丹视角》(VoD)数据集[5]。它包含了多种传感器模态的同步数据。在本研究中,作者使用了64层激光传感器和成像雷达。对5帧图像积累得到的点云[5, 38]用于雷达数据。在激光点云中,作者检测到相同的点重复出现,这可能对所有的采样方法产生不利影响,因此作者从点云中删除了重复的点。尽管VoD数据集是目前用于基于成像雷达目标检测的最佳数据集之一,但与其他没有成像雷达的汽车数据集[31, 45]相比,其大小有限。由于测试数据集的公开标签不存在,并且在线评估有限,作者将验证数据集用作测试集。因此,作者将原始训练集分割为一个新的训练集(80 %)和专用的验证集(20 %),以确保强大模型训练。
评估指标:
用来比较结果的主要性能指标是平均平均精确率(mAP),如[15][37]中使用的一样。类似于Waymo数据集[46]的评价[62],作者将结果分为两个距离区间:短程(SR):0-30 m和中程(MR):30-50 m。
训练:
大部分实验使用了PointPillars模型[23]作为具有与[5]中使用相同配置的目标检测器。对于成像雷达数据,PointPillars在多个最先进的3D目标检测方法中脱颖而出,同时在激光数据上性能良好[37]。此外,PointPillars对于雷达特定目标检测方法[57, 58]是一个相关的基准。为了证明所提出的MSTM和KD适用于各种目标检测器,作者在DSVT-P[17]上评估了从PointPillars评估中最有前景的方法,作为使用变电器的示例。所有的SSTM训练都采用了早停止策略,最大值为125个周期。对于MSTM,在完整的激光点云上进行了125个周期的初始训练,而每次微调步骤分别进行了30个周期。所有的训练都使用了Adam优化器[21]和一种适应性学习率调度器[43],该调度器能够更早地达到其最大学习率,并且比[43]描述的调度器下降更快。这改善了雷达数据上的目标检测性能。
记法:
为了区分不同的方法,以下记法被使用:
。
这个记法被分为两部分。箭头左边部分表示用于预训练的数据集,而箭头右边部分表示用于模型最后(微调)训练阶段的数据集和训练方法。
如果它与训练集相同,这个部分将被省略。训练数据
可以是激光(L)、雷达(R)或混合激光+雷达数据(RL)。训练方法
可以表示MSTM或SSTM。激光共享
表示原始激光点云中被使用的部分。雷达只训练使用完整的雷达点云,因此
被省略。对于MSTM,这是表示训练过程中迭代的一系列分数,如[27]。稀疏化方法
可以是随机(rand),k-近邻(knn)或以 Voxel 为基础(vox)。
表示KD方法,它可以是标签(lab),对数(log),特征(feat),或这些的组合(joint)。如果只使用初始化和微调,则
将被省略。表1中列出了对应的训练示例。
Evalutation of MSTM on Lidar-only and Mixed Radar + Lidar
为了评估作者提出的MSTM在稀疏激光点云上的可适用性,作者分别对仅使用最后两步涉及雷达数据的训练和所有阶段仅使用激光点云+混杂雷达点云进行训练。在所有阶段,基于多阶段训练的网络在稀疏激光(或混杂激光+雷达点云)上进行评估。由于激光点云在原点云中的点数比雷达点云少,因此在原点云的
处,作者考虑了
个原点云的稀疏阶段。将原点云的稀疏阶段的上限设置为
,因为激光点云中比雷达点云少了点。与仅使用稀疏点云的SSTM进行比较。结果如图3所示,完整的定量结果见补充。
所有稀疏策略都导致了检测性能的降低。当考虑随机稀疏时,降幅大致为每稀疏一次呈线性下降。K-近邻和体积-为基础的采样始终优于随机采样,因为它们在物体附近保持较高的点密度,有利于目标检测。对于K-近邻采样,SSTM / knn和SSTM /
knn之间性能下降了0.6个百分点,因为第一稀疏阶段移除了大部分地面点。对于体积-为基础的采样,在第一稀疏阶段性能急剧下降后,在稀疏度达到
之前,可观察到性能只有相对轻微的下降。在最开始的阶段,
多阶段训练并未实现有效的知识转移,因此对于所有考虑的稀疏策略并未带来显著的性能提升。
相反的行为在雷达+激光点云上观察到。当使用K-近邻或体积-为基础的采样时,MSTM始终优于SSTM。密集点云的经验可以转移到稀疏雷达+激光点云。此外,对于体积-为基础的子采样,它在较低的稀疏度阶段表现出最高性能,优于仅在激光点云上的训练。在很小的稀疏度阶段,体积-为基础的子采样仍可以表示整个物体空间并给出有意义的环境信息。同时,雷达点云的密度足够用于目标检测。
Evaluation of MSTM with Last Radar-Only Step
本章分析了将MSTM应用于雷达数据(参见第3.2节)的性能。MSTM在两种不同的过程中进行了评估。仅使用激光雷达点云,以及在第一阶段使用混合雷达+激光雷达点云。MSTM的结果如表2所示。考虑激光雷达点云的裁剪阶段直到原始激光雷达点云的
,因为L
/rand dropping below R
性能。当仅使用激光雷达数据进行预训练时,可以看到在SR分类中的整体性能下降。相比之下,MR分类中的所有裁剪方法提高了性能。最佳性能是由随机裁剪策略实现。它在人、骑自行车者和汽车的短范围中表现尤为出色,因为这些人、自行车的较小尺寸导致雷达反射特征较差。然而,激光传感器对这些物体的检测效果良好。从激光点云到雷达点云的目标表示知识可以被转移。K-近邻和 Voxel 基础的裁剪在仅考虑激光雷达数据时,在SR分类中的性能无明显改善,但在短和中期,对于汽车类(由于车辆尺寸较大,导致在变点云中更优越地代表汽车)但可以得到比仅使用激光雷达数据更好的性能。
当考虑使用混合雷达+激光雷达点云进行预训练时,与仅使用激光雷达进行预训练相比做出了相反的观察。在将随机裁剪的激光雷达点云与混合点云相比时,整体性能在与仅考虑激光雷达点云时相比变得更糟。一致的特点是自行车在中期的良好性能,但它仍然在其他所有方法之外超越所有方法,除了
/ra。然而,K-近邻和 Voxel 基础的裁剪策略在与混合点云配合时表现更好。 Voxel 基础的裁剪策略在这方面的最佳性能。它在SR上的检测尤为出色,但由于在短和中期存在MSTM的随机裁剪策略的局限性,它被超越了。_MSTM与 Voxel 基础的裁剪可以在SR和MR中分别增加3个百分点的目标检测性能。
Evaluation of Cross-Modality KD
教师训练数据的配置尤为重要,因为教师的性能直接影响学生的。最简单的选择是将教师仅训练在激光点云上。在第4.2节和第4.3节中,可以看出混合雷达和激光点云的训练对仅使用雷达进行目标检测有好处。因此,除了仅对激光进行训练的教师外,还对在混合点云上进行训练的教师进行了比较。考虑含有四分之一原始激光点云的混合点云,作为更接近教师到学生数据的表示,可以实现更好的性能。四分之一被选择为雷达+激光检测性能,雷达和四分之一激光点云的性能比SSTM在仅激光数据上较差。表3显示了所有使用的教师的表现。
表3显示了教师网络在不同训练数据配置下的结果。如预期所示,混合雷达和激光点云的性能最好,仅在短程自行车类中,被
超越。其他训练集无法找到整体第二好的模型。不同车辆类别的性能存在差异。
对每个KD方法进行KD评估,也对每个教师训练集进行单独KD评估。考虑全部三种KD损失的联合KD。所有学生网络都初始化为教师网络的权重,因为已经证明这可以提高学生的性能[7]。此外,对于数据集之间的转移学习,利用MSTM进行预训练在第4.3节中已经证明了在雷达数据集上的性能提高。
使用KD的结果在表4中展示。仅以教师权重初始化学生网络,已经在SR中有性能优势,在
和
中表现为老师,在MR中表现为所有老师。总的来说,通过KD方法初始化,学生的性能良好,而且主要通过特征KD实现,其中教师是在混合雷达和激光数据上进行训练的。
总的来说,初始化学生网络为教师权重,学生的性能良好,而且主要通过特征KD实现,其中教师是在混合雷达和激光数据上进行训练的。
Evaluation on DSVT as a Transformer-Based Object Detector
表格4展示了在DSVT-P [17]上,选择性方法使用MSTM和KD的结果。与PointPillars所观察到的相似效果一样,在DSVT-P上也能看到类似的效应。将学生的权重初始化为老师权重并与MSTM相结合,带来了性能提升。然而,与PointPillars不同,KD方法并未对DSVT-P产生任何改进。
Limitations
在本研究中,作者调查了两种将激光雷达基础目标检测器知识转移到仅基于雷达的目标检测器的方法。首先,使用MSTM进行连续降采样激光点云,第二种是基於KD的方法。对于MSTM,作者调查了三种降采样策略针对激光点云。这些降采样策略也分析了KD教师网络的训练。两种方法都可以显著提高仅基于雷达的目标检测器的检测性能。MSTM使用体积分割降采样在总体上表现得最好,可以将检测性能提高多达3.5个百分点。对于KD方法,研究表明,使用教师模型的参数初始化学生,特别是混合激光和雷达数据训练的教师,可以在雷达数据上提高目标检测性能,主要通过利用特征KD实现进一步增强。
在未来的工作中,可以探究进一步应用到3D目标检测网络的可行性,以及像[22]中使用的高级知识蒸馏行为。由于MSTM和KD方法注意到不同的效果,可以考虑将MSTM用作教师。为了克服选择严格降采样策略的局限性,可以使用可学习的点云降采样方法[24, 66]。
Appendix 0.A Detailed Experimental Results
表格1扩展了原始论文中的表格4,评估了不同车辆类别的检测性能。主要论文中关于mAP的总体趋势在三个考虑的车辆类别中也有所体现。值得注意的有: