专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

LabelDistill,利用 GT 标签解决激光雷达检测器固有的不完美,mAP和 NDS提高 5.1% !

智驾实验室  · 公众号  ·  · 2024-07-27 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

基于摄像头的3D目标检测的最新进展引入了跨模态知识蒸馏,以缩小与LiDAR 3D检测器的性能差距,利用LiDAR点云中的精确几何信息。然而,现有的跨模态知识蒸馏方法往往忽视了LiDAR固有的不完美之处,例如在远距离或被遮挡物体上的测量不明确性,这些不应当被传递到图像检测器中。

为了减轻LiDAR教师模型中的这些不完美,作者提出了一种新颖的方法,利用来自真实标签的不确定性自由特征。与传统的标签指导方法不同,作者近似教师 Head 的逆函数,有效地将标签输入嵌入到特征空间中。这种方法在LiDAR教师模型的基础上提供了额外的准确指导,从而提升了图像检测器的性能。

此外,作者还引入了特征分割,这有效地从教师模态转移知识,同时保留了学生的独特特征,从而最大化两种模态的潜力。

实验结果表明,与基准模型相比,作者的方法将mAP和NDS提高了5.1个百分点和4.9个百分点,证明了作者方法的有效性。

代码可在https://github.com/sanmin0312/LabelDistill获取。

1 Introduction

三维目标检测在自动驾驶和机器人等应用中是一项至关重要的任务。近年来,基于相机的方法因其成本效益高以及图像能提供的丰富语义信息而受到广泛关注。然而,与基于激光雷达的方法相比,它们的当前性能尚有不足,这主要是因为缺少几何和空间信息。

为了缩小相机与激光雷达检测器之间的性能差距,知识蒸馏[15]作为一种有前景的解决方案出现,它在计算机视觉领域的图像分类[64]、目标检测[62]和分割[34]等方面取得成功后,也被引入到这个问题中。特别是,激光雷达引导的跨模态知识蒸馏方法在基于相机的三维目标检测任务中显示出巨大潜力。这些方法将学到的信息从激光雷达检测器传递到图像检测器,利用激光雷达精确的空间特征,而在推理过程中无需激光雷达传感器。

尽管当前的激光雷达引导的跨模态知识蒸馏方法有所改进,但它们仍存在局限性。首先,它们往往忽视了激光雷达点云固有的不完美,包括远处和被遮挡物体的偶然不确定性。这些缺点使得激光雷达检测器的特征在蒸馏中并不完美。其次,现有方法在处理激光雷达和相机互补特性方面不够充分。虽然激光雷达提供了精确的空间信息,但相机则提供了丰富的语义信息。因此,旨在将所有图像特征与激光雷达特征对齐的盲目蒸馏可能会阻碍图像特征的潜力充分发挥。

图1:(a) 传统的跨模态知识蒸馏 训练图像检测器模仿训练有素的激光雷达检测器的特征。这可能是次优的,因为它直接将具有内在不完美特性的激光雷达特征转移到了图像特征。(b) LabelDistill 通过将 GT 标签融入特征表示中,增强了图像检测器。这种方法旨在为图像检测器提供更准确的指导,减轻激光雷达点云的内在局限性。

为了解决这些局限性,作者提出了一种针对基于相机的三维目标检测量身定制的全新跨模态知识蒸馏方法。作者的方法引入了一种标签蒸馏策略,利用在蒸馏过程中从 GT 标签得出的无偶然不确定性的特征。与[14、68]中通过学生特征监督提取标签特征的常规标签指导方法不同,作者的标签蒸馏方法专注于提取可以补充激光雷达点云局限性的标签特征。这是通过利用训练有素的教师 Head 的逆函数实现的,该函数能有效将3D边界框映射到教师的特征空间。

当与激光雷达蒸馏结合时,作者的标签蒸馏方法为图像检测器提供了准确且鲁棒的指导,提升了其整体性能。此外,作者在蒸馏过程中引入了一种特征划分策略,以有效地从教师模态传递知识,同时保留学生模态的独特信息,如语义信息。作者在通道维度上将学生的特征分为几组,将其中一些分配给教师,同时保持其他不受教师影响。这种方法确保了学生可以从教师那里学习到信息性特征,而不会损害其自身独特的特性。总之,本文的贡献包括:

  • 作者提出了一种新颖的标签引导的跨模态知识蒸馏方法,它有效地补充了基于激光雷达的教师模型的不完美性,利用了无偶然不确定性的特征。
  • 作者引入了一种特征划分方法,以在从教师模态传递知识的同时保留学生模态的独特信息。
  • 作者的 方法在不需要在推理阶段产生额外成本的情况下,与之前的最先进方法相比实现了性能的改进。广泛的实验验证了作者的方法的有效性。

2 Related Work

基于相机的3D目标检测。 早期基于相机的3D目标检测方法建立在2D检测方法[51, 72]的成功之上。这些方法利用透视视图特征从2D图像输入直接估计3D信息。然而,它们面临着由3D到2D投影过程中信息丢失引起的病态深度估计挑战。为了减轻这种不准确的深度估计,几种方法探索了几何信息,而DD3D[44]则通过额外数据集[11]的深度预训练来整合深度信息。

该领域最近的研究进展涉及通过视图变换采用鸟瞰图(BEV)特征表示。一系列工作采用了前向视图变换,通过使用估计的深度分布将透视视图特征投影到BEV空间。另一方面,其他工作通过引入关注机制[53]来处理3D与2D空间之间的对应关系,采用了后向视图变换。尽管基于相机的3D目标检测在这些进展中显示出有希望的性能,但由于深度信息的固有局限性,在实现准确定位方面仍然存在挑战。

3D目标检测的知识蒸馏。 知识蒸馏最初是为了模型压缩[15]而提出的,通过将大型笨重的教师模型中的信息传递到轻量级紧凑的学生模型中。它在各种计算机视觉领域,如分类,目标检测和语义分割中证明是有效的。最近,这种策略被应用于3D目标检测任务。

在自动驾驶应用中,激光雷达引导的跨模态知识蒸馏方法引起了关注,这些方法将激光雷达检测器作为教师模型,为图像检测器提供从激光雷达点云获得的准确丰富的空间信息。MonoDistill[8]将激光雷达点投影到图像平面上以统一表示,而BEVDistill[6]除了密集特征模仿外,还引入了稀疏实例级蒸馏。另一方面,X KD[25]提出了跨任务知识蒸馏,从实例分割任务中传递信息。尽管这些方法的结果很有希望,但它们常常忽略了激光雷达数据中的不足,导致次优蒸馏。此外,激光雷达与相机模态之间的领域差异没有得到充分解决。

标签指导。 在各种任务中,一些工作将标签指导整合到它们的训练方案中。一项工作[41, 43]使用标签进行中间监督,提供正则化的辅助指导。另一项工作在无需教师的蒸馏框架内利用标签输入来增强学生特征。然而,这些方法在从标签中有效提取有用特征方面存在困难,因为它们通常采用简单的自动编码器或依赖学生特征来训练标签编码器,导致次优的标签特征。相比之下,作者的方法将标签嵌入到激光雷达教师模型的特征空间中,从而提供可以补充教师特征的宝贵标签特征。

3 Method

如图2所示,作者提出的方法包含三个流程:激光雷达(LiDAR)、 GT 标签和图像。主要目标是通过对标签蒸馏以及激光雷达蒸馏的运用,引导图像检测器学习准确的空间信息,同时保留其独特的特性。

LiDAR Distillation

激光雷达蒸馏过程遵循传统的知识蒸馏范式,使用激光雷达检测器作为教师模型。作者的方法首先从激光雷达点云和多视图图像中提取鸟瞰图(BEV)特征,并为每种模态分别采用独立的 Backbone 网络。作者使用了两种激光雷达蒸馏策略:特征 Level 和响应 Level 蒸馏。

特征 Level 蒸馏。 特征 Level 蒸馏旨在将激光雷达BEV特征中的丰富空间和几何信息传递到相应的图像BEV特征中。这些图像BEV特征是通过视角变换技术[30, 47]从透视视图中变换而来。这种蒸馏通过以下损失函数实现:

其中 分别代表BEV特征图的高度和宽度。 分别是位置 处来自激光雷达和图像的BEV特征。Mask 将蒸馏过程限制在目标特定区域,使用来自BEV空间内的 GT  Heatmap 的前景 Mask 。 中非零像素的数量。适应性模块 ,由卷积层组成,将图像特征的维度与教师模型的输出对齐。

响应 Level 蒸馏。 在响应 Level 蒸馏中,利用激光雷达检测器的预测作为额外的软标签,遵循[15]:

其中 分别表示来自激光雷达和图像检测器的类 Heatmap 和边界框预测。作者采用Focal Loss作为分类损失 ,L1损失作为回归损失 。在这个过程中,作者基于 GT  Heatmap 的前景 Mask 来防止假阳性带来的负面影响。

Label Distillation

尽管激光雷达蒸馏为图像检测器提供了指导性的空间信息,但激光雷达点云固有的局限性,如由于稀疏性导致的远距离或遮挡物体的模糊性[66]和对不利天气的敏感性[12, 13],可能会影响蒸馏过程中使用的特征质量。在现有研究中,这些缺陷往往被忽视,因为它们被激光雷达目标检测器相对于相机检测器的卓越检测性能所掩盖,从而限制了激光雷达引导的跨模态知识蒸馏的潜力。为了克服这些局限性,作者在激光雷达蒸馏之外引入了标签蒸馏作为补充策略。标签蒸馏利用了由人工标注者使用多个传感器和长序列帧生成的真实标签(例如,nuScenes数据集[2]利用了激光雷达、雷达和相机,包括过去和未来时间步的20秒帧)。因此,这些真实标签能够提供精确的、不受偶然不确定性影响的3D目标边界框,为图像检测器提供可靠的指导。

近似教师 Head 的逆函数。 减轻教师模型局限性的关键步骤是将真实标签充分编码到特征空间中。在利用标签指导训练过程方面,已有几项工作进行了探索[14, 21, 68]。然而,这些方法在从标签输入中提取最优特征方面往往不足,主要是因为训练过程迫使标签特征与学员特征相似。为了应对这一挑战,作者利用了激光雷达检测Head将激光雷达特征解码为3D边界框预测的能力:

其中 分别表示激光雷达特征和边界框预测。 代表激光雷达检测Head。

这个过程暗示了激光雷达检测Head的逆函数可以将边界框表示映射回特征空间。因此,作者旨在利用这个激光雷达检测Head的逆函数将标签(即3D边界框)嵌入到教师模型的特征空间中,如下方程式所形式化:

其中 表示激光雷达检测Head的逆函数,作为标签编码器。换句话说, 可以给定 GT 3D边界框输入时输出最优的标签特征。

然而,由于神经网络的高度非线性,计算这个逆函数是不切实际的。受到[14]和[41]的启发,作者利用自动编码器框架来近似激光雷达检测Head的逆函数。在这个框架内,标签编码器扮演编码器的角色,而预训练的激光雷达检测Head则作为解码器,如图3所示。标签编码器的训练目标表述为:

其中 表示预训练的激光雷达检测Head, 表示设计的标签编码器,旨在近似 表示激光雷达点云和 GT 标签的一对, 是数据集的分布,







请到「今天看啥」查看全文