三星中国研发院
北京航空航天大学国家智能交通系统重点实验室
中国科学院信息工程研究所
韩国SAIT SEC计算机视觉TU
悉尼大学 {xshuai.hao, hui123.zhang, dingzhe.li, byungin.yoo}@samsung.com在线高清地图构建是自动驾驶领域中一项重要且具有挑战性的任务。
近年来,低成本的多视角基于相机的方法越来越受到关注,这些方法不依赖于激光雷达等其他传感器。然而,这些方法因缺乏明确的深度信息,需要使用大型模型才能达到满意的性能。
为此,作者首次将知识精馏(Knowledge Distillation,KD)理念应用于高效高清地图构建,并提出了一种名为MapDistill的新型基于KD的方法,将高性能的相机-激光雷达融合模型的知识传递给轻量级的仅相机模型。
具体来说,作者采用了教师-学生架构,即以相机-激光雷达融合模型作为教师,轻量级相机模型作为学生,并设计了一个双重鸟瞰图转换模块,以促进跨模态知识精馏,同时保持成本效益的仅相机部署。
此外,作者提出了一种全面的精馏方案,包括跨模态关系精馏、双重 Level 特征精馏和地图头精馏。
这种方法减轻了模态间知识传递的挑战,使学生模型能够学习到用于高清地图构建的改进特征表示。
在具有挑战性的nuScenes数据集上的实验结果表明,MapDistill的有效性,其性能超过了现有竞争对手7.7 mAP以上或4.5倍的速度提升。
1 Introduction
在线高清(HD)地图提供了关于驾驶场景丰富且精确的静态环境信息,这对于自动驾驶系统中的规划和导航至关重要。近年来,基于多视角相机的HD地图构建受到了越来越多的关注,这得益于鸟瞰图(BEV)感知技术的显著进步。与基于激光雷达的方法[13, 39]和基于融合的方法[19, 23, 25]相比,基于多视角相机的方法可以以低成本部署,但由于缺乏深度信息,当前的方法需要采用大型模型以实现有效的特征提取和良好的性能表现。因此,在实际部署中,权衡基于相机的模型的性能和效率至关重要。
图1:在nuScenes验证数据集上不同方法的比较。作者在单个NVIDIA RTX 3090 GPU上基准测试了推理速度。作者的方法在速度(FPS)和准确性(mAP)方面都能实现更好的权衡。
为了实现这一目标,知识蒸馏(Knowledge Distillation,简称KD)[8]在相关领域受到了极大的关注,因为它是训练既高效又准确模型的最实用技术之一。基于KD的方法通常将知识从大型经过良好训练的模型(教师模型)传递到小型模型(学生模型)[14],这已在许多领域取得了显著进展,如图像分类[31]、2D目标检测[3]、语义分割[43]和3D目标检测[5, 51, 53]。先前的方法遵循著名的教师-学生范式[14],强制学生网络的逻辑值与教师网络相匹配。近来,基于BEV的KD方法在3D目标检测领域取得了进展,这些方法在鸟瞰图(Bird-Eye-View,简称BEV)空间统一了图像和激光雷达特征,并在教师-学生范式中自适应地传递不同表示之间的知识。现有研究利用强大的激光雷达教师模型对相机学生模型进行蒸馏,例如BEVDistill[5]、UVTR[20]、BEVL-GKD[18]、TiG-BEV[15]和DistillBEV[41]。
此外,最新的UniDistill[53]工作提出了一个用于3D目标检测的通用跨模态知识蒸馏框架。与这些方法相比,基于BEV的高清地图构建KD方法在两个关键方面有所不同:首先,检测Head(DetHead)为目标产生分类和定位输出,而来自矢量地图构建模型的地图头(MapHead)的输出,例如MapTR[23],是分类和点回归结果。其次,现有的针对3D目标检测的基于BEV的KD方法通常聚焦于对齐前景目标的特征,以减轻背景环境的不利影响,这对于高清地图构建显然是不适用的。因此,直接将用于3D目标检测的基于BEV的KD方法应用于高清地图构建,由于两项任务之间的固有差异,无法取得令人满意的结果(参见表1中的实验结果)。据作者所知,针对高清地图构建的基于BEV的KD方法仍在探索中。
为了填补这一空白,作者提出了一种名为MapDistill的新型基于知识蒸馏的方法,该方法能够将高性能教师模型的知识传递给一个高效的学生模型。首先,作者采用了教师-学生架构,即以摄像头与激光雷达融合模型作为教师,轻量级摄像头模型作为学生,并设计了一个双重鸟瞰图转换模块,以促进跨模态知识蒸馏同时保持成本效益的仅摄像 Head 署。基于此架构,作者提出了一项全面的蒸馏方案,包括跨模态关系蒸馏、双重特征层次蒸馏以及地图头蒸馏,以减轻模态间的知识传递挑战,并帮助学生模型学习改进的特征表示以构建高清地图。具体而言,作者首先引入了跨模态关系蒸馏损失,让学生模型能够从融合教师模型中学习更好的跨模态表示。其次,为了实现更好的语义知识传递,作者在统一鸟瞰图空间中对低层次和高层次的特征表示采用了双重特征层次蒸馏损失。最后但同样重要的是,作者特别为高清地图构建任务引入了定制化的地图头蒸馏损失,包括分类损失和点对点损失,这使得学生模型的最终预测能够与教师模型紧密相似。在具有挑战性的nuScenes数据集[2]上的大量实验证明了MapDistill的有效性,如图1所示,其性能超过了现有竞争方法,提高了7.7 mAP或4.5倍的速度。
本文的主要贡献有三个:
作者提出了一种有效的基于蒸馏的高清地图构建模型架构,包括摄像头与激光雷达融合教师模型、轻量级仅摄像头学生模型以及双重鸟瞰图转换模块,该架构促进了不同模态间以及模态内的知识传递,同时享受到了成本效益的仅摄像 Head 署。
作者引入了一个全面的蒸馏方案,同时支持跨模态关系蒸馏、双重特征层次蒸馏和地图头蒸馏。这个蒸馏方案减轻了模态间的知识传递挑战,帮助学生模型为高清地图构建学习更好的特征表示。
MapDistill在性能上优于现有技术水平(SOTA),可为基于知识蒸馏的高清地图构建研究提供一个强有力的 Baseline 。
2 Related Work
基于摄像头的高清地图构建。
高清地图构建是自动驾驶领域内一个突出且广泛研究的领域。近期,基于摄像头的方法越来越多地采用鸟瞰图(BEV)表示作为多视角感知的理想特征空间,因为它在缓解尺度模糊和遮挡挑战方面具有显著能力。已经提出并使用了各种技术,通过利用几何先验,例如LSS[33],可变形注意力[21]和GKT[4],将透视视图(PV)特征投影到BEV空间。此外,基于摄像头的方法开始依赖更高分辨率的图像和更大的 Backbone 模型以实现更高的精度,这一做法给实际部署带来了巨大挑战。例如,HDMapNet[19]和VectorMapnet[25]分别采用Efficient-B0模型[37]和ResNet50模型作为特征提取的 Backbone 。此外,MapTR[23]探讨了包括Swin Transformer[27],ResNet50[12]和Resnet18[12]在内的各种 Backbone 的影响。实验结果表明, Backbone 表示能力与模型性能之间存在直接相关性,即更大的模型通常会产生更好的结果。然而,使用更大的模型会导致推理速度减慢,削弱基于摄像头的方法的成本优势。在本文中,作者提出了一种有效且高效,针对实际部署定制的基于摄像头的方法,通过知识蒸馏来实现。
基于融合的高清地图构建。
基于激光雷达的方法为创建BEV特征表示提供了精确的空间数据。近期,摄像头-激光雷达融合方法以协作方式利用了摄像头数据的语义丰富性和激光雷达的几何信息。这种在BEV层面的融合整合了不同的数据流,将摄像头和激光雷达输入编码成共享的BEV特征,超过了单模态输入方法的性能。然而,这种整合可能在实际部署中带来重大的计算和成本负担。为了解决这个问题,作者利用知识蒸馏(KD)技术进行高效的高清地图构建,并引入了一种名为MapDistill的新方法,将知识从高性能的摄像头-激光雷达融合模型传递到轻量级的仅摄像头模型,从而提供了一个既经济又准确的解决方案。
知识蒸馏。
知识蒸馏是指将从训练有素的、较大的教师模型中的知识转移到较小的学生模型中[14],这已被广泛应用于各种任务,如图像分类[31, 48, 49],2D目标检测[3, 52],语义分割[36, 39, 43, 46]和3D目标检测[5, 53, 6, 51]。近期,基于BEV的知识蒸馏方法在3D目标检测领域受到了越来越多的关注。一些现有工作采用了跨模态知识蒸馏框架进行3D目标检测,包括BEVDistill[5],UVTR[20],BEV-LGKD[18],TiG-BEV[15],DistillBEV[41],和UniDistill[53]。尽管针对3D目标检测存在许多知识蒸馏方法,但基于知识蒸馏的高清地图构建仍然相对未被探索。在本文中,作者通过提出一种名为MapDistill的新型知识蒸馏方法来填补这一空白,通过摄像头-激光雷达融合模型的知识蒸馏,提升基于摄像头的有效高清地图构建。
3 Methodology
在本节中,作者将详细阐述作者提出的MapDistill方法。首先,在图2中作者给出了整个框架的概览,并在3.1节中明确了教师模型和学生模型的设计。随后,在3.2节中,作者将详细说明MapDistill的目标,包括跨模态关系提炼、双 Level 特征提炼以及地图头提炼。最后,在3.3节中,作者呈现了整体训练流程。
Model Overview
基于融合的模型(教师)。
为了使知识从相机-激光雷达融合教师模型传递到学生模型,作者首先基于最先进的MapTR [23]模型建立了一个融合基础的高清地图构建 Baseline 。融合的MapTR模型有两个分支,如图2的顶部所示。对于相机分支,它首先使用
Resnet50
[12]作为主干网络来提取多视角特征。接下来,它使用GKT [4]作为2D到BEV(鸟瞰图)变换模块,将多视角特征转换为BEV空间。生成的相机BEV特征可以表示为
,其中
分别表示BEV特征的高度、宽度和通道数,上标
代表“教师”。对于激光雷达分支,它采用
SECOND
[44]进行点云 Voxel 化和激光雷达特征编码。然后,通过如[28]中的展平操作将激光雷达特征投影到BEV空间,以获得激光雷达BEV表示
。然后,MapTR将
和
连接起来,并使用全卷积网络处理特征,以生成融合的BEV特征
。
接下来的步骤是使用地图编码器(MapEnc),它以融合的BEV特征
作为输入,进一步生成高级特征
:
请注意,以上翻译保留了原始文本中的公式和标记,并尽量保持了学术翻译的准确性和严谨性。
接下来,教师模型的Map头(MapHead)利用分类和点分支生成地图元素类别
和点位置
的最终预测:
在整个训练过程中,教师模型将持续产生多样的特征
,
,
,
,
和
。
基于摄像头的模型(学生模型)。
为了实现实际部署的实时推理速度,作者采用MapTR的摄像头分支作为学生模型的基础。需要注意的是,作者采用
Resnet18
[12]作为主干网络来提取多视角特征,这使得网络轻量化且易于部署。在MapTR的基础上,为了模仿教师模型的多模态融合流程,作者提出了双重BEV转换模块来将多视角特征转换为两个不同的BEV子空间,其效果将在消融实验中得到验证。具体来说,作者首先使用GKT [4]在第一个子空间中生成BEV特征
,其中上标
代表“学生”。然后,作者利用LSS [33]在第二个子空间中生成BEV特征
。接着,作者将
和
进行拼接,并通过全卷积网络处理这些特征,以生成融合的BEV特征
。
接着,采用与教师模型相同的过程,作者可以通过方程式1和方程式2从
中生成
、
和
。因此,在构建地图的过程中,学生模型将始终一致地生成
、
、
、
、
和
。
MapDistill Objectives
3.2.1 Cross-modal Relation Distillation.
教师模型,一个摄像头与激光雷达融合模型,将摄像头数据中丰富的语义信息与激光雷达的明确几何数据相结合。相比之下,学生模型,一个基于摄像头的模型,主要关注从摄像头捕捉语义信息。教师模型性能卓越的关键因素是跨模态交互,而学生模型缺乏这一点。因此,作者鼓励学生模型通过模仿来发展这种跨模态交互能力。
为此,作者引入了一个跨模态注意力蒸馏目标。其核心思想是让学生在训练过程中模仿教师模型的跨模态注意力。更具体地说,对于教师模型,作者首先将摄像头鸟瞰图(BEV)特征
和激光雷达鸟瞰图特征
Reshape 为2D Patch 序列,分别表示为
和
。这里, Patch 大小表示为
, Patch 数量为
。
接下来,作者计算教师模型的跨模态注意力,包括摄像头到激光雷达的注意力
和激光雷达到摄像头的注意力
,如下所示:
请注意,Markdown公式部分已按照您的要求保留未翻译。
其中
是一个缩放因子,用于防止当点积的量级增大时,softmax函数陷入梯度极小的区域。
对于学生模型,作者采用与教师模型相同的操作,从
和
分别生成