0. 这篇文章干了啥?
在线高清(HD)地图提供了丰富的精确静态环境信息,这些信息对于自动驾驶系统中的规划和导航至关重要。近年来,基于多视角相机的高清地图构建由于鸟瞰图(BEV)感知技术的显著进步而获得了越来越多的关注。与基于激光雷达(LiDAR)和融合方法相比,基于多视角相机的方法可以低成本部署,但由于缺乏深度信息,当前方法需要采用大型模型来实现有效的特征提取和优异的性能。因此,在实际部署中,在基于相机的模型性能和效率之间取得平衡至关重要。
为实现这一目标,知识蒸馏(KD)在相关领域引起了极大关注,因为它是训练高效且准确模型的最实用技术之一。基于KD的方法通常将知识从大型训练有素的模型(教师)转移到小型模型(学生),并在许多领域取得了显著进展,如图像分类、二维目标检测、语义分割和三维目标检测。
先前的方法遵循众所周知的教师-学生范式,该范式强制学生网络的logits与教师网络的logits相匹配。最近,基于BEV的KD方法推动了三维目标检测领域的发展,这些方法在鸟瞰图(BEV)空间中统一图像和LiDAR特征,并在教师-学生范式中跨非同质表示自适应地转移知识。现有工作采用强大的LiDAR教师模型来提炼相机学生模型,如BEVDistill、UVTR、BEVLGKD、TiG-BEV和DistillBEV。此外,最新的Uni-Distill工作提出了一个通用的跨模态知识蒸馏框架,用于三维目标检测。
与这些方法相比,基于BEV的高清地图构建知识蒸馏方法在两个方面存在显著差异:首先,检测头(DetHead)产生对象的分类和定位输出,而来自矢量化地图构建模型(如MapTR)的地图头(MapHead)输出则是分类和点回归结果。其次,现有的用于三维目标检测的基于BEV的知识蒸馏方法通常侧重于对齐前景对象的特征,以减轻背景环境的不利影响,这显然不适用于高清地图构建。因此,直接将基于BEV的三维目标检测知识蒸馏方法应用于高清地图构建无法取得令人满意的结果,因为这两个任务之间存在固有的差异。据我们所知,基于BEV的高清地图构建知识蒸馏方法仍处于探索阶段。
为了填补这一空白,我们提出了一种新颖的基于知识蒸馏的方法,命名为MapDistill,旨在将高性能教师模型的知识转移到高效的学生模型中。首先,我们采用教师-学生架构,即使用相机-LiDAR融合模型作为教师,轻量级相机模型作为学生,并设计了一个双BEV转换模块,以促进跨模态知识蒸馏,同时保持成本效益高的仅相机部署。在此架构基础上,我们提出了一种全面的蒸馏方案,包括跨模态关系蒸馏、双级特征蒸馏和地图头蒸馏,以缓解模态之间的知识传递挑战,并帮助学生模型学习改进的特征表示,以构建高清地图。具体而言,我们首先引入跨模态关系蒸馏损失,使学生模型能够从融合教师模型中学习更好的跨模态表示。其次,为实现更好的语义知识传递,我们在统一的鸟瞰图(BEV)空间中的低级和高级特征表示上采用双级特征蒸馏损失。最后但同样重要的是,我们特别为高清地图构建任务引入了定制的地图头蒸馏损失,包括分类损失和点对点损失,这可以使学生模型的最终预测紧密接近教师模型的预测。在具有挑战性的nuScenes数据集上进行的大量实验证明了MapDistill的有效性,它在性能上超越了现有竞争对手,mAP提升超过7.7,或速度提升4.5倍。
下面一起来阅读一下这项工作~
1. 论文信息
标题:MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation
作者:Xiaoshuai Hao, Ruikai Li, Hui Zhang, Dingzhe Li, Rong Yin, Sangil Jung, Seung-In Park, ByungIn Yoo, Haimei Zhao, Jing Zhang
机构:三星、北航、中科院、SAIT、悉尼大学
原文链接:https://arxiv.org/abs/2407.11682
2. 摘要
在线高清(HD)地图构建是自动驾驶领域的一项重要且具有挑战性的任务。近年来,基于多视图摄像头的经济高效方法受到了越来越多的关注,这些方法不依赖于激光雷达等其他传感器。然而,这些方法缺乏明确的深度信息,因此需要使用大型模型来达到令人满意的性能。为此,我们首次采用知识蒸馏(KD)的思想来高效构建高清地图,并引入了一种基于KD的新方法MapDistill,将来自高性能摄像头-激光雷达融合模型的知识转移到轻量级的仅摄像头模型中。具体而言,我们采用了教师-学生架构,即摄像头-激光雷达融合模型作为教师模型,轻量级摄像头模型作为学生模型,并设计了一个双鸟瞰图(BEV)变换模块,以在保持经济高效的仅摄像头部署的同时,促进跨模态知识蒸馏。此外,我们还提出了一种全面的蒸馏方案,包括跨模态关系蒸馏、双级特征蒸馏和地图头蒸馏。这种方法缓解了模态间的知识传递挑战,使学生能够学习用于高清地图构建的改进特征表示。在具有挑战性的nuScenes数据集上的实验结果表明,MapDistill方法的有效性,其表现超过了现有竞争对手,平均精度均值(mAP)提高了7.7以上,速度提高了4.5倍。
3. 效果展示
4. 主要贡献
本文的主要贡献如下:
– 我们提出了一种基于蒸馏的高清地图构建的有效模型架构,包括一个相机-激光雷达融合教师模型、一个轻量级的仅相机学生模型和一个双BEV变换模块,该架构促进了不同模态内部和之间的知识传递,同时实现了成本效益高的仅相机部署。
– 我们引入了一种全面的蒸馏方案,该方案同时支持跨模态关系蒸馏、双层次特征蒸馏和映射头蒸馏。通过缓解模态之间的知识传递挑战,该蒸馏方案有助于学生模型学习更好的特征表示,以用于高清地图构建。
– MapDistill在性能上超越了最先进(SOTA)的方法,可以作为基于KD的高清地图构建研究的一个强大基线。
5. 基本原理是啥?
我们提出的MapDistill的概述。它包括一个基于融合的教师模型(上方)和一个轻量级的基于相机的学生模型(下方)。此外,我们采用了三种蒸馏损失来使教师模型能够将知识传授给学生模型,即指导学生模型产生相似的特征和预测,这些损失包括跨模态关系蒸馏(Lrelation)、双层次特征蒸馏(Lfeature)和地图头蒸馏(Lhead)。请注意,推理时仅需要学生模型。
6. 实验结果
我们将我们的方法与两类最先进的基线方法进行了比较,即基于相机的HD地图构建方法和原本为基于BEV的3D目标检测而设计的定制KD方法。对于基于相机的HD地图构建方法,我们直接报告了相应论文中的结果。对于基于KD的方法,我们实现了三种用于基于BEV的3D目标检测的方法,并对它们进行了修改以适应HD地图构建任务,包括BEV-LGKD、BEVDistill和UnDistill。为了公平起见,我们使用了与我们方法相同的教师和学生模型。
表1显示:
(1)原本为基于BEV的3D目标检测而设计的KD方法由于3D目标检测和HD地图构建之间的任务差异,无法取得令人满意的结果。
(2)仅在相机教师和学生模型之间进行模态内蒸馏,由于教师模型在推断3D几何形状方面的能力有限,因此无法学习准确的3D信息,BEV-LGKD的增益仅为0.6 mAP,而我们的MapDistill的增益为2.1 mAP。
(3)在LiDAR教师和相机学生之间进行跨模态蒸馏,可以从教师那里学习有用的3D信息,但由于跨模态差距较大,BEVDistill的增益提升了1.2 mAP,而我们的MapDistill的增益提升了4.2 mAP。
(4)我们提出的MapDistill通过基于融合的教师模型,实现了模态内/模态间的有效知识蒸馏,同时享受了成本效益高的仅相机部署方式,实现了7.7 mAP的最大增益,并超过了UniDistill 5.4 mAP。
7. 总结 & 局限性
在本文中,我们提出了一种新颖的方法MapDistill,通过相机-激光雷达融合模型蒸馏来提升基于相机的高效高清地图构建,从而提供了一个既经济又准确的解决方案。MapDistill建立在相机-激光雷达融合教师模型、轻量级仅相机学生模型和专门设计的双BEV变换模块之上。此外,我们提出了一种全面的蒸馏方案,包括跨模态关系蒸馏、双层次特征蒸馏和地图头蒸馏,这些方案促进了不同模态之间和模态内的知识转移,并有助于学生模型获得更好的性能。广泛的实验和分析验证了MapDistill的设计选择和有效性。
局限性和社会影响。采用知识蒸馏(KD)方法时,学生模型可能会继承教师模型的弱点。更具体地说,如果教师模型存在偏差,或者对恶劣天气条件和/或长尾场景不够鲁棒,学生模型的行为可能会类似。MapDistill具有成本效益高的仅相机部署优势,在自动驾驶等实际应用中显示出巨大潜力。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括