基于其强大的训练稳定性和高完成质量,扩散模型已被应用于3D LiDAR场景完成。然而,缓慢的采样速度限制了基于扩散模型的场景完成技术的实际应用,因为自动驾驶车辆需要高效地感知周围环境。
本文提出了一种专为3D LiDAR场景完成模型设计的新知识蒸馏方法,称为ScoreLiDAR,该方法实现了高效的高质量场景完成。
ScoreLiDAR使蒸馏后的模型在蒸馏后能够以显著减少的步数进行采样。为了提高完成质量,作者还引入了一种新的结构损失,该损失鼓励蒸馏后的模型捕捉3D LiDAR场景的几何结构。
该损失包含一个场景级的项,用于约束整体结构,以及一个点级的项,用于约束关键地标点及其相对配置。
广泛的实验表明,与SemanticKITTI上的先进3D LiDAR场景完成模型相比,ScoreLiDAR将完成时间从每帧30.55秒加速到5.37秒(>5倍),且性能更优。
作者的代码已公开发布在 https://github.com/happywlnd/ScoreLiDAR。
1. Introduction
在本文中,作者提出了一种名为ScoreLiDAR的新颖知识蒸馏方法,该方法专为3D LiDAR场景完成扩散模型设计,能够实现高效且高质量的场景完成。变分评分蒸馏(VSD)[37] 使用一个预训练的扩散模型来计算分布匹配损失,从而训练学生模型,已经取得了显著的效果。受到这一方法的启发,ScoreLiDAR 对 VSD 进行了改编和扩展,以有效蒸馏预训练的3D LiDAR场景完成扩散模型。此外,作者引入了一种结构损失,以确保训练的稳定性并提高最终性能。
结构损失包含一项场景级项,用于约束整体结构,以及一项点级项,用于约束关键地标点及其相对配置,这有助于学生模型捕捉3D LiDAR场景的几何结构信息并实现高质量的完成。作者将提出的ScoreLiDAR与最先进的(SOTA)LiDAR场景完成模型进行了比较。广泛的实验表明,ScoreLiDAR 可以有效地加快LiDAR场景完成扩散模型的采样速度,同时保持最优的场景完成质量,如图1和图2所示。
作者的贡献可以概括如下:
(1) 作者提出了ScoreLiDAR,这是一种专为基于扩散的3D LiDAR场景完成模型设计的新蒸馏方法,能够实现高效的场景完成。
(2) 作者引入了一种结构损失,以在蒸馏过程中有效捕捉3D点云的几何结构信息,从而确保高质量的场景完成。
(3) 广泛的实验表明,ScoreLiDAR能够在保持最优生成质量的同时实现快速且高效的场景完成,优于现有模型。
2. Related 1 work
3D LiDAR 场景补全指的是从自动驾驶等应用中的稀疏、不完整 LiDAR 扫描中恢复出完整场景的技术 [34, 41]。当前主流的 LiDAR 场景补全方法主要包括基于深度补全和基于 signed 距离场(SDF)的方法。
基于深度补全的方法旨在从稀疏的深度测量中恢复密集的深度图 [8, 38, 42]。这些方法通常利用深度学习技术 [4, 7],并且可以结合 RGB 图像的指导来实现更高的补全质量。基于 SDF 的方法通过将场景表示为 Voxel 网格,并使用 signed 距离场来补全稀疏的 LiDAR 场景 [14, 34]。然而,这些方法受 Voxel 分辨率的限制,可能会导致丢失场景中的细节 [6, 24]。此外,一些方法引入语义信息以增强 LiDAR 场景补全 [27, 39]。
这些方法能够生成密集且完整的场景,并为每个点提供语义标签,从而具有更广泛的应用潜力。
基于扩散模型的强大训练稳定性和高生成质量,许多方法利用扩散模型进行LiDAR场景完成任务。Lee等人[13]的工作首次在场景尺度上应用了扩散模型进行LiDAR场景完成,使基于稀疏点云部分观测条件生成逼真场景成为可能。同样地,R2DM[23]利用基于距离和反射强度图像表示的扩散模型生成各种高保真3D LiDAR场景。
LiDiff[24]指出,在场景尺度上对点云数据添加噪声会导致细节损失,因此LiDiff建议直接操作单个点,并重新定义噪声时间表和去噪过程以生成具有更丰富细节的场景。基于LiDiff,DiffssC[3]进一步通过分别在点空间和语义空间中实现去噪和分割来进行语义场景完成任务。此外,LiDMs[25]从模态真实、几何真实和目标真实的视角构建了Pipeline,实现了在不同条件下的生成。
然而,由于扩散模型固有的缓慢采样过程,基于扩散模型的3D激光雷达场景完成模型的推理相对较慢。这一限制使得在自动驾驶车辆应用中实现快速高效的目标感知变得颇具挑战性。
3. Preliminary
3.1.Briefintroductionof diffusionmodels
扩散模型有两个过程:正向扩散过程和反向去噪过程[9, 30]。在正向扩散过程中,给定来自训练分布的数据
,扩散模型根据不同的时间步
,以不同尺度添加噪声到
,获得噪声数据
。当
足够大时,
接近标准高斯分布,即
。此过程由一系列预定义的噪声因子
参数化。通过定义
,扩散过程可表示为[9]:
在训练过程中,扩散模型试图预测不同时间步
处添加的噪声。给定输入
和条件
(可选),可以通过式(1)计算出含噪数据
. 扩散模型
根据
预测噪声,并通过计算预测噪声与真实噪声之间的
损失来进行优化。具体地,有如下公式:
在这里,
是
的可训练参数。在逆去噪过程中,从时间步长
开始,逐步移除预测的噪声,直到生成样本。将
去噪以获得
的过程可以表示为:
这里
。在这个过程中,所需的推理步骤数量取决于不同的采样方法。例如,DDPM [9] 需要1000个时间步,而DDIM [30] 和DPM求解器 [18] 可以分别将其减少到100个时间和步和20个时间步。
3.2. 3D LiDAR scene completion diffusion models
3D LiDAR场景补全扩散模型接受不完整的扫描点集
,试图生成完整的场景
。给定输入的LiDAR扫描
和ground truth
,可以通过训练扩散模型来实现3D LiDAR场景补全。在时间步
,噪点场景
可以从点级的ground truth
计算得出,参考文献[3, 24]。
这里,
。由于激光雷达点云较为稀疏,噪声数据保留了原始数据非常少的信息。为了生成更真实的点云场景,可以将激光雷达扫描
作为扩散模型的条件[24]。在这种情况下,扩散模型的训练损失由以下公式给出:
然后,如第3.1节所述,可以通过从
逐步去噪生成完成的场景
。由于LiDAR场景的规模较大且不同点云轴的数据范围不同,直接对整个数据集进行归一化会将数据压缩到较小的范围内,这可能会导致关键细节的丢失[3, 24]。为了解决这个问题,LiDiff [24]通过为每个点
添加局部噪声偏移来修改扩散过程,在每个时间步逐步扰动点云。对于方程(1),
设置为O,并向每个点
添加
。
由于这种特殊情况,
在采样过程中不能直接从标准高斯噪声开始。相反,使用激光雷达扫描
来获得
[24]。
首先,给定初始不完整的扫描数据
,通过将原始点复制
次来增加点云的数量,从而获得伪密集扫描
,作者假设
。接着,利用式(6)计算出噪声点云
。由于
已经足够嘈杂,因此在训练过程中可以将其视为GT
。之后,应用逐步去噪过程以获取完整的场景
。
4. Method
作者的目标是将一个预先训练好的3D激光雷达场景完成扩散模型精简到一个学生模型,显著减少采样步骤,从而实现高效且高质量的场景完成。首先,作者在第4.1节中介绍了专门针对3D激光雷达场景完成扩散模型的精简方法。随后,在第4.2节中,作者引入了结构损失来通过场景级损失和点级损失提高精简过程的效果。最后,作者在第4.3节中描述了ScoreLiDAR的优化流程。
4.1. Distillation for 3D LiDAR scene completion
理想情况下,最终的学生模型能够在更快的速度下实现与教师模型相媲美甚至更好的完成结果。在3D激光雷达场景完成场景中,设
为 GT 场景
的概率分布,
为预训练的场景完成扩散模型,其多步生成的概率分布近似于
。令
表示能够高效进行激光雷达场景完成的学生模型,并且使用生成概率分布
。ScoreLiDAR受到VSD [37]的启发,通过最小化教师模型的概率分布与学生模型生成概率分布之间的KL散度来优化 [37, 48]。
是在给定学生模型
条件
下生成的完整场景,为了简化表示,作者省略了
,而
是
的可训练参数。然而,
的高密度区域在数据空间中较为稀疏,直接求解方程 (7) 困难重重。Wang 等人 [37] 通过在不同噪声 Level
下最小化两个分布之间的 KL 散度来扩展方程 (7) 中的优化问题。
在这里,
是时间步,控制着噪声水平,
是随机噪声,而