LargeAD：用于自动驾驶的大规模跨传感器数据预训练

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-16 00:06

正文

25年1月来自新加坡国立大学、南京航空航天、德国Bremerhaven技术大学、上海AI实验室、香港科技大学和香港大学的论文“LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving”。

视觉基础模型 (VFM) 的最新进展彻底改变 2D 视觉感知，但它们在 3D 场景理解方面的潜力，特别是在自动驾驶应用中的潜力仍未得到充分探索。 LargeAD ，是一个多功能且可扩展的框架，专为跨各种现实世界驾驶数据集进行大规模 3D 预训练而设计。利用 VFM 从 2D 图像中提取语义丰富的超像素，这些超像素与 LiDAR 点云对齐以生成高质量的对比样本。这种对齐有利于跨模态表示学习，增强二维和三维数据之间的语义一致性。引入几项技术：i）VFM 驱动的超像素生成，用于详细的语义表示；ii）VFM 辅助的对比学习策略，用于对齐多模态特征；iii）superpoint时间一致性，以保持跨时间的稳定表示；iv）多源数据预训练可以推广至各种 LiDAR 配置。该方法在基于 LiDAR 分割和目标检测的线性探测和微调任务中，有显著的性能提升。在 11 个大规模多模态数据集上进行的大量实验，展示在现实世界自动驾驶场景中的适应性、效率和稳健性。

如图所示比较 i）传统的图像-到-LiDAR 数据预训练框架[9]，[27]，[28] 和 ii）大规模跨传感器数据预训练（LargeAD）。本文方法结合异构数据源进行表征学习，实现卓越的鲁棒性和可扩展性。与以前的工作不同，该框架鼓励跨不同数据集的表征学习，这极大地增强泛化性。

大语言模型 (LLM) [1]、[2]、[3]、[4]、[5] 的出现彻底改变自然语言处理，为通过视觉基础模型 (VFM) 在计算机视觉领域取得类似突破铺平道路，例如 SAM [6]、 X-Decoder [7] 和 SEEM [8]。这些模型已证明具有从二维图像中提取丰富的像素级语义的卓越能力。然而，将这些进步扩展到 3D 领域仍然是一个尚未探索的领域。随着自动驾驶应用越来越依赖于来自 LiDAR 传感器的 3D 数据，将 2D 视觉中的 VFM 的成功转移到 3D 场景理解的需求也越来越大 [9]，[10]。

准确分割和检测 LiDAR 点云，对于安全的自动驾驶和高级驾驶辅助系统至关重要 [11]，[12]，[13]，[14]，[15]。传统的 LiDAR 点云模型通常依赖于大型带注释的数据集，而创建这些数据集的成本高昂且耗时 [16]，[17]。为了缓解这一挑战，研究探索半监督[18]，[19]和弱监督[17]，[20]方法。然而，这些方法的通用性有限，特别是在面对不同的传感器配置时，例如不同的 LiDAR 光束数量、摄像机位置、采样率和潜在的传感器损坏[11]，[21]，[22]，[23]， [24]，[25]。这一限制对现实世界的可扩展性提出重大挑战。

基于 LiDAR 的场景理解

对于自动驾驶汽车来说，准确、密集的 3D 感知对于安全导航至关重要 [12]，[30]。研究人员已经开发各种点云分割方法，包括基于原始点的方法[31]，[32]，[33]，[34]，[35]，距离视图[36]，[37]，[38]， [39], [40], [41], [42], 鸟瞰图 [43], [44], 体素 [45], [46], [47], [48], [49], 以及多视图融合 [50], [51], [52], [53], [54], [55]。尽管取得重大进展，但这些模型通常依赖于大量注释的数据集，从而带来可扩展性问题 [21]。为了减轻标注负担，最近的研究探索半监督[18]、[19]、[56]、弱监督[17]、[20]、[57]、[58]、[59]和主动学习[60]，[61]，[62]方法，以及域自适应技术[63]，[64]，[65]，[66]，[67]，[68]。这项工作采用一种自监督学习策略，通过摄像机到激光雷达的关联从 VFM 中提取知识，从而无需在预训练期间进行手动注释。

视觉基础模型

视觉基础模型 (VFM) 的发展改变计算机视觉领域，该模型利用大量训练数据 [6]、[69] 和复杂的自监督学习技术 [70]、[71]。其中，SAM 模型 [6] 为通用图像分割树立新的标杆，在一系列下游任务中展现出令人印象深刻的零样本传输能力。其他著名的 VFM，如 X-Decoder [7]、 OpenSeeD [26]、 SegGPT [72] 和 SEEM [8]，进一步证明这些模型在处理各种图像相关任务方面的多功能性。这项工作将 VFM 的使用扩展到点云学习领域，利用其语义理解来增强 3D 表示学习中的空间和时间线索。

3D 表征学习

3D 自监督学习源于基于图像的技术，通常侧重于以目标为中心的点云 [73]、[74]、[75]、[76]、[77] 或室内场景 [78]、[79 ]，[80]，[81]，[82]使用借口（pretext）任务[83]，[84]，[85]，[86]，[87]，对比学习[88]，[89]，[90]， [91]，[92]，[93]，[94]，或掩码建模[95]，[96]，[97]，[98]。这些方法通常缺乏户外驾驶场景必要的规模和多样性[99]，[100]，[101]。

PointContrast [102]、 DepthContrast [103]和 SegContrast [104]等研究已经为小规模点云提出对比目标。最近，Sautier [27] 提出 SLidR ，这是第一种在大规模点云上进行跨模态自监督学习的图像-到-LiDAR 表征提炼的方法。 Mahmoud [28] 通过语义容忍的对比约束和类平衡损失进一步完善这种方法。 SuperFlow [105] 引入时空一致性框架，以有效捕捉跨多个时间步的动态线索。

多数据集利用

利用多个数据集已经成为提高基于 LiDAR 自动驾驶模型泛化能力的一种有前途的方法 [106]。 MDT3D[107]和MS3D++[108]等最近的研究探索 3D 目标检测的多源训练，同时解决标签空间冲突等挑战。类似地，COLA[109]和M3Net[110]等方法利用统一的标签空间进行语义分割，展示多数据集学习的优势。

本文提出的LargeAD框架，一个核心创新是使用 VFM 从相机图像中生成语义丰富的超像素，然后将其与 LiDAR 数据对齐以构建高质量的对比样本。这些语义超像素提供增强的 2D-3D 对应关系，可捕捉目标级连贯性，从而减少对比学习中通常与过分割和“自我冲突”相关的错误 [9]。这种对齐显著提高下游任务的性能，包括 3D 目标检测和分割。

如图所示：图像-到-激光雷达的数据预训练，采用 i）启发式 SLIC 算法[29]；ii）不同的视觉基础模型（VFM）。

定义一个点云 P = { p /i, e /i | i = 1,...,N} 由 LiDAR 传感器收集的 N 个点组成。每个点 p /i 表示 3D 坐标，而 e /i 表示其特征嵌入，例如强度、伸长率等。这项工作旨在从一组环视图像 I ={ I /i | i=1, ...,V}，由总共 V 个同步 RGB 相机捕获到点云 P。每个图像 I 具有由高度 H 和宽度 W 定义的空间分辨率。

早期的方法，如PPKT[114]，通过对比学习将图像像素与相应的LiDAR点对齐。然而，PPKT[114]在应用于稀疏点云数据时往往会面临一些限制，例如由于视点差异导致的错位、局部语义建模不充分、密集和稀疏区域权重不平衡、以及对假负性的处理不佳。虽然它在密集区域（例如车辆附近）表现良好，但其有效性在稀疏区域显着下降，限制其整体泛化。

为了克服这些问题， SLidR [27] 引入一种超像素驱动的蒸馏方法，使用 SLIC 算法 [29] 将相似的像素分组为连贯的超像素。通过对图像中的超像素和 LiDAR 数据中的 superpoint 进行对比学习，SLidR 减少从传感器视点来看的对齐误差并增强局部语义一致性。在超像素和super-point级别聚合特征解决 PPKT [114] 中存在的权重不平衡问题，确保更好地处理密集区域和稀疏区域。此外，在更大区域进行对比学习有助于减少假负性，从而实现更为稳健的图像-到-激光雷达知识迁移。

令 F/θ/p 表示具有可训练参数 θ/p 的 LiDAR 点云编码器，其处理点云 P 并为每个点输出一个 C 维特征。另外，设 G/θ/i 为一个参数为θ/i的图像编码器，由二维自变量初始化监督预训练模型。为了计算超像素驱动对比损失，构建可训练投影头部 H/ω/p 和 H/ω/i 映射 3D 点特征，将二维图像特征放入同一个 D 维嵌入空间。点投影头 H/ω/p 是一个线性层，后面跟着 l2-归一化。图像投影头 H/ω/i 由一个具有 1×1 核的卷积层，后面跟着一个空间维度上的固定双线性插值层，以及具有 l2 正则化的输出组成。

目标是将 2D 网络的知识提炼成 3D 网络，确保每个语义 superpoint 特征与其对应的语义超像素特征紧密相关。具体来说，超像素 Φ/S 和 superpoint Φ/O 分别用于对像素和点嵌入特征进行分组。对分组的像素和点嵌入应用平均池化操作，得到超像素嵌入特征 Q 和 superpoint 嵌入特征 K。在训练中采取定义的对比损失。

如图所示：VFM 驱动的图像-到-LiDAR 对比学习框架概述。给定一对在时间戳 t 捕获的 LiDAR 点云 P/t 和相机图像 I/t，以及在时间戳 t + n 捕获的另一个 LiDAR 点云 P/t+n，用视觉基础模型 (VFM) 生成语义超像素。通过将图像像素投影到点云上得到相应的superpoint。建立两个关键目标：i）配对 LiDAR 和相机特征之间的空间对比学习；ii）P/t 和 P/t+n 的点段之间时间一致性正则化。

先前的研究利用 SLIC [29] 将视觉上相似的图像区域分组为超像素。然而，SLIC 通常会过分割语义连贯的区域，这给对比学习带来挑战，特别是由于“自我冲突”现象。当语义相似的超像素被错误地视为负样本时，就会发生这种情况[115]。虽然 [28] 引入语义容忍损失来解决这个问题，但是 SLIC 缺乏高级语义理解，加剧对比学习的困难。为了克服这些挑战，使用视觉基础模型 (VFM) 生成语义超像素，它提供语义丰富的超像素并显著改善 LiDAR 点云中近点和远点的表征学习。

该方法不依赖于低级 RGB 特征，而是利用来自大规模预训练图像编码器的 VFM 来增强超像素的生成 [6]，[7]，[8]，[26]。与 SLIC 不同，VFM 捕获高级语义信息，能够创建更具语义意义的超像素集 ^Φ/S = {{s/mv | mv = 1，...，M/v} | M/v ≪ M}。生成过程始于通过提示创建语义掩码。通过结合更多抽象特征，VFM 可以更连贯地对语义相似的区域进行分组，从而有效地解决“自我冲突”问题，降低对比学习过程中错误分类的风险。因此，生成的超像素更准确地表示目标语义而不仅仅是视觉相似性。相应的 superpoint 集，Φ/O = {{o/mv | m / v = 1，...，m / v} | M/v ≪ M} 确保2D图像特征和3D LiDAR点特征之间正确对齐。

VFM 辅助超像素有两个主要目的：首先，它们增强生成的超像素语义丰富性；其次，它们改善 2D 图像特征和 3D LiDAR 点云之间的对齐。通过利用 VFM 提供的高级语义特征，该方法有效地解决基于低级 RGB 特征传统方法中经常出现的错位和特征不一致等问题。超像素和 superpoint 之间增强的语义一致性减少对比学习中假负性的发生。因此，改进的特征对齐，确保超像素及其对应的 superpoint 更准确地反映底层目标语义，最终在 3D 目标检测和分割等任务中获得更好的性能。

基于 VFM 生成的语义超像素，引入一个利用这些高级视觉特征的 VFM 辅助对比学习框架。主要目标是在统一的语义空间中将超像素与 superpoint 对齐，确保在训练期间将不同模态中的相应区域视为正对。通过结合 VFM，该框架提高图像和 LiDAR 点云之间的语义一致性，解决早期方法中经常遇到的对齐难题。这种方法增强特征对应性，同时减少与视点变化和跨模式差异相关的问题。

为了实现该框架，用与前面描述的可训练 LiDAR 点云编码器 F/θ/p 和冻结图像编码器 G/θ/i，分别从 LiDAR 点云和 2D 图像中提取特征。对于对比损失，采用投影头 H/ω/p 和 H/ω/i，将点和图像特征投影到共享的 D 维嵌入空间中。与 SLIC 生成的低级线索不同，VFM 产生的超像素富含语义信息，从而产生更连贯、更有意义的表示。

为了计算 VFM 辅助对比损失，将平均池化应用于由超像素集 Φ/S 和相应 superpoint集 Φ/O 分组的像素和点嵌入。这个过程产生超像素嵌入^Q 和 superpoint 嵌入^K。由此，可以计算一个VFM 辅助的对比损失。

在实际部署中，完美同步的 LiDAR 和摄像头数据通常不切实际，从而限制可扩展性。为了解决这个问题，依靠点云的精确几何信息来减轻同步限制。

隐式几何聚类。首先使用 RANSAC 算法 [116] 从时间戳 t 处的 LiDAR 点云 P/t 中去除地面点并选择非地面点 G/t。然后，在 HDBSCAN 算法 [117] 的帮助下将 G/t 分组为 M/k 个段，K^t = {K^t/1, ..., K^t/M/k}。为了映射不同时间戳之间的片段视图，将 LiDAR 帧转换为全局坐标帧，然后将它们聚合起来。这给出聚合点云 ~P = {~P^t, ..., ~P^t+n}。类似地，用 RANSAC [116] 从 ~P 生成非地面平面 ~G = {~G^t , ..., ~G^t+n }。按照与单次扫描相同的方式，将~G 分组以获得 M/k 个段 ~K = {~K/1, ..., ~K/M/k }。为了生成 n 个连续时间戳的所有 n + 1 次扫描片段掩码，即 ~K = {~K^t , ..., ~K^t+n }，维护聚合点云 ~P 到 n + 1 次单独扫描的的点索引映射。

Superpoint 时间一致性。利用聚类段来计算相关语义 superpoint 之间的时间一致性损失。具体来说，给定一个采样时间对 ~P^t 和 ~P^t+1 及其对应的片段掩码 ~K^t 和 ~K^t+1 ，从中计算逐点特征 ~F^t 和 ~F^t+1 点投影头H/ω/p。对于目标嵌入，将点特征～F^t 和～F^t+1 按掩码段 ~K^t 和 ~K^t+1 分成 M/k 组。然后，对 ~F^t+1 应用平均池化操作，得到 M/k 个目标均值特征向量 ~F^t+1 = {~F^t+1/1, ~F^t+1/2, ...，~F^t+1/M/k}。令分割点特征 ~F^t 为 ~F^t = {~F^t/1, ~F^t/2, ..., ~F^t/M/k}，k 为对应线段中的点。计算时间一致性损失 L^t→t+1，以最小化当前帧（时间戳 t）中的点特征与下一帧（时间戳 t + 1）中相应片段均值特征之间的差异。

由于当前帧中一个段内所有点的目标嵌入用作下一帧的平均段表征，因此这种损失将迫使一个段的点收敛到平均表示，同时与其他段分离，隐式地将来自同一个实例。如图提供对比学习框架中的正特征对应关系。此外，在生成目标均值嵌入特征时交换～F^t 以形成对称表征。这样，从 t → t+1 和 t + 1 → t 两个方向都鼓励对应，从而得到以下优化目标：L^tmp = L^t→t+1 + L^t+1→t。

LargeAD：用于自动驾驶的大规模跨传感器数据预训练

正文

请到「今天看啥」查看全文