专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
Excel之家ExcelHome  ·  一组常用Excel文本处理函数 ·  昨天  
完美Excel  ·  有了deepseek,还学VBA有啥用 ·  昨天  
田俊国讲坛  ·  【2月22-23日】心智突围工作坊第九期(北 ... ·  昨天  
Excel之家ExcelHome  ·  不会Excel公式?让DeepSeek给我们写 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

感知任务全面涨点!LargeAD:自动驾驶超强预训练来了(新加坡国立)

自动驾驶之心  · 公众号  ·  · 2025-01-20 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 新加坡国立大学最新工作—LargeAD! 自动驾驶超强预训练。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 自动驾驶 技术交流群

论文作者 | Lingdong Kong等

编辑 | 自动驾驶之心

论文链接:https://arxiv.org/pdf/2501.04005
项目链接:https://ldkong.com/LargeAD

写在前面 && 笔者理解

近期视觉基础模型(vision foundation models, VFMs)在2D视觉领域取得了显著进展,比如:SAM, X-Decoder, SEEM等等。这些模型在从2D图像中提取丰富的像素级语义方面表现出色。然而,将这些进步扩展到3D领域仍然是一个有待探索。

在本文中,作者提出了LargeAD,这是一个新颖且可扩展的框架,用于跨多种传感器的大规模3D预训练。将VFMs引入3D领域,以实现几个关键目标:i)使用原始点云作为输入,消除对昂贵标签的需求,ii)利用驾驶场景中的空间和时间线索进行稳健的表示学习,以及iii)确保对预训练数据之外的下游数据集的泛化能力。

这篇工作的关键创新可以总结如下:

  • VFM驱动的超像素生成 :通过VFMs从2D图像中生成语义丰富的超像素,这些超像素与LiDAR点云对齐,以构建高质量的对比样本,减少了对比学习中的“自我冲突”问题。
  • VFM辅助的对比学习策略 :对齐多模态特征,解决了图像和LiDAR特征之间的跨模态差异。
  • 超点时间一致性 :通过时间一致性机制增强点云表示的稳定性,减轻了LiDAR和相机传感器之间不完美同步的错误。
  • 多源数据预训练 :利用多种LiDAR数据集进行预训练,构建了一个能够适应不同传感器配置的通用模型,提高了模型的可扩展性。

相关工作

基于LiDAR的场景理解

对于自动驾驶车辆而言,准确且密集的3D感知对于安全导航至关重要。研究人员开发了各种点云分割方法,包括基于原始点、范围视图、鸟瞰图、体素以及多视图融合的方法。尽管取得了显著进展,但这些模型通常依赖于大量标注的数据集,这带来了可扩展性问题。为了减轻标注负担,最近的研究探索了半监督、弱监督以及主动学习方法,以及领域适应技术。本工作采用自监督学习策略,通过相机到LiDAR的关联从VFMs中提炼知识,从而在预训练期间消除了对手动标注的需求。

视觉基础模型

计算机视觉领域被开发出利用大量训练数据的视觉基础模型(VFMs)所改变以及复杂的自监督学习技术。其中,Segment Anything Model,即SAM,在通用图像分割方面树立了新的基准,在一系列下游任务中展示了令人印象深刻的零样本转移能力。其他值得注意的VFMs,如X-Decoder、OpenSeeD、SegGPT和SEEM,进一步展示了这些模型在处理多样化图像相关任务中的多功能性。本工作将VFMs的利用扩展到点云学习领域,利用它们的语义理解来增强3D表示学习中的空间和时间线索。

3D中的表示学习

3D自监督学习起源于基于图像的技术,通常侧重于以对象为中心的点云或室内场景,使用预训练任务、对比学习或掩码建模。这些方法通常缺乏户外驾驶场景所需的规模和多样性。如PointContrast、DepthContrast和SegContrast等努力开创了小规模点云的对比目标。最近,Sautier等人引入了SLidR,这是第一个在大规模点云上进行图像到LiDAR表示蒸馏的跨模态自监督学习方法。Mahmoud等人进一步完善了这种方法,引入了语义容忍的对比约束和类别平衡损失。SuperFlow引入了一个时空一致性框架,以高效地捕获多个时间步长的动态线索。作者的框架在SLidR的基础上,利用VFMs创建了一个更有效的跨模态对比目标。作者还引入了一个超点时间一致性正则化,以增强在多样化和动态的现实世界驾驶场景中的特征学习和稳健性。

图像到LiDAR数据预训练

问题表述

定义一个点云 ,由LiDAR传感器收集的 个点组成。每个点 表示3D坐标,而 表示其特征嵌入,例如强度、延伸率等。本工作旨在将知识从一组由 个同步的RGB相机捕获的环视图像 转移到点云 。每张图像 具有由高度 和宽度 定义的空间分辨率。鉴于LiDAR和相机传感器被假设为良好校准,每个LiDAR点 可以投影到图像平面上作为一个像素 ,使用以下坐标变换:

其中 表示相机内参矩阵,而 是从LiDAR到相机坐标系的转换矩阵。之前的工作使用无监督的SLIC算法将具有相似RGB属性的图像区域聚合成一组超像素,记为 。随后,使用式(1)推导出对应的超点集 。为了促进从图像到LiDAR域的知识转移,这些方法通常在超像素和超点的表示之间进行跨模态对比学习。

超像素驱动的对比学习

早期的方法,如PPKT,通过对比学习将图像像素与对应的LiDAR点对齐。然而,PPKT在应用于稀疏点云数据时,往往会遇到一些限制,例如由于视点差异导致的错位、局部语义建模不足、密集和稀疏区域的权重不平衡以及对假阴性的处理不佳。尽管它在密集区域(例如靠近车辆的地方)表现良好,但其在稀疏区域的有效性显著下降,限制了其整体泛化能力。为了克服这些问题,SLidR引入了一种使用SLIC算法将相似像素聚合成一致超像素的超像素驱动蒸馏方法。通过在图像中的超像素和LiDAR数据中的超点之间进行对比学习,SLidR减少了由于传感器视点导致的对齐错误,并增强了局部语义一致性。在超像素和超点级别聚合特征解决了PPKT中存在的权重不平衡问题,确保了对密集和稀疏区域的更好处理。此外,对比学习覆盖更大区域有助于减少假阴性,从而实现更稳健的图像到LiDAR知识转移。

对比学习目标

表示一个可训练参数为 的LiDAR点云编码器,它处理点云 并为每个点输出一个 维的特征。另外,设 是一个图像编码器,参数为 ,从2D自监督预训练模型中初始化。为了计算超像素驱动的对比损失,作者构建了可训练的投影头 ,将3D点特征和2D图像特征映射到相同的 维嵌入空间。点投影头 是一个线性层,后跟 -归一化。图像投影头 包含一个 卷积层,后跟一个固定双线性插值层,在空间维度上输出,并进行 -归一化。目标是将2D网络的知识蒸馏到3D网络中,确保每个语义超点特征与其对应的语义超像素特征紧密相关。具体来说,超像素 和超点 用于分别对像素和点嵌入特征进行分组。对分组后的像素和点嵌入应用平均池化操作,以获得超像素嵌入特征 和超点嵌入特征 。对比损失 定义如下:

其中 表示超点和超像素嵌入特征之间的标量积,衡量它们的相似性。 是一个温度参数,用于缩放相似性分数。

LARGEAD:一个可扩展、多功能且通用的框架

从基础模型生成超像素

以往的研究利用SLIC将视觉上相似的图像区域聚合成超像素。然而,SLIC往往会过度分割语义连贯的区域(见图2),这给对比学习带来了挑战,特别是由于“自我冲突”现象。当语义相似的超像素被错误地视为负样本时,就会出现这种情况。SLIC缺乏对高级语义的理解加剧了对比学习中的困难。为了克服这些挑战,作者使用视觉基础模型(VFM)生成语义超像素,这些超像素在语义上丰富,显著提高了对LiDAR点云中近点和远点的表示学习(见图5)。

与依赖低级RGB特征的方法不同,作者的方法通过利用从大规模预训练图像编码器派生的VFM来增强超像素生成。与SLIC不同,VFM捕获高级语义信息(如图2所示),使作者能够创建更具语义意义的超像素集,记为 。生成过程从通过提示创建语义掩码开始。通过引入更抽象的特征,VFM有效地通过更连贯地分组语义相似区域来解决“自我冲突”问题,减少了对比学习期间的误分类风险。因此,生成的超像素更准确地代表了对象语义,而不仅仅是视觉相似性。使用式(1),建立对应的超点集 ,确保2D图像特征和3D LiDAR点特征之间的正确对齐。作者的VFM辅助超像素有两个主要目的:首先,它们增强了生成的超像素的语义丰富性;其次,它们改进了2D图像特征与3D LiDAR点云之间的对齐。通过利用VFM提供的高级语义特征,作者的方法有效地解决了传统基于低级RGB特征的方法中经常出现的错位和特征不一致问题。

语义空间一致性学习

在上一节的基础上,作者引入了一个VFM辅助的对比学习框架,利用这些高级视觉特征。主要目标是在统一的语义空间中对齐超像素与超点,确保在训练期间不同模态中的对应区域被视为正对。为了实现这个框架,作者使用了前面描述的相同的可训练LiDAR点云编码器 和冻结的图像编码器 ,分别从LiDAR点云和2D图像中提取特征。对于对比损失,作者使用投影头 ,将点和图像特征投影到共享的 维嵌入空间中。与SLIC生成的低级线索不同,VFM产生的超像素富含语义信息,导致更具连贯性和意义的表示。为了计算VFM辅助的对比损失,作者对由超像素集 和对应的超点集 分组的像素和点嵌入应用平均池化。这个过程产生了超像素嵌入 和超点嵌入 。VFM辅助的对比损失 定义如下:

对比学习框架从VFM提供的丰富语义信息中收获很多。首先,这些语义增强的超像素有助于缓解现有方法中普遍存在的“自我冲突”问题。其次,由VFM生成的高质量对比样本形成了一个更具连贯性的优化景观,与无监督超像素生成方法相比,实现了更快的收敛。最后,使用VFM的超像素将嵌入长度从数百(SLIC)减少到数十,提高了计算效率并加速了整体训练过程。

实例超点时间一致性

在现实部署中,完美同步的LiDAR和相机数据通常是不切实际的,限制了可扩展性。为了解决这个问题,作者依赖点云的准确几何信息来减轻同步约束。

隐式几何聚类 。作者首先使用RANSAC算法从时间戳 的LiDAR点云 中移除地面平面点,选择非地面点 。然后,作者使用HDBSCAN算法将 分组为 个段, 。为了在不同时间戳之间映射段视图,作者将LiDAR帧转换为全局坐标系,然后进行聚合。这给出了聚合点云 。同样,作者使用RANSAC从 中生成非地面平面 。以相同的方式,作者对 进行分组以获得 个段 。为了为 个扫描在 个连续时间戳上生成段掩码,即 ,作者保持从聚合点云 个单独扫描的点索引映射。

超点时间一致性 。作者利用聚类段来计算相关语义超点之间的时间一致性损失。具体来说,给定采样的时间对 及其对应的段 ,作者从点投影头 计算点特征 。对于目标嵌入,作者根据段 将点特征 分成 组。然后,作者对 应用平均池化操作,以获得 个目标均值特征向量 ,其中 。设分割点特征 ,其中 是对应段中的点数。作者计算时间一致性损失 以最小化当前帧(时间戳 )中的点特征与下一帧(时间戳 )中对应段均值特征之间的差异,如下所示:

由于所有属于当前帧中一个段的点的目标嵌入都作为下一帧中对应段的均值表示,这个损失将迫使一个段中的点收敛到一个均值表示,同时与其他段分离,隐式地将来自同一实例的点聚类在一起。图4提供了作者对比学习框架中的正特征对应关系。此外,作者在生成目标均值嵌入特征时交换 ,形成对称表示。这样,对应关系从 都被鼓励,导致以下优化目标:

点到段正则化 。为了将属于同一实例的LiDAR点在时间戳







请到「今天看啥」查看全文