专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

自动驾驶中的无监督 BEV 映射:利用时空一致性与新颖编码策略 !

智驾实验室  · 公众号  ·  · 2024-08-24 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

鸟瞰图(BEV)提供了丰富的表示,具有对自动驾驶中各种决策任务强大的遮挡推理能力。然而,大多数BEV映射方法采用了完全监督的学习范式,这依赖于大量人工标注的BEV GT 数据。

在这项工作中,作者通过提出第一种无监督表示学习方法来解决这一局限性,该方法能够从单目正视图(FV)图像中以标签高效的方式生成语义BEV地图。

作者的方法通过无监督的方式独立地使用两个不相连的神经路径推理场景几何和场景语义,并在此基础上使用只有BEV中一小部分标签对网络进行微调,以执行语义BEV映射任务。

作者通过利用FV图像的空间和时间一致性来实现无标签预训练来学习场景几何,同时依靠一种新颖的时间 Mask 自动编码器公式来编码场景表示。

在KITTI-360和nuScenes数据集上的广泛评估表明,作者的方法在使用仅有1%的BEV标签且不使用任何额外标注数据的情况下,性能与现有最先进的方法相当。

1 Introduction

语义鸟瞰图(BEV)对于自动驾驶至关重要,因为它们为高度不可知的应用提供了丰富、考虑遮挡的信息,包括目标跟踪、避障和运动控制。不依赖大量标注数据的即时BEV地图估计对于在全新领域快速部署自动驾驶车辆至关重要。

然而,目前大多数现有的BEV映射方法遵循完全监督的学习范式,因此依赖于大量BEV中的标注数据,这极其难以获取,阻碍了自动驾驶车辆在新环境中的可扩展性。

最近的一些研究通过利用前视图(FV)语义标签来学习场景几何并生成BEV伪标签[9],或者通过利用标记和 未标注 样本对的半监督学习[7]来规避这个问题。然而,这两种方法对FV标签的依赖以及集成网络设计引起了三个主要挑战:

(1) FV标签仅沿类别边界提供场景几何监督,这限制了模型的几何推理能力;

(2) FV标签是特定数据集的,任何类别定义的改变都需要完全重新训练模型;

(3) 紧密耦合的网络设计阻碍了从文献中快速采用最新的进展。

图1:LetsMap:首个用于高效标签语义BEV映射的无监督框架。作者在无监督的预训练步骤中独立使用RGB图像序列来学习场景几何(黄色)和场景表示(蓝色),然后在高效标签微调步骤中将其适应于语义BEV映射。

在这项工作中,作者通过提出首个无监督表示学习框架来解决这些限制,该框架可以从单目FV图像以高效标签的方式预测语义BEV地图。作者的方法,即LetsMap,利用FV图像序列提供的时空一致性和密集表示,减轻了对手动标注数据的需求。为此,作者将语义BEV映射的两个子任务,即场景几何建模和场景表示学习,解耦为两个不相关的神经路径(图1),并通过无监督的预训练步骤来学习它们。

然后作者使用BEV中只有一小部分标签来对结果模型进行语义BEV映射的微调。LetsMap通过利用隐式场明确地学习通过几何路径建模场景几何,同时通过一个新颖的时序 Mask 自动编码器(T-MAE)机制通过语义路径学习场景表示。

在预训练过程中,作者通过利用跨多个时间步骤的多摄像头FV图像的空间和时序一致性来监督几何路径,并通过仅使用当前时间步的 Mask 图像来强制重建当前和未来时间步骤的FV图像来训练语义路径。作者在KITTI-360[21]和nuScenes[2]数据集上广泛评估了LetsMap,并证明作者的方法在只使用1%的BEV标签的情况下,与现有的完全监督和自监督方法表现相当,而不依赖任何额外的标注数据。

2 相关工作

在本节中,作者讨论了关于语义鸟瞰图映射、从单目相机进行场景几何估计以及基于图像的场景表示学习的现有工作。

鸟瞰图分割 :单目语义鸟瞰图映射方法通常专注于学习一种提升机制,将特征从俯视图(FV)转换为鸟瞰图(BEV)。VED [23] 和 VPN [28] 的早期工作在不使用场景几何的情况下学习转换,这在现实世界中限制了它们的性能。PON [30] 通过将场景几何融入网络设计中解决了这个问题,而 LSS [29] 学习一个深度分布,将特征从 FV 转换到 BEV。PanopticBEV 将世界分为 平坦 非平坦 区域,并使用两个不相连的通路将它们转换为 BEV。最近的方法使用 Transformer 从单幅图像 [31] 和多视角图像 [37] 生成 BEV 特征。一些研究还使用多模态数据来增强单目相机 [20, 22, 11, 32]。所有上述方法遵循完全监督的学习范式,依赖于大量耗资源的、人工标注的语义 BEV 标签。最近的工作通过在半监督方式下结合标注和未标注图像 [7],或者利用 FV 标签生成 BEV 伪标签并以自监督方式训练网络 [9],减少了对 BEV  GT 标签的依赖。然而,这些方法依赖于额外的标注数据,或者使用紧密耦合的网络设计,这限制了它们在新环境中的扩展能力或融入文献中的最新进展。在本文中,作者提出了一种新颖的、无监督的、标签高效的方法,首先以模块化、无标签的方式学习场景几何和场景表示,然后使用少量 BEV 语义标签适应语义 BEV 映射。

单目场景几何估计 :场景几何估计是计算机视觉的一个基本挑战,是三维场景重建的核心组成部分。初始方法使用多视图立体 [6] 和视觉SLAM [1, 35] 等技术,而最近的方法利用可学习函数,形式如射线距离函数 [18] 或隐式神经场 [25]。基于早期神经辐射场的方 法在单个场景上进行优化,并依赖于大量的训练数据 [25]。PixelNeRF [38] 通过将 NeRF 条件化于输入图像上,解决了这些问题,使得可以同时跨不同场景进行优化。最近的工作通过将颜色与场景密度估计解耦 [36],并使用三平面表示从任何世界点 Query 神经场 [17],改进了 PixelNeRF。在作者的方法中,作者利用隐式场从单幅单目 FV 图像生成体密度,以约束从统一提升的2D场景表示特征。

场景表示学习 :早期工作使用了如图像排列,旋转预测,噪声判别[14]和帧排序[19]等方法来学习场景表示;这些方法较为原始,缺乏在多样化任务中的泛化能力。[5, 13]提出了使用对比学习来学习场景表示,[3]在此基础上通过在训练过程中去除对负样本的需求来改进这一范式。近期研究提出了 Mask 自动编码器[12],其中网络通过学习对场景的高级理解来预测被 Mask 的输入图像块。更近一些,基础模型如DINO 和DINOv2 在大量精选数据上使用自蒸馏来学习丰富的场景表示。然而,所有这些方法都基于单时间步的图像,未能利用多个时间步之间的场景一致性。在这项工作中,作者通过提出一种新颖的时序 Mask 自动编码策略,显式地强制多个时间步之间的场景一致性,以学习丰富的场景表示。

3 Technical Approach

图2:LetsMap的概述,作者新颖的无监督表示学习框架,用于高效的标签语义BEV映射。作者方法的关键在于利用FV图像序列独立地建模场景几何,并遵循无监督训练范式学习场景表示的两个独立路径。然后,在少量BEV标签上对得到的模型进行微调,以执行语义BEV映射任务。

在本节中,作者介绍了LetsMap的概述,这是第一个使用标签高效训练范式从单目FV图像预测语义BEV地图的无监督学习框架。作者框架的概述如图2所示。作者方法的核心思想是利用多摄像头FV图像序列,在无标签范式下通过两个独立的神经路径学习语义BEV映射的两个核心子任务,即场景几何建模和场景表示学习,然后在标签高效的方式下将其适应于下游任务。作者通过将训练协议分为顺序的FV预训练和BEV微调阶段来实现这一目标行为。FV预训练阶段通过在多个视图上使用光度损失( ,第3.2节)强制场景一致性来显式地建模场景几何,同时通过在多个时间步上重构 Mask 的输入图像来学习场景表示,使用重建损失( ,第3.3节)。预训练阶段完成后,微调阶段使用少量可用的BEV标签上的交叉熵损失( ,第3.4节)将网络适应于语义BEV映射任务。因此,网络的总体损失计算如下:

请注意,公式中的 可能是打字错误,应为

Network Architecture

作者提出的LetsMap架构,如图2所示,包括一个预训练的DINOv2 [27](ViT-b)主干网络,用于从输入图像生成多尺度特征;一个由基于卷积的 Adapter 组成的几何路径,后面跟着一个隐式神经场来预测场景几何;一个包括基于稀疏卷积的 Adapter 的语义路径,用于捕捉特定表示的特征;一个RGB重建头,用于在多个时间步上重建被 Mask 的输入图像块;以及一个BEV语义头,在微调阶段从输入的单目FV图像生成语义BEV地图。

在预训练期间,输入图像 通过主干网络处理,生成三个尺度的特征图。几何路径 使用BiFPN [33]层和隐式场模块处理这些多尺度特征,以在当前时间步生成场景的体积密度。在并行的分支中, Mask 模块首先随机 Mask 中的非重叠块,然后主干网络处理可见块以生成相应的图像特征。语义路径 然后使用一个五层 Adapter 生成表示特定特征,确保使用在 [34] 中概述的卷积 Mask 策略传播 Mask 区域。然后作者使用相机投影方程统一将结果2D特征提升到3D,并将其与从 计算的体积密度相乘,以生成场景一致的 Voxel 特征。作者使用自我运动将 Voxel 网格变换到多个时间步,然后沿着深度维度应用相机投影方程将其塌陷到2D。RGB重建头随后预测每个 Mask 块的像素值,以在不同时间步重建图像。在微调期间,作者禁用图像 Mask ,并沿着高度维度正交塌陷 Voxel 特征以生成BEV特征。BEV语义头处理这些特征以生成语义BEV预测。

Geometric Pathway

几何路径 的目标是仅使用自主车辆上相机获取的时空图像,以无标签的方式明确地建模场景几何。显式场景几何建模使网络能够推理场景中的遮挡和解除遮挡,从而提高下游任务预测的质量。为此,作者设计了一个场景几何学习的任务,使用隐式场公式化,其主要目标是给定一个单目FV图像,估计场景在相机坐标系中的体积密度,如图2(a)所示。作者将估计的体积密度与统一提升的语义特征相乘,生成几何一致的语义特征(见第3.3节)。

作者通过遵循[38]中概述的基于图像条件的NeRF思想来生成场景的体积密度。首先,作者通过将随机采样点 沿每条相机光线投影到2D图像平面上,并使用双线性插值计算每个投影位置的价值,来检索图像特征 。然后,作者将图像特征及其位置编码传递给两层MLP ,以估计每个采样位置的体积密度 。从数学上讲,位置 处的体积密度计算如下:

其中 表示使用 在图像平面上的2D投影 及其从相机原点距离 计算的正弦位置编码。

图3:(a) 作者神经隐式场模块的说明。它利用多相机图像提供的时空一致性来建模场景几何。(b) 作者无监督预训练步骤中的FV预测。FV图像(左上)被几何路径处理以生成场的体积密度,该体积密度通过光线投射生成深度图(右上)。同时,被 Mask 的FV图像(左下)被语义路径处理以重建被 Mask 的图像(右下)。

在训练过程中,作者通过先从 计算深度图,然后计算当前及未来时间步中多视角FV图像之间的光度损失来优化 。具体来说,对于通过像素位置 的相机射线,作者通过计算给定距离处射线终止概率的中间深度的积分来估计相应的深度 。因此,作者在每条相机射线上采样 个点, ,并在这些位置计算 。然后作者计算每对连续点( )之间的射线终止概率 ,以确定射线的终止距离,即深度 。从数学上讲,

其中 距相机中心的距离, 。从 输出的深度图如图2(b)所示。作者使用计算出的深度图来监督几何路径 ,使用逆变换和前向变换生成的RGB图像之间的光度损失。逆变换描述如下:

其中 是内在相机矩阵, 表示双线性采样算子, 是源图像中的像素坐标。类似地,前向变换描述如下:

作者通过仅对每一步的前向和反向光度损失计算像素级的最小值,来减少遮挡和在不同时间步之间的去遮挡对整体光度损失的影响。然后,光度损失计算如下:

Semantic Pathway

语义通路 旨在以无标签的方式促进各种场景元素的整体特征表示的学习。这种丰富的预训练表示使得在微调期间能够有效地适应语义类别。为此,作者通过 Mask 输入图像中的随机图像块来学习场景元素的特征表示,然后强制网络为每个 Mask 块生成像素级的预测(图2(b))。此外,作者还利用场景中静态元素的时间一致性,通过使用时间步







请到「今天看啥」查看全文