鸟瞰图(BEV)地图布局估计需要对周围环境中自车的语义元素有准确的全面理解,使结果具有连贯性和现实性。
由于遮挡、不利的成像条件和低分辨率带来的挑战,从视角视图(PV)中生成对应于破损或无效区域的BEV语义图(BEV semantic maps)变得非常具有吸引力。问题是如何将PV特征与生成模型对齐,以便于地图估计。
在本文中,作者提出了一种类似于向量量化变分自动编码器(VQ-VAE)的生成模型,用于在分词离散空间中获取高级BEV语义的先验知识。
得益于与真实世界地图中的不同BEV元素(包括语义)的代码本(codebook)嵌入所伴随的BEV Token 以及基于专用 Token 解码模块的离散表示学习,作者能够直接将稀疏 Backbone 图像特征与从离散表示学习获得的BEV Token 对齐,并最终利用BEV代码本嵌入作为PV和BEV之间的桥梁,生成高质量的BEV地图。
作者在nuScenes和Argoverse基准测试上评估作者称为VQ-Map的BEV地图布局估计性能,在nuScenes的环绕视图/单目评估上,平均IoU达到62.2/47.6,在Argoverse的单目评估上,IoU达到73.4,均创下了新的记录。
代码和模型在https://github.com/Zlzyw/VQ-Map上可用。
1 Introduction
BEV布局代表高维结构化数据,其中包含了大量先验知识,特别是在道路结构方面。当前用于估计BEV地图布局的方法主要关注为语义分割(地图预测)构建密集BEV特征[2; 1; 3],往往忽视了将地图先验知识融入其中。此外,深度估计中的遮挡和固有挑战往往导致密集特征的不准确,特别是在PV中的损坏或无效区域。这些因素导致了BEV布局结果的不连贯和不现实,通常伴随着许多人工制品(见图1)。然而,人类可以通过在PV中对场景的有限观察来想象整个连贯的BEV布局元素。模拟人类想象力过程的自然方法是利用生成模型从真实BEV地图布局中学习先验知识。然而,问题在于如何将PV特征与生成模型对齐,以便促进BEV地图估计。
为此,作者提出了一种新颖的 Pipeline 称为VQ-Map(见图2),它以离散 Token 的精神将生成模型对齐。具体来说,VQ-Map使用类似于VQ-VAE[4]的生成模型将真实BEV语义图编码为 Token 化、离散和稀疏BEV表示,称为BEV Token ,并伴有离散嵌入空间(即代码书嵌入)。每个BEV Token 是编码BEV Patch 特征的代码书嵌入中的最近邻索引,代表了一个BEV Patch 的高层语义。BEV Token 作为新的分类标签,通过作者 Pipeline 中专门的分词解码器直接监督PV特征学习。
生成模型和 Token 解码模块的训练是分开的。通过与稀疏BEV Token 对齐,作者的 Token 解码模块仅依赖于使用任意 Transformer 架构 Query 的 Token Query 直接预测BEV Token 。同时,直接使用这些稀疏特征进行 Token 预测绕过了在常见实践中构建准确密集BEV特征的挑战。
通过使用现成的代码书嵌入将预测 Token 集成到BEV嵌入中,可以生成最终的高质量BEV语义图。这个过程类似于人类大脑的记忆机制[8],其中目标(BEV地图布局)被编码为高度抽象的稀疏表示(BEV嵌入)通过可以被特定视觉信号(基于 Token Query )激活的记忆神经元(BEV Token )。
作者在绕视图和单目地图估计任务上评估了作者提出的VQ-Map,作者的方法在这两个任务上都创造了新的记录,在nuScenes [9]上的绕视图/单目评价上实现了62.2/47.6的平均IoU,以及在Argoverse [10]上的单目评价上实现了73.4的IoU。
总之,作者的贡献如下:
(1)
作者提出了一种新颖的流水线
VQ-Map
,该流水线探索了离散的代码书嵌入,用于生成高质量的BEV语义图布局。获取的先验知识随后有助于有效地将稀疏 Backbone 图像特征与基于专用 Token 解码器的生成模型对齐,从而实现更准确的BEV图布局估计。
(2)
通过将地图估计建模为感知与生成的对齐,作者实现的BEV词表嵌入充当了PV和BEV之间的桥梁,可以作为现成的工具使用。
(3)
大量实验表明,作者的VQ-Map在基于相机的BEV语义分割上建立了新的最先进性能。同时,作者确认,作为PV-BEV对齐方法, Token 分类比值回归更有效。
相关工作
BEV地图布局估计。大多数现有方法将BEV地图布局估计视为BEV帧中的语义分割任务,其中地图元素被像素化并分配多个类标签。作为这种技术的先驱,LSS [3] 明确预测图像特征上的离散深度分布,然后将这些2D特征“提升”到伪3D特征,并通过池化操作将其转换为BEV特征。在此基础上,BEVFusion [1] 引入了激光点云并实现了多传感器融合,在统一的BEV空间中保持语义和几何信息。其他方法,如VectorMapNet [12]和HIMap [15],通过引入矢量化先验地图来解决布局问题。此外,TaDe [16] 利用任务分解策略来提高单目BEV语义分割性能。
最近,一些方法利用生成模型技术来提高BEV地图布局估计的性能。MapPrior[17]采用基于VQ-GAN[18]架构的生成地图先验来捕获基于传统判别模型的交通场景的详细结构,实现精确度、真实性和不确定性 Aware 的统一优势。此外,DDP[19]和DiffBEV[20]关注将去噪扩散过程[21]集成到当代感知框架中,表现出卓越性能。
上述提到的两项工作MapPrior [17]和TaDe [16]均通过两个阶段来处理BEV地图分割任务:感知阶段和生成阶段,这与作者的工作相关。然而,MapPrior通过推导复杂的BEV变量与生成模型相匹配,这些变量受到获取准确密集BEV特征的挑战。至于TaDe,基于极坐标反投影的BEV GT 地图训练生成模型会导致传统BEV地图中嵌入的一些先验知识丢失,使其容易产生误差。相比之下,作者的方法将生成模型与分词离散表示相匹配,这些表示更有意义且更容易预测,同时保留BEV地图的先验知识。
离散表示的
分词离散表示
。VQ-VAE [4] 创新性地利用代码书机制在分词离散潜在空间中建立编码器-解码器架构,捕捉和表示更丰富、更复杂的数据分布。遵循这种方法,其他生成模型如 VQ-GAN [18],DALL-E [22] 和 VQ-Diffusion [23] 也将输入映射到对应于代码书条目的离散 Token 来表示高维数据。同时,一些视觉预训练工作 [24, 25] 使用 Token 来表示图像块,并把预测被遮挡的 Token 视为 Agent 任务。最近,UViM [26],Unified-IO [27] 和 AiT [28] 将各种输出编码为 Token ,并通过自回归建模 [29] 进行预测,模拟各种视觉任务。在本论文中,作者借鉴了上述工作,预测高质量的BEV图层布局的BEV Token 。
3 Methods
作者在此将作者的VQ-Map感知框架如图2所示进行概括。首先,作者创建了离散表示,以包含 GT 地图中不同BEV元素的较高层次BEV语义,作为地图生成的先验知识(即,代码书嵌入)。其次,作者使用专门设计的 Token 解码模块进行PV-BEV对齐训练,以预测与相应 GT 地图相关的BEV Token 。最后,作者将随需使用的代码书嵌入与地图生成解码器与PV-BEV对齐模块直接结合,以预测BEV地图布局。
Discrete Representation Learning for BEV Generation
类似于一些视觉预训练方法[24, 25],作者将离散表示学习任务化为BEV图重建,通过一系列离散 Token 来获取高层BEV语义的先验知识。作者通过使用VQ-VAE架构[4]来获取分治离散空间,该架构包括三个模块:BEV Patch Embedding
, 向量量化
和BEV图生成解码器
。简言之,
将局部BEV语义 Patch 转换为更抽象的高层语义;然后,
将来自 Patch 嵌入的语义聚类为离散表示;最后,
用于利用这些离散表示来重建相应的真实地图。
BEV Patch Embedding
.
基于BEV的语义图与原始图像(包含复杂场景)存在显著差异。它们天然地表示由人类标注的高层语义,从而无需使用庞大的编码器聚合大量特征。具体而言,作者首先将真实场景的BEV图
划分为一系列非重叠的BEV块
,其中
,
为块大小,
为真实图形的布局数量,
为块数。作者的块嵌入
简单,旨在从单个块
中抽象出高层语义
,其中
为嵌入维度。图3展示了一些BEV块图像,以可视化作者的离散表示学习。
向量量化
作者定义一个潜在嵌入空间
作为作者的码本嵌入,其中
表示离散潜在空间的表示的最大数量。作者进一步用集合
来表示。作者的向量量化
从卷积嵌入接收连续潜在向量
,并通过在码本中进行最近邻搜索,输出离散潜在向量
,称为BEV嵌入。这是计算为
在VQGAN的改进版本中[30],
表示用于基于余弦相似度的代码表查找的L2归一化。每个离散潜在值也可以用其在代码表中的索引表示为BEV Token :
BEV地图生成解码器
。作者将第
个 Query 向量
输入到作者的地图生成解码器
中。首先,作者将它们 Reshape 成一个网格格式,然后根据原始真实BEV地图重建原始 GT BEV地图。