专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

PriorMapNet 利用Priors加强在线矢量化高清地图构建 !

智驾实验室  · 公众号  ·  · 2024-09-02 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

在自主驾驶后续的预测和规划任务中,在线矢量化高保真(HD)地图构建至关重要。在遵循MapTR范式的同时,近期的工作取得了引人瞩目的成就。

然而,主流方法中的参考点是随机初始化的,导致预测和GT之间的匹配不稳定。

为了解决这个问题,作者提出了PriorMapNet,以增强在线矢量化HD地图构建的先验性。

作者提出了PPS-Decoder,为参考点提供位置和结构先验信息。参考点来自数据集中的地图元素,先验参考点降低了学习难度,并实现了稳定的匹配。此外,作者提出了PF-Encoder,利用BEV特征先验改进图像到BEV的转换。

此外,作者提出了DMID交叉注意力,分别沿多尺度和多样本解耦交叉注意力,以提高效率。作者的PriorMapNet在nuScenes和Argoverse2数据集上的在线矢量化HD地图构建任务上实现了最先进的性能。

1 Introduction

高清(HD)地图对自动驾驶至关重要,它提供了关于关键元素(如道路边界、交通车道和人行横道)的详细信息(Li等人,2022年;Liao等人,2022年)。这些详细信息对于后续任务(如轨迹预测)和路径规划(Hu等人,2023年)至关重要。传统上,高清地图使用离线SLAM方法构建,这种方法耗时且无法有效地随着城市环境和道路网络的快速更新扩展。为了解决这些挑战,人们越来越关注使用车载传感器实时生成地图的在线高清地图构建方法。早期方法主要关注鸟瞰视角(BEV)的语义分割。然而,这些方法主要预测栅格的地图,而缺乏自动驾驶任务所需的矢量化地图信息。

遵循DETR范例,最近的技术引入了端到端学习框架,旨在直接预测矢量化实例。MapTR(Liao等人,2022年)和MapTRv2(Liao等人,2023年)设计了一个实例点 Level 的分层 Query 嵌入方案,并在构建高清矢量化地图方面展示了令人满意的结果。后来的主流方法遵循此路线,重点关注增强 Query 之间的交互以及集成外部特征。

在这些方法中, Query 在训练期间学习地图元素的位置和结构,并在与地验(GT)匹配时进行匹配。然而,用于匹配的匈牙利算法对于成本矩阵中的微小变化敏感,这导致了“不稳定匹配”(Li等人,2022年)。为了量化匹配的不稳定性,作者定义了不稳定匹配得分 ,采用Stable-DINO提出,表示与前一层解码器相比,有多少 Query 的GT匹配发生了变化。作者还测量了总的不稳定匹配得分 ,表示与第一个解码器层相比,有多少最终输出 Query 的GT匹配发生了变化。如1图所示,MapTRv2的训练和验证过程中始终保持不稳定匹配。

图1:不稳定性匹配分数对比,分数越低越好。(a)和(b)分别表示在验证和训练时的不稳定性匹配分数。 表示与前一层解码器相比, Query 的GT匹配变化百分比, 表示与第一个解码器层相比,最终输出 Query 的GT匹配变化百分比。“具有先验的 Query ”指的是与先验参考点对应的 Query 。

为什么匹配是不稳定的?DETR类似的模型的训练过程有两个阶段:学习“好 Anchor ”(阶段I)和学习相对偏移(阶段II)[10]。在主流方法中, Query 包括内容嵌入和位置嵌入。位置嵌入为采样生成参考点(与阶段I相关),内容嵌入为采样偏移和注意力权生成采样偏移[与阶段II相关]。位置嵌入是可学习的,并且随机初始化,导致参考点分布在没有任何特定结构的地方。而矢量化HD图由连接有序序列的polylines或polygons等地图元素组成,具有特定的位置分布和几何图案。

如图2所示,将随机分布的参考点与有序的地图元素进行匹配难以实现且会导致匹配不稳定。为了解决这个问题,作者提出了具有先验位置和结构的解码器(PPS-Decoder)。通过聚类和抽象数据集中的地图元素分布,将这些分布作为先验进行初始化,可以将参考点增强到更好地匹配地图元素的位置和结构特征。如表4所示,具有先验的 Query 可以通过降低学习“好 Anchor ”的难度来改善准确性和匹配稳定性。

本质上,先验是一种有效的初始化方法,可以减少模型的学习难度。为此,作者引入了具有先验特征的编码器(PF-Encoder)。PF-Encoder将图像特征转换为初始化为BEV的特征,这些特征被用作BEV Query 的先验并优化的编码器。作者引入了判别性损失以更好地聚合地图元素的嵌入。此外,作者将BEV特征下采样到多尺度,带来了计算复杂性。为了提高效率,作者提出了解耦多尺度变形交叉注意力(DMD cross-attention),该注意力将交叉注意力沿着多尺度和高斯分布分别解耦。PF-Encoder,PPS-Decoder和DMD cross-attention的组合形成了作者提出的PriorMapNet。

进行了大量实验以证明作者的优越性。作者在nuScenes[1]和Argoverse2[17]数据集上的在线矢量化HD地图构建上实现了最先进的(SOTA)性能。此外,作者在各种设置下的实验表明了PriorMapNet的鲁棒性和泛化能力。

总之,作者的贡献如下:

  1. 作者介绍了一种全新的基于先验的框架,该框架通过将特征、位置和结构先验引入编码器和解码器进行在线高精地图构建。
  2. 作者提出了DMD交叉注意力机制,该机制分别将交叉注意力沿着多尺度和多样本进行解耦,从而提高效率。
  3. 作者在nuScenes和Argoverse2数据集上的在线矢量化高精地图构建任务上实现了最先进的性能,证明了该方法既具有高性能,又具有泛化能力。

2 Related Work

Online Vectorized HD Map Construction

不同于传统的离线高精度地图构建方法,近年来的研究开始使用车载传感器来构建在线高精度地图。早期的方法[13, 10]将地图构建视为一个分割任务,预测BEV空间中的栅格化地图。HDMapNet [10]进一步将这些栅格化地图通过后处理转换为矢量化地图。

VectorMapNet [10]提出了第一个端到端的矢量化地图模型,使用DETR [1]解码器检测地图元素,并使用自回归 Transformer 优化结果。随后,MapTR [11]设计了一个一阶段的地图构建范式,引入了一个实例点 Level 的分层 Query 嵌入方案。随后的主流方法都遵循这个流程,改进主要集中在增强 Query 和外部特征之间的交互。InsMapper [12]和HIMap [14]进一步探究实例和点之间的相关性,并改进 Query 内的交互。MapQR [10]隐式地将点 Level  Query 编码为实例 Level  Query ,并使用类似于条件DETR [13]的 Query 位置嵌入。尽管有以上的发展,这些方法在随机初始化参考点时,会导致匹配不稳定。为了解决这个问题,作者的PriorMapNet引入先验信息以增强匹配的稳定性。

Priors for HD Map Construction

先验为制图提供了有效的初始化,并减少了模型学习的难度。作者将先验分为两种类型:语义先验和位置和结构先验。对于语义先验,MGMap [10] 提出了Mask-Active Instance (MAI),它学习地图实例分割的结果,并为实例 Query 提供语义先验。Bi-Mapper [10] 设计了一种两流模型,利用全局和局部视角的预先先验来增强语义地图学习。

对于位置和结构先验,Topo2D [10] 使用2D车道线检测结果作为先验来初始化 Query 。SMERF [11]和P-MapNet [12] 引入了标准地图(SDMap [10])作为位置和结构先验来构建地图。然而,上述方法依赖于额外的模块,增加了计算复杂性。相比之下,PriorMapNet 使用离线的聚类地图元素作为位置和结构先验,在不增加计算消耗的情况下提高性能。

Image-to-BEV Encoder for Map Construction

地图构建通常依赖于BEV(bird's eye view)特征,这些特征是由编码器将图像转换而来。编码器可以分为两种类型:自下而上和自上而下。自下而上的编码器([14, 15, 16])将图像提升到3D并使用 Voxel 池化生成BEV特征。自上而下的编码器对图像进行3D滤波并使用 Voxel 池化生成BEV特征。自上而下的编码器生成包含3D信息的BEV Query ,并通过Transformer从中提取图像特征。然而,由于 Query 是随机初始化的,单层编码器导致低精度[15],而多层编码器带来更高的计算复杂度[15, 16]。为克服这些局限性,作者在先验特征的基础上增强了BEV Query 。

3 Method

Overview

如图3所示,是作者方法的整体流程。给定 多视图像 作为输入,输出是一个包含 个图元元素的集合 。每个图元元素定义为一个类别标签 和有序点序列 ,其中 是每个图元元素中的点数。

基于MapTRv2 [15],作者的方法包括三个模块: Backbone 网络(backbone)、PF-Encoder和PPS-Decoder。 Backbone 网络通过ResNet [13]和FPN [15] Neck 提取多尺度图像特征 。PF-Encoder将图像特征转换为BEV特征 并下采样到多个尺度,具体描述如下3.3节。PPS-Decoder通过transformer预测图元元素,并结合先验参考点进行稳定的匹配,详细内容如下3.2节。在交叉注意力层中,作者引入了DMD交叉注意力以提高效率,具体描述如下3.4节。作者首先详细描述PPS-Decoder,这是作者方法的核心。

Decoder with Prior Position and Structure

如图4c所示,作者的PPS-Decoder Pipeline 算法。与MapTRv2以随机初始化参考点不同,以及与仅提供语义先验而不提供位置信息的MGMap不同,PPS-Decoder通过位置和结构先验增强参考点,提供“好 Anchor ”以提高准确性和匹配稳定性。

PPS-Decoder包含几个级联解码层,以迭代地细化层次 Query 和参考点。层次 Query 包括实例级 Query 和点级 Query ,它们通过广播相加:

图3给出了作者提出的PriorMapNet概述。给定多视图像输入,输出是一组图元素。PriorMapNet包括三个模块:backbone、PF-Encoder和PPS-Decoder。backbone通过ResNet和一个FPN颈提取图像特征。PF-Encoder将图像特征转换为BEV并多次下采样。PPS-Decoder通过Transformer预测图元素,并使用参考点优先匹配提供稳定。在交叉注意力层中,使用DMD交叉注意力以提高效率。

参考点先验初始化,以适应数据集地图元素的分布。为了符合数据集中地图元素分布的分布,作者使用K-Means聚类地图元素,并抽象提取前N_{pri}个位置信息,如图2所示。聚类和抽象是离线进行的,以确保推理时没有额外的计算负担。在训练和推理中,一些参考点获得拟合位置和结构先验。

在 Query 位置的嵌入中,参考点使用DAB-DETR[19]中的正弦位置编码。 Query 位置嵌入的实现如下: 其中{\rm PE}(\cdot)根据参考点坐标[20]生成正弦嵌入。解码层中的线性层参数在各个层内不共享。{\rm PE}(\cdot)在坐标上分别计算,并将位置嵌入沿特征通道拼接:

参考点和位置嵌入在PPS-Decoder层中更新。在每个层中,自注意力和交叉注意力使用以下输入进行 Query 、键、值和参考点:

先验参考点用于适应数据集中地图元素的位置和结构分布,有助于 Query 点集中学习参考点的位置偏移。此外,作者维护可学习参考点,以捕捉和表示不符合典型位置和结构模式的数据元素。自我注意机制实现优先参考点和可学习参考点之间的交互,减少冗余检测并提高整体检测准确率。

Encoder with Prior Feature

PF-Encoder通过使用BEV特征先验改进了图像到BEV转换。它建立在诸如BEVFormer[15]和GKT[16]等自顶向下的编码器的基础之上。PF-Encoder作为一个 Query ,通过交叉注意力提取相关的图像特征。

作者首先使用LSS[14]将图像特征转换为初始的BEV特征,然后将其用作BEV Query 先验,在单层BEVFormer[15]编码器中进行优化。遵循MGMap[19]的策略,BEV特征使用EML胸腺降至多尺度。

为了从同一地图元素聚合特征,需要将实例的嵌入相加以区分不同的实例。因此,作者引入了地图元素判别损失[17],使同一实例的嵌入更接近,并将不同实例的嵌入推得更远:

其中 使 个地图单元的特征向量 接近其相应的均值 ,而 使不同地图单元的特征向量远离均值。 表示地图单元网格的数量。 是L2距离,







请到「今天看啥」查看全文