专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

ExelMap创新方案：解决HD地图变更检测的精确性与解释性挑战！

智驾实验室 · 公众号 · · 2024-12-07 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

在实现自动驾驶的高清（HD）地图部署过程中，获取和维护是两个核心问题，目前文献中存在两种研究潮流：在线 HD 地图生成和 HD 地图变更检测。

然而，目前生成的地图质量还不足以实现安全部署，许多变更检测方法无法精确地定位和提取变更的地图元素，因此不具备解释性，也可能阻止潜在的车队协作 HD 地图更新的可能性。

在本文中，作者提出了一种可解释元素基础的 HD 地图变更检测和更新的新任务。

在扩展使用过时地图先验信息的在线制图技术进行 HD 地图更新的最近方法的基础上，作者提出了 ExelMap，这是一种可解释元素基础的地图更新策略，它专门识别变更的地图元素。在这一背景下，作者讨论了目前使用的度量标准无法捕捉到变更检测性能，同时允许在无先验地图生成方法和有先验地图生成方法之间进行不公正的比较。

最后，作者在 Argoverse 2 地图变更数据集的现实生活中相关变化进行了实验研究。

据作者所知，这是第一次对实际端到端元素基础的 HD 地图变更检测和更新进行全面的调查，而 ExelMap 是第一个提出的解决方案。

1 Introduction

对于自动驾驶车辆（AV）的下游应用来说，对道路的准确理解是基础。高分辨率（HD）地图是实现这一技术的关键部分，它提供详细的道路环境表示，有助于基于精准的传感数据进行导航 [4]。然而，作者所居住的世界具有动态性，这使得HD地图的持续更新成为一个重要的挑战，这个过程被称为HD地图变化检测 [8]。

近年来，由于高标注成本和地图维护的挑战，HD地图相关的研究发生了转向，最近的重点是传感器导向的HD地图生成，而不是变化检测。在线地图方法旨在从镜头图像中提取拓扑结构、车道几何、类型和方向，或人行横道。虽然已经取得了令人鼓舞的改进，但结果仍然远远不够用于实际驾驶任务，因为准确性和通用性还不够。

为提高性能，最近的研究探索了将标准定义（SD）地图 [18]或过时HD地图 [21]作为除传感器数据之外的第二输入进行集成。因此，网络的任务从先验不明确的生成转移到将当前传感器数据和编码的先验地图数据进行融合。有趣的是，如果编码的先验是过时的HD地图，那么这些工作在于在线地图生成和变化检测的交点，或者说，如[1]指出的：HD地图更新。

HD地图更新的结果已经报告出了一些有前途的成果，但仍存在一些尚未解决的重要问题。首先，像[8]所显示的那样，HD地图元素过时的时间较低是一个重大挑战，无论是训练还是评估。由于真实世界的变化很少而且公共数据集无法提供大量的过时和最新的地图对，大多数工作都采用合成先验噪声模型。尽管希望足够多样化的地图扰动能填补在合成数据上训练和实际环境中评估模特之间的性能差距，但性能还是明显下降了[1]。

第二个问题与先验信息导向的地图更新管线有关，这部分源自该领域的历史演变。如[21]或[1]所示的先验信息更新的工作使用mAP在所有预测元素上，类似于无先验信息的地图生成框架MapTR [12]。不仅因为考虑到在编码的过时HD地图中很可能本来就存在大量已有的ground truth地图元素而使用这种比较是不公平的，而且也不能同时用所有地图元素来捕捉先验导向地图更新管线的实际变化检测或地图更新性能。

最后，第三个问题存在于唯一的公开数据集 for change detection：Argoverse 2 Map Change Dataset[8] - 也称为Trust，但Verify（TbV）- 提出了一种确定传感器数据是否与先验地图完全一致的方法，与潜在的变化无关。尽管这个指标捕捉了变化检测性能，但它缺乏解释地图哪些部分已发生变化。

在本工作中，作者提出了一种基于元素的新 HD 地图变化检测和更新，解决了当前的挑战。作者的主要贡献包括

提出了一种可解释的、基于元素的 HD 地图变化检测和更新的新任务，作为对上述挑战的回答。
提出ExelMap，第一个端到端的解析元素基 HD 地图变化检测和更新架构，包括地图更新。
探讨了当前对变化检测和地图更新的评估策略的缺陷，并讨论了全面度量的性质。

2 Related work

HD-Map Change Detection

保持高精度地图的实时更新对于L4级自动驾驶至关重要，因为许多下游任务如规划和情境意识都需要地图作为道路的完全准确表示 [4]。因此，研究重点集中在比较在线传感器数据与可能过时的先验高精度地图上的变化，因为专门的映射车辆无法以足够高的频率更新全球高精度地图 [8, 19]。尽管这种系统仍然需要先验获取高精度地图，但在线变化处理可以促进其维护，防止在极少但至关重要的道路环境变化中产生有害后果。

尽管变化检测领域是一个活跃的研究方向，但它是高度异构的，这是由于不同的地图定义和使用场景 [20]。高精度地图变化检测研究涉及不同的方面，但尚未提出统一的变更检测方法 [4, 20]。不同 Pipeline 的输出的变化范围从每个像素的变化概率 [6]到检测特定的“变化类别”（如人行横道 [2] 或环岛 [27]），到针对每个输入帧的二进制变化分数 [8]。

目前 change detection 研究的一个尚未关注到的方面是可解释性。唯一专用公共数据集，Argoverse 2 Map Change Dataset (TbV) [8] 中提出的变更检测任务并未捕获网络实际表示的变更。这对高精度地图验证中至关重要的人类在环任务产生了负面影响，因为假设需要不断降低地图的安全性。此外，识别和定位更改元素对于可能的基于船队的地图维护工作至关重要，以减少计算负载并促进信息共享。

HD-Map Generation

随着高质量地图的获取成为自动驾驶车辆（AVs）可扩展性的瓶颈，另一种研究趋势专注于从传感器数据中学习局部高精度地图，以避免标注成本和制图停机时间。这种趋势通过鸟类瞰（BEV）特征 Backbone 的发展而得到推动，这些 Backbone 提供了一种单一、紧凑的图像特征表示方式。早期的工作主要关注鸟瞰视图下的语义分割 [26]，对于复杂的公路拓扑、重叠要素及其关系，出现了难题。

早期的尝试生成更加紧凑的，即向量化的，局部地图表示，是HDMapNet [9]。在这里，耗时的后处理将语义分割、实例嵌入和方向预测的结果合并，以生成向量化的地图元素，但它并没有考虑到元素之间的复杂关系。为了解决这个问题，VectorMapNet [16] 提出了一种直接的表示方法，即通过BEV为基础的解码方案，将每个地图元素表示为一系列点，进行类级关键点位置提取。MapTR [12]及其继任者MapTR-v2 [13]通过引入一种统一的置换等效方法来解码地图元素，从而提高了推理速度并减少了建模的歧义。在扩展生成的HD地图的信息内容方面，LaneSegNet [10] 将地图元素几何体的检测与拓扑关系的感知结合在一起，同时提供了集成语义车道信息的选项，如车道类型。在大多数以前的工作都依赖于单一帧传感器输入的情况下，StreamMapNet [25] 提出了帧间时间融合，以增加稳定性和改善遮挡处理。

虽然在HD地图生成功能方面取得了相当大的进展，但这种结果在实际中的适用性值得商榷。地图元素的伪迹在输出中无处不在，遮挡处理不完整，而且只有约100x50平方米的地图大小，预测的地图无法满足HD地图的先验要求 [4]。此外，最近的工作对两种 commonly used 的公共数据集进行了质疑 - Argoverse 2 [23] 和 nuScenes [3] -，揭示了最先进方法性能的膨胀，以及在mAP中的预期性能下降有时会超过45个百分点。

Prior-aided HD-Map Update

近年来，在变化检测和局部图生成的交叉领域，一种潜在的新方法逐渐显露。针对主要的全图生成问题，即远程性能低和遮挡，标准传感器+ Pipeline 中的先验知识整合被认为是一种可行解决方案。这种先验知识由，例如，精度较低的地图-所谓标准定义（SD）地图[7, 18]-和过时的HD地图[1, 21]组成。

与作者工作最相关的是[1]和[21]，这两种方法探讨了将过时的HD地图引入HD图生成 Pipeline : 这些模型并非维护一个最新的全局HD图，而是从传感器数据和过时地图先验中重新构建更新的局部道路表示。尽管这些方法与变化检测任务存在并行，但变化的概念在这些设置中并未出现，因为需要在后处理中匹配更新的地图先验以提取更改的元素。尽管这样的方法可能比后续地图更新的变化检测方法更简洁，但“隐式”变化检测会降低验证能力和网络输出控制，因为可能包含从过时HD地图中通过的潜在信息与新生成特征混合在一起。

验证问题的存在也体现在当前的评价策略中，因为大部分研究仍然使用第2.2节[1, 21]中描述的先验图生成任务中的指标。由于现实世界中地图变化的频率较低，使用先验图生成技术将与传统无先验传感器+方法进行比较可能掩盖地图更新性能，因为过时的地图可能已经包含大量的真实值在输入中。

最后一个问题涉及到适当数据的可用性和质量。在这方面，似乎基于先验的图生成方法面临变化检测社区长期以来已知的长期问题：没有过时地图和升级地图的配对[4, 8]。作为一种权宜之计，[21]和[1]通过，例如，特征的离散修改或复制特征或连续修改来通过在合成 GT 地图的修改。然而，当在真实变化[1]上评估时，这会导致相当大的模拟真实世界（Sim-2-Rea）差距。

在这篇论文中，作者主张在可解释的变化检测和更新HD图维护的新任务中，可以首先解决或避免一些这些挑战。实际上，由于地图预测方法的普遍解码范式是在逐元素的基础上进行的，通过元素逐变化评估来确保可解释性是内在可能的，而地图更新则可以无缝地从 Pipeline 输出中继。最后，虽然数据集和评价问题仍需决定性地解决，但元素结合适当的变换检测指标可能会对底层挑战有更好的理解。

3 Methodology

作者的方法基于 LaneSegNet [10]，但它可以灵活地适应其他最先进的地图生成方法。作者选择 LaneSegNet，因为生成的地图默认包含语义属性（如车道类型），并且可以很容易地扩展到预测向前视角的地图元素（如交通信号灯和标识）。此外，该网络基于所谓的车道段运行，车道段被表示为向量化中心线和相应的车道边界，。

然后，通过分类 Head [10] 的输出，确定具体地图元素（车道或人行横道）的类别。这种统一表示对于设计一个可以同时灵活检测车道和人行横道变化的检测 Pipeline 是有益的。图1 显示了作者的方法 ExelMap 的结构。在下文中，作者将详细说明作者的方法在何处扩展了 LaneSegNet 的 Backbone ，以便更轻松地复制作者的结果。

Stale HD-Map Encoder

为了将过时的车道分割图集成到LaneSegNet Backbone 结构中，作者利用了[18]中的轻量级SD图分词器，并将其适应到作者的HD图需求。作者使用的过时HD图包含局部车道段的几何信息、它们的类别（人行横道或车道）以及它们语义属性（车道边界类型，即虚线、实线或不可见）。此外，车道段之间的连接保存在局部道路图（lane segment connectivity）中，但后者尤其是标注和保持更新成本极高。因此，作者将局部图结构的预测留给了流水线生成部分，以减轻HD图先验的需求。

作者从过时的HD图中提取所有个车道段的几何表示，这些车道段根据[10]的定义包括左侧、右侧和中心线的10个等间隔点，作者用表示。此外，作者还提取了左、右侧车道边界类型，即不可见、虚线或实线，如图1所示。根据[18]，作者选择一个正弦/余弦位置编码来充分捕捉个空间编码后的微观弯曲，同时使用维度为的one-hot编码方案来表示右侧和左侧车道边界类型。

接着，作者将编码的地理坐标和one-hot编码的边界类型拼接起来，形成 desired polyline 序列，其形状为，其中为位置编码维度。随后，堆叠并编码的输入被输入到一个由6层组成的transformer图编码器中，该编码器包括自注意力块和遵循[18]的自回归网络。

Encoded Map Prior Integration

为了消耗地图预测 Pipeline 中编码的旧地图特征，文献中普遍有两种思路：

(1)通过额外的交叉注意力步骤关注编码的地图；

(2)使用编码的地图作为最终地图解码模型的 Query 。

这两种方法具有直观的解释：

(1)旧地图只是传感器数据编码在BEV特征中的第二来源；(2)地图先验被用作解码器 Token ，随后通过关注BEV特征进行改进。与作者的工作最相关的两篇文章[21]和[1]，选择了第二种方法，并认为这使模型可以有意义地利用先验信息，然而[21]的作者提到模型有时不会考虑现有的地图信息，如果单独留下，网络甚至不能识别完全准确的先验 Query ，他们通过在额外的匹配步骤中预先归因于相应旧地图元素来解决这个问题。

[1]的作者报告，对于更复杂的先验偏差，模型只返回重置先验。这与作者的观察一致，作者怀疑该行为是由旧地图中更改和未更改元素的不平衡造成的，这使得学习渗透功能具有诱惑却有害于更大的地图变化。

因此，作者选择了策略(1)，并设计完全可学习的地图解码器 Query ，以使网络有足够的灵活性，能同时合并传感器数据和旧地图。为了避免[1]提到这种方法的主要问题 - 即交叉注意力不足以强烈地将先验信息合并到模型中 - 作者提出了一种新颖的双交叉注意力结合方案。可以考虑在 Pipeline 中的两个位置使用先验：

(1)基于BEVformer的[24,11] Transformer 编码器，将ResNet-backbone的传感器特征表示转换为鸟瞰视角，或者(2)在地图解码器中，通过Cross-attending to BEV特征提取地图特征表示。与[18]不同，作者在BEV编码器中的每个空间交叉注意力之后和地图解码器中的每个空间交叉注意力之后进行交叉注意力。

Change Detection Heads

为了适应车道SegNet Backbone 网络解释性元素基变化检测，作者将标准的预测分支扩展以提取每个元素的改变状态，以及几何、语义和拓扑方面的信息。作者选择添加两个独立运行的二进制输出头，分别用于元素 Level 的删除和插入检测。作为损失函数，作者发现Focal Loss [15] 适合，因为作者存在改变和未改变地图元素以及包含变化或不含变化的帧之间的强烈类不平衡。鉴于基于车道段的方法，改变元素（行人过街或车道）类别由标准分类头独立确定。

两种变化检测Head都由一系列ReLU激活和Dropout的线性层组成，并输出一个形状为的张量。作者选择将删除和插入检测的 Head 分离，因为二分类对网络来说更具挑战性。令人惊讶的是，尽管它们并行运行，但作者从未观察到它们之间存在冲突的行为。

有了这些额外的头，网络的输出是两倍：遵循传统的高分辨率地图更新工作的道路场景的高清（HD）表示，以及一个新颖的变化图，其中每个预测元素都有一个改变状态（即未改变、插入或删除），允许在该安全性关键区域进行可解释的人机合作变化验证。

Datasets and Synthetic Change Generation

正如仅公开的HD地图变化检测数据集TbV的 authors所指出的那样，变化检测算法的开发和训练以及它们在实际变化上的评估之间存在巨大的差距。为了填补这一差距，TbV [8] 是第一个提供超过200个具有实际变化的场景的数据集，主要涉及道路几何变化或语义车道属性的变化，以及人行横道。对于训练，他们再次提出使用合成方法修改 GT 地图。

因此，作者选择在TbV的实际地图变化上评估作者的网络，并在没有实际地图变化的情况下使用建议的训练划分进行训练。尽管作者的方法能够检测到所有车道段的变化，即无论人行横道还是车道，但作者只关注与人行横道相关的变化，因为缺少或 newly 涂刷的人行横道是常见的地图变化。这类变化容易通过合成生成，且具有突出且易于检测和评估的特征。因此，在训练中，作者随机删除个别人行横道。对于插入，作者手动编辑地图代替使用[8]中提出的自动工具包，因为后者无法提供适当的实时地图变化。

最后，作者对训练数据进行预处理，以与最常用的地图生成数据集（如[23] Argoverse 2，[3] nuScenes 和[22] Openlane-V2）的规格相匹配。作者将车道段开始或结束点的标准定义为连接性的变化或语义车道属性的变化，以便在进行与原始数据集[22]相比更加顺利的训练过程，得出更长车道段。由于作者主要关注扫描道路上的变化，将视野范围减少到[ 25m， 25m]。

4 Experiments

对于作者的模型中所有配置，作者都使用预训练的ResNet-50 [5]作为图像表示学习中的图像backbone。从模型输出中，作者利用匈牙利算法进行一一对应的最优匹配。作者在8个NVIDIA A10G Tensor Core GPU上用AdamW优化器训练模型20个周期，批处理大小为8。从标注的验证集分割中，作者从33个驾驶序列中提取所有66个与行人过马路相关的变化，以及所有没有变化的序列，总共大约有3800帧。这些示例中，有46个是行人过马路删除的情况，有20个是插入的情况。作者不考虑元素的位置移动，因为它们在验证集中并未出现。此外，这种变化可以容易地用删除 followed by insertion的形式来表述。

Explainable Change Detection Metrics

作者提出的任务涉及新的问题，因此与现有工作的比较是非常困难的。此外，由于在第2.1和2.3节中讨论到的限制，作者无法简单地应用高分辨率地图生成或高分辨率地图更新的指标。相反，作者提供一个讨论应捕获此项任务所需的九种网络质量的讨论，并相应地评估作者的方法。这些属性部分灵感来自于[12]中所使用的地图生成指标，以及[8]中建立的指标。

一个适当的度量应该回答的问题是，网络如何检测到当前输入中是否有变化（不论变化的类型是什么），如图2（a）所示。这类似于对多帧（MF）的评价，即连续输入，并在这个两分类问题中计入精确率和召回率。因为作者的方法是基于单帧（SF）的，作者通过调整[8]来评估SF类型无关的变化检测准确率和无变化检测准确率。具体定义如下：

其中，的计算如下：

此外，作者还在图2中区分单帧（SF）和多帧（MF）的评估策略。

在本文中，和分别表示改变或不变，其中和分别表示改变和不变。是第个序列的第个帧的真正 S 类型无偏更改得分。SF 预测如果插入头或删除头

ExelMap创新方案：解决HD地图变更检测的精确性与解释性挑战 ！

正文