专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

自动驾驶SLAM开源巅峰之作！精准构建超清地图！

3DCV · 公众号 · · 2024-07-14 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：深蓝AI

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球 ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料： 近20门视频课程(星球成员免费学习) 、 最新顶会论文 、 3D视觉最新模组 、 3DGS系列(视频+文档) 、 计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

论文标题：

DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction

论文作者：

Siyu Li, Jiacheng Lin, Hao Shi, Jiaming Zhang, Song Wang, You Yao, Zhiyong Li, Kailun Yang

编译： Deep蓝同学

审核： Los

导读：

本文介绍了一种用于自动驾驶高精地图构建的新方法，该方法利用了鸟瞰视角（BEV）场景理解中的时间一致性学习，在保证建图质量的同时，避免了传统时间融合方法中的特征冗余问题。 ©️【深蓝AI】编译

高清地图（HD Map）是自动驾驶技术不可或缺的基石，它赋予系统对周围静态环境的精确认知，从而确保导航的准确性和安全性。目前，主要有两种类型的高清地图：语义地图和矢量地图。语义地图通常采用网格形式，在二维平面上展示道路信息，而矢量地图则利用几何点和线条来精确描述道路的轮廓。尽管两种地图各有其应用场景，但矢量地图在存储效率和精确度方面均展现出了明显的优势，这对于自动驾驶系统中的实时感知任务至关重要。

近年来的研究表明，实时的鸟瞰图（BEV）融合技术能够有效应对视觉信息的稀疏性问题。然而，现有的时间融合策略似乎并未显著提升矢量化高清地图的质量。融合后的BEV特征与地图实例的特征匹配度不高，导致矢量点难以精确地定位到其原始位置，进而影响了检测的准确性。经过深入分析，作者认为，这些方法主要依赖于简单的时间特征融合，而未能充分利用对象间的差异性和相似性。

▲ 图1｜当前时序融合与提出的一致性学习解决方案的区别©️【深蓝AI】编译

为了应对上述挑战，作者提出了DTCLMapper框架，该框架包含两个协同工作的一致性学习组件：实例一致学习（ICL）和地图一致学习（MCL）。这两个组件相互补充，共同推动框架的性能提升。ICL组件由矢量点预选模块（VPPSM）和聚合实例特征一致学习（AIFCL）组成。

VPPSM负责为实例中的一致性学习提供精确的实例特征，而AIFCL则致力于通过增强稀疏实例的一致性来提升整体性能。MCL组件则通过利用实例之间的一致性几何位置信息来增强模型的一致性和泛化能力。

框架采用了矢量化地图的栅格化方法来实现一致性，同时引入了地图占用损失作为评估机制。这种机制不仅确保了空间关系的保持，还有助于改进模型的一致性和泛化能力，从而在自动驾驶领域中实现更精准的感知和决策。

▲ 图2｜不同时序融合方法的结果©️【深蓝AI】编译

■3.1. 框架

DTCLMapper框架集成了图像骨干网络、多视图变换器、BEV解码器和多任务头：

● 多视图图像由预训练的骨干网络编码，生成深度特征，这些特征通过视图变换器聚合成BEV嵌入；

● 变换器模块采用BEVFormer和LSS等经典方法；

● BEV解码器利用Deformable DETR技术。解码器输入包括BEV嵌入、实例查询、初始参考点和点查询；

● 任务头通过线性层和激活函数预测实例的标签和边框。

▲ 图3｜提出的DTCLMapper架构概览©️【深蓝AI】编译

■3.2. 实例一致性学习（ICL）

ICL模块由两部分组成：矢量点预选模块（VPPSM）和聚合实例特征一致性学习（AIFCL）。

● VPPSM致力于提供精确的实例特征，以增强实例的一致性学习；

● AIFCL则通过对比学习聚合的实例特征，提升稀疏实例的一致性表达。

其中，用于对比学习的正样本是指来自不同时间帧但属于同一实例的特征，而负样本则是来自不同实例或错误匹配的特征。这种方法有助于提高同一实例在不同时间帧上的特征一致性，从而增强模型在处理稀疏视觉信息时的鲁棒性和准确性。

◆ 矢量点预选择模块（VPPSM）

VPPSM模块的设计旨在提高每个实例矢量点的回归精度。 该模块通过以下几个步骤实现：

●输入特征处理：从BEV嵌入特征中提取与实例相关的特征。这些特征代表了场景中每个实例的几何和语义信息。

●预选矢量点：对每个实例的初始矢量点进行筛选，选择最能代表实例形状和位置的矢量点。

●精细调整：使用已筛选的矢量点作为基础，通过进一步的特征处理和调整，优化每个矢量点的位置，以提高矢量点的回归精度。

VPPSM通过这一系列步骤，确保了矢量点的选择和调整过程更加精确，从而为后续的一致性学习提供了可靠的基础。

▲ 图4｜矢量点预选模块（VPPSM）示意图©️【深蓝AI】编译

◆ 聚合实例特征一致性学习（AIFCL）

AIFCL模块通过对比学习（Contrastive Learning）来增强实例的一致性。 具体流程如下：

●特征聚合：将来自不同时间帧的同一实例特征聚合在一起，形成一个综合特征表示。

●对比学习：通过选择正样本和负样本进行对比学习。正样本是指来自不同时间帧的同一实例特征，而负样本则是不同实例或错误匹配的特征。

●一致性增强：通过对比学习的过程，增强同一实例在不同时间帧中的特征一致性，减少特征漂移，提高实例表示的稳定性。

AIFCL模块通过这种方式，确保实例特征在时间上的一致性，从而提高了矢量化高精地图构建的准确性和稳定性。

■3.3. 地图一致性学习（MCL）

MCL模块通过利用「实例间的一致性几何位置信息」来提升模型性能，借助于「矢量化地图的栅格化网格地图」来实施一致性约束。MCL采用地图占用损失作为评估工具，以确保空间关系的准确性，从而增强模型的一致性和泛化能力。

◆设计思路

MCL模块旨在通过全局几何和状态的一致性约束，进一步增强地图的整体一致性和泛化能力。 其设计思路包括：

●全局几何一致性：利用实例间的几何关系，确保各实例在全局地图中的位置和形状保持一致。

●状态一致性：通过评估实例的占用状态，确保地图中实例的空间排列和占用关系准确反映实际情况。

◆实现方法

●网格地图栅格化：将矢量化地图转换为网格地图，以便于全局一致性的计算和评估。网格地图提供了一种便捷的表示方式，使得几何和状态的一致性检查更为直观，且更易于实现。

●地图占用损失：定义一种损失函数，评估实例在网格地图中的占用状态。该损失函数衡量实例间的空间关系，确保全局几何一致性。

●自监督学习：利用自监督学习方法，强化模型的全局一致性。自监督学习无需额外标注，通过对输入数据自身的结构和分布进行学习，提高模型的泛化能力。

MCL模块通过这些方法，确保地图中各实例的全局几何和状态一致性，从而提高矢量化高清地图的整体质量和泛化能力。

在公共数据集nuScenes和Argoverse上的广泛实验结果表明，作者提出的方法在高清地图构建方面取得了显著的提升，在平均精度（mAP）上分别达到了61.9%和65.1%的优异表现。

▲ 表1｜nuScenes数据集上的结果（*表示数据是通过开源实现的）©️【深蓝AI】编译

▲ 表2｜Argoverse数据集上的结果（*表示数据是通过开源实现的）©️【深蓝AI】编译

▲ 表3｜提出的模块的消融实验结果©️【深蓝AI】编译

▲ 表4｜不同视图转换方法的结果©️【深蓝AI】编译

▲ 表5｜实例学习中关键嵌入数量的结果©️【深蓝AI】编译

▲ 表6｜占用损失的消融实验结果©️【深蓝AI】编译

▲ 表7｜不同时序融合方法的结果©️【深蓝AI】编译

本文详细介绍了DTCLMapper框架，它由两个核心模块组成：实例一致性学习（ICL）和地图一致性学习（MCL）。ICL模块通过矢量点预选和聚合实例特征一致性学习，强化了实例特征在时间维度上的一致性。而MCL模块则通过全局的几何和状态一致性约束，确保了地图的整体一致性和泛化能力。这两个模块的协同作用显著提高了矢量化高精地图的构建精度和质量。

作者计划进一步优化和扩展DTCLMapper框架，以适应更复杂的驾驶环境和处理更大规模的数据集。此外，作者建议各位学者去探索更多的自监督学习方法和多任务学习策略，以增强模型的泛化能力和适应性。

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括： 星球视频课程近20门（价值超6000）