0. 这篇文章干了啥?
高清(HD)地图是自动驾驶的基础,包含了地图元素(如人行横道、车道分隔线、道路边界等)的精确矢量化细节。作为自动驾驶系统的基本组成部分,这些系统捕获必要的道路拓扑和交通规则,以支持车辆的导航和规划。传统的基于SLAM的HD地图构建方法存在诸如复杂流程、高成本以及显著的定位误差等挑战。手动标注进一步加剧了劳动力和时间需求。这些局限性正促使人们转向利用车载传感器的在线、基于学习的方法。
许多现有工作将地图构建定义为鸟瞰图(BEV)空间中的语义分割任务,生成栅格化地图。尽管它们取得了很大成功,但由于需要广泛的后处理来获取矢量化信息,因此面临局限性。为了克服基于分割方法的局限性,出现了新的方法,这些方法通过预测点集来构建地图,并利用类似DETR的结构进行端到端的地图构建。
DETR是一种基于Transformer的目标检测架构,其中使用可学习的目标查询来从图像特征中探测所需信息。尽管这些可学习查询的作用仍在研究中,但普遍共识是查询由语义内容部分和位置部分组成。因此,可以在图像中识别和定位相应的目标。在Conditional DETR和DAB-DETR中,位置部分是从参考点或框坐标中明确编码的,这样就不会与内容部分耦合,从而便于分别学习这两部分。这些论文启发了我们为在线地图构建任务中的点集预测设计适当的查询。
类似DETR的目标检测方法通过一组可学习的查询来预测每个目标的四维边界框信息。正如在DAB-DETR中所证明的那样,解码器中的每个查询都由解码器嵌入(内容信息)和可学习的查询(位置信息)组成。相比之下,高清地图构建通常预测每个地图元素的点集。在许多最先进(SOTA)的方法中,点查询被用来从鸟瞰图(BEV)特征中探测信息,并且每个点查询都预测一个点的位置。然后,将这些预测的点分组以形成检测到的地图元素。尽管在自注意力模块中已经交换和增强了信息,但点查询仍然很难包含整个地图元素的所有内容信息。此外,同一地图元素内的点查询甚至可能具有不同的语义内容信息。我们称这种现象为内容冲突。因此,以前基于点查询的地图构建方法在学习所需内容信息方面存在困难。此外,当前的SOTA方法忽略了位置信息,只是简单地使用随机初始化的可学习查询。
为了解决上述问题,我们提出使用实例查询(instance queries)而非点查询(point queries),并添加位置嵌入。我们不是从每个点查询中分别预测一个位置,而是从每个实例查询中同时预测n个点位置,以确保同一地图元素中内容信息的一致性。为了从BEV特征(鸟瞰图特征)的特定位置探测信息,我们像Conditional DETR中那样从参考点生成位置嵌入(即,每个实例查询对应n个位置嵌入)。然后,将n个不同的位置嵌入添加到每个实例查询中,使其成为n个分散查询(scattered queries)。因此,每个地图元素都包含一组分散查询,这些查询共享来自单个实例查询的相同内容部分,以及从参考位置嵌入的不同位置部分。
这组分散查询被收集回一个实例查询,以匹配一个地图元素。我们将这种查询称为“分散-聚合查询”(scatter-and-gather query)。由于只有实例查询被用作Transformer解码器的输入,因此避免了同一地图元素中的内容冲突。这也允许所提出的解码器增加查询数量以提高准确性,而不会显著增加计算负担和内存使用量。查询设计是我们提出方法的基础,并且结合BEV编码器的简单有效改进,构成了我们提出的MapQR。
我们进行了广泛的实验来证明所提出方法MapQR的优越性。我们的方法在nuScenes和Argoverse 2地图构建任务中均表现出色,同时保持了良好的效率。此外,我们将基本的MapQR设计集成到其他最先进的模型中,显著提高了它们的最终性能。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction
作者:Zihao Liu, Xiaoyu Zhang, Guangwei Liu, Ji Zhao, Ningyi Xu
机构:上海交通大学、香港中文大学、Huixi Technology
原文链接:https://arxiv.org/abs/2402.17430
代码链接:https://github.com/HXMap/MapQR
2. 摘要
在自动驾驶中,高清(HD)地图在定位和规划方面发挥着至关重要的作用。最近,几种方法促进了在类似DETR框架下的端到端在线地图构建。然而,人们很少关注探索查询机制的潜在能力。本文介绍了MapQR,这是一种端到端的方法,重点是通过增强查询能力来构建在线矢量地图。尽管地图构建本质上是一个点集预测任务,但MapQR利用实例查询而非点查询。这些实例查询被分散用于点集的预测,并随后被收集起来进行最终匹配。这种查询设计被称为“分散-收集”查询,它共享同一地图元素中的内容信息,并避免了点查询中内容信息可能出现的不一致性。我们进一步利用先验信息,通过添加从其参考点嵌入的位置信息来增强实例查询。结合一种简单而有效的BEV编码器改进方法,提出的MapQR在nuScenes和Argoverse 2数据集上均实现了最佳的平均精度均值(mAP),并保持了良好的效率。此外,将我们的查询设计集成到其他模型中可以显著提升其性能。代码将发布在此https://github.com/HXMap/MapQR上。
3. 效果展示
总体架构比较。左图:许多地图构建方法中利用的类似于DETR的架构。右图:所提出的具有散播和聚集查询以及位置嵌入的架构。为了确保同一地图元素中的内容一致性,利用实例查询的散播来共享内容信息。此外,使用参考点对这些查询进行位置嵌入,从而能够利用先验信息。
与SOTA在定性可视化方面的比较。这些图像取自nuScenes数据集。橙色、蓝色和绿色分别表示车道分隔线、人行横道和道路边界。MapQR获得了更准确的地图。
4. 主要贡献
• 我们提出了一种基于新型散射-聚合查询的在线端到端地图构建方法。这种查询设计与兼容的位置嵌入相结合,有利于在类似DETR的架构中进行基于点集的实例检测。
• 提出的在线地图构建方法在现有的在线地图构建基准测试中表现优于现有技术。
• 将我们的核心设计融入其他最先进的在线地图构建方法中,也能在准确性方面带来显著提升。
5. 基本原理是啥?
方法的整体架构。我们的模型以多视图图像序列作为输入,端到端地构建高清地图,目标是生成预测点集来表示地图元素的实例。每个地图元素实例包含一个类别标签和一组预测点。每个预测点包含明确的位置信息,用于创建表示实例形状和位置的多边形线。
我们的方法包含三个主要组成部分:一个共享的图像主干网络用于提取图像特征,一个视图转换模块用于获取鸟瞰图(BEV)特征,以及一个Transformer解码器用于生成预测。图像主干网络和视图转换模块可以是任何流行的模型,无需额外调整。解码器是我们的关键设计,原则上它可以直接应用于其他类似DETR的地图构建模型。
解码器比较。左侧:MapTR的解码器。右侧:提出的MapQR的解码器。在此示例中,一个实例包含4个参考点。该架构的解码器是我们的核心设计,由堆叠的Transformer层组成。解码器的改进主要围绕着查询设计,包括分散和聚集查询及其兼容的位置嵌入。
6. 实验结果
nuScenes实验结果:按照之前的实验设置,采用不同方法预测了2D矢量化地图元素。实验结果列于表1。可以看出,在相同设置(即骨干网络和训练周期)下,提出的MapQR方法在mAP1和mAP2两个指标上均大幅优于其他所有最先进(SOTA)方法。与MapTR和MapTRv2相比,由于BeMapNet和PivotNet进行了精细的建模,因此在较小阈值(即mAP1)下获得了更好的结果。然而,即使没有对地图元素进行精细建模,所提出的方法仍然能够超越它们。这表明我们的实例查询和改进的编码器有助于更准确的预测。我们的方法推理速度约为18 FPS,满足了许多场景的效率要求。
Argoverse 2实验结果:在表2中,我们提供了在Argoverse 2上的实验结果。所有测试均以ResNet50为骨干网络,训练了6个周期。由于Argoverse 2提供了3D矢量化地图元素作为真实值,因此可以像MapTRv2那样直接预测3D地图元素(dim = 3)。对于2D和3D预测,所提出的MapQR均达到了最佳性能,特别是在更严格的阈值(mAP1)下。
7. 总结 & 未来工作
在本文中,我们探索了查询机制,以在线地图构建任务中实现更好的性能。受类似DETR架构前沿研究的启发,我们为解码器设计了一种新颖的散集查询机制。因此,在交叉注意力中,针对同一实例的每个点查询都会共享相同的内容信息,但会嵌入来自不同参考点的不同位置信息。我们证明了,将我们的解码器与最先进(SOTA)方法相结合,可以进一步提高其性能。通过改进鸟瞰图(BEV)编码器,我们的新框架MapQR在nuScenes和Argoverse 2两个数据集上都取得了最佳结果。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3DCV技术交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉技术星球
3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、
BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、
无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划
、
LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、