专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

映射模型 GenMapping,利用逆透视映射技术构建强健的在线高清地图 !

智驾实验室  · 公众号  ·  · 2024-10-20 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

随着自动驾驶的需求增加,在线高清晰度(HD)地图已经取代了相应的离线HD地图,成为首选选项。在线HD地图具有灵活的更新能力和较低的维护成本。

然而,现代在线HD地图模型将视觉传感器的参数集成到训练中,导致在参数不同的视觉传感器应用时,其泛化性能显著下降。

受到逆视图映射(Inverse Perspective Mapping,IPM)固有潜能的启发,其中相机参数与训练过程分离,作者设计了一个通用的地图生成框架,GenMapping。该框架采用三元素协同架构,包括主分支和两个辅助分支。

面对通过IPM翻译的粗糙道路图像,主分支在状态空间模型下学习稳健的全局特征。

两个辅助分支是密集视图分支和稀疏先验分支。前者利用静态和移动目标之间的相关性信息,而后者引入OpenStreetMap(OSM)的先验知识。

作者精心构建了三倍增强的合并模块,以协同地集成所有三个分支的独特空间特征。

为了进一步提高泛化能力,作者利用了跨视图地图学习(Cross-View Map Learning,CVML)方案,在公共空间中实现联合学习。

此外,作者还引入了双向数据增强(Bidirectional Data Augmentation,BiDA)模块,以减小对数据的依赖。在跨数据集实验中,语义映射的泛化通过mIoU提高了17.3%,而向量化映射在mAP上提高了12.1%。

该模型的源代码将在https://github.com/lymn-yu/GenMapping公开提供。

I Introduction

近年来,受益于灵活的映射和较低的成本,高清(HD)地图模型取得了显著的突破[1, 2]。目前,高清地图分为语义映射和向量化映射两种类型。语义映射是网格格式描述公路区域,在端到端自动驾驶模型[3, 4, 5]中得到广泛应用。向量化映射表示公路实例为点和线,具有轻量级,更适合路径规划与预测任务[6, 7]。

高清地图在鸟瞰视角(BEV)下构建,其中坐标系与视角视图垂直。如果可获得视觉传感器参数和深度值,将视角特征转换为BEV空间变得简单。然而,当准确深度值不可获得时,这在实际驾驶场景中往往难以测量。因此,视角转换方法的研究主要集中在视觉高清地图。高清MapNet[11]通过多层感知机(MLP)[12]层隐式地学习内参和深度。MapTRv2[10]设计了一个集成内参和外参的深度估计网络。

这些方法将视角特征基于深度值和相机参数投影到BEV空间,称为2D-to-3D。相比之下,StreamMapNet[13]采用了3D-to-2D转换,其中通过与视觉特征的投影关系获得的3D点特征被压缩为BEV特征的高度空间。

尽管这些巧妙的设计在单个数据集上表现出惊人的性能,但它们易于过拟合,在具有不同传感器配置的环境中无法有效运行,因为这些模型将视觉传感器参数纳入模型训练之中。

如图1(a)所示,一组基于深度学习方法的跨数据集性能泛化分析结果表明,严重的性能降级问题。视觉图像的绝对深度估计与摄像头参数密切相关。当一个在摄像头A(例如,nuScenes)训练的地图模型应用到摄像头B(例如,Argoverse)时,网络通常使用摄像头A的参数来估计深度。即使将摄像头参数集成到模型训练中,泛化性能仍然不满意,难以学习正确的地图结构,如图1(b)所示。因此,作者想知道,将视觉传感器参数与训练过程解耦,是否可能带来更好的泛化效果。

强大的道路结构先验知识引起了作者的关注。逆视角映射(IPM)技术是3D到2D模式的特定情况,将固定高度的3D点设置在IPM图像中,以获取BEV道路图像,这些是地图模型的学习目标。自然地,视觉传感器参数与模型学习解耦,这对跨数据域的部署是有利的。然而,如图1(c)所示,IPM图像在道路平面以上存在数据失真和缺乏上下文交互,这对于BEV理解至关重要。

为了解决IPM的强大泛化能力和上述挑战,作者提出了一种通用在线高精度地图构建模型GenMapping。该框架建立在三角协同架构(triadic synergy architecture)上,包括主分支和双辅助分支。由于IPM图像中呈现的局部几何扭曲,主分支引入了一种基于状态空间模型(SSM)的模块来减轻这些局部扭曲问题。稠密视角辅助分支在视角坐标系统中学习动态和静态目标之间的密集关联。稀疏先验辅助分支通过OSM[18]描述的矢线编码有驾驶区域。

此外,作者还设计了一个三倍增强的融合模块并将其嵌入主分支中,通过渐进层叠的融合集成辅助特征。同时,作者还提出了一些联合学习和大数据增强方法来提高泛化能力。

一方面,作者提出了一种创新的Cross-View Map Learning(CVML)模块,在视角视图和BEV之间的相互约束空间中学习。

另一方面,面对不同空间中的对齐特征,作者设计了双向数据增强(BiDA)组件来减少对训练数据集的依赖性。如图2所示,GenMapping在公共nuScenes数据集[8]上取得了卓越的性能。

此外,通过跨数据集迁移实验,即从nuScenes(N)到Argoverse[9](A)的转变,证实了作者提出的在线高精度地图构建方法在应对其他最先进方法时的鲁棒性优势。本工作的主要贡献如下:

  • 作者引入了一个准确而强大的高精度地图模型GenMapping。它是一个围绕IPM的三元框架,通过序列学习机制减轻局部扭曲问题,并使用三倍增强的融合来解决IPM图像的稀疏性。
  • 作者提出了一种Cross-View Map Learning(CVML)模块,用于在视角空间和BEV空间之间的相互约束中加强模型鲁棒性。
  • 作者设计了双向数据增强(BiDA)组件来提高模型泛化。它是一个即插即用的模块,可以无缝集成到其他任务中,并始终提高泛化性。
  • 大量实验证明了所提出方法的优势和在不同高精度地图构建场景中的强泛化性。

II Related Work

在本节中,作者将相关研究分为三个部分进行介绍:用于BEV理解的视角转换,以及HD地图和状态空间模型的最新进展。

View Transformation for BEV Understanding

由于单目摄像头没有深度信息是当前研究的主要焦点,因此将视觉视角转换到BEV坐标系统的转化变得具有挑战性。根据视图转换的研究,当前方法可以大致分为两类:2D-3D转换方法和3D-2D转换方法。

深度,对BEV理解至关重要,是2D-3D方法的关键。基于深度估计网络,LSS [19] 联合内参和外参将视角特征投影到BEV特征。为了提高深度估计的鲁棒性,BEVDepth [21] 通过LiDAR传感器的深度真实值监督模型。与前述工作不同,VPN [20] 通过MLP层同时学习深度和相机参数。此外,PON [24]进一步研究了不同分辨率视角特征与不同距离的BEV特征之间的关系,采用类似的策略。然而,必须承认绝对深度的估计不能与相机参数分开,这意味着这些方法对数据集内的相机参数具有过度的依赖性。

另一种方法是3D-2D方法,它压缩从对应2D视角特征获得的3D特征,其中高度估计至关重要。在BEVFormer [23, 25]的工作中,由高度值等间隔采样得到的均匀分布的3D点,投影到视角视图中进行局部特征融合。然后,通过不同高度的3D特征压缩 BEV 特征。与将3D点坐标直接固定的设置不同,CVT [26] 利用可学习的 Query 间接学习空间位置特征。

Trans2Map [27] 找到BEV视图与视角图像上的列之间的对应关系。因此,在它们之间的这些线对之间选择一个混合注意机制来获得BEV特征。通常情况下,给定数据集中相同相机参数,在3D空间中学习高度相对容易。

然而,从不同参数的图像准确检测高度是相当具有挑战性的。与深度估计相似,高度检测与相机参数高度相关,说明跨数据集的泛化能力较难。IPM [14, 28] 是这一类别的一个特殊情况,其中采用固定高度。尽管它对公路平面检测友好,但在最近的高清地图研究中很少应用,一方面是因为由于不平路面造成的 distortion 问题,另一方面是因为缺乏与公路平面信息之间的交互导致信息稀疏。然而,具有出色泛化性能的IPM 值得进一步探索其潜力。

Online HD Map Learning

Ii-B1 Semantic Mapping

语义映射构建了网格式的道路地图在BEV空间中,HDMapNet [11]是一项开创性的工作,该工作采用了MLP的方法来实现深度和内部参数的隐式学习。

同样,BEVSegFormer [29]提出忽略相机的参数,通过学习 Query 选择得到BEV特征,从视角特征的角度通过注意力机制。在BEVerse [30]的工作中,语义映射是一种辅助任务,帮助构建感知和预测的统一框架。LSS [19]被选择作为视图变换模块,并引入了时间融合模块以提高感知的准确性。

最近,P-MapNet [31]探索了OpenStreetMap (OSM)在长途语义映射方面的先验性能。无疑,提高映射质量的其他方面还有待探索,包括离线地图融合 [32],地图更新 [33]和卫星地图融合 [34],这为HD地图中精确的结构提供了驱动力。

Ii-B2 Vectorized Mapping

向量化映射提供更轻量级的处理方式,将点线结合在一起。贝塞尔曲线是描述向量目标的合适结构,已应用于早期的映射工作[35, 36, 37]。如今,向量化映射往往倾向于采用多边线而不是贝塞尔曲线,因为它们的结构更简单。VectorMapNet [38] 是第一个构建多边线的向量映射的工作,其中IPM 被视为视图转换模块。基于深度视角特征,它采用了 IPM 来获取 BEV 特征。然而,他们忽略了从原始 IPM 图像中学习的必要性,这可能导致 BEV 空间中原始道路几何的学习。

MapTR [39] 开发了一个更简洁的向量化映射框架。GKT [40],采用基于 BEVFormer 的几何指导 Kernel  Transformer ,被选为默认视图 Transformer 。在其地图解码器中使用了多个 Deformable DETR [41] 基于的解码层。

在他们最近的工作 [10] 中,探索了 BEVPool [42] 和深度监督在向量化映射中的组合效应。不出所料,这种组合产生了显著的结果。在随后的研究中,部分关注点解码器 [43, 44, 45] 的研究,因为合适的点解码器可以显著提高映射精度。另一个研究方面 [13, 46] 集中在时间融合。

StreamMapNet [13] 采用了广泛应用于目标检测 [47, 48] 的流式策略,是大规模时间融合的经典解决方案。MapTracker [46] 将目标跟踪概念引入时间融合。由于向量化映射的目标是服务于下游任务,因此正在进行的研究工作 [49, 50] 是探索如何将向量化映射无缝集成到诸如路径规划等任务中。同样,模型在实际环境中灵活应用的能力也非常重要,这意味着具有强泛化和稳健性的模型值得研究。

然而,在线 HD 地图学习的泛化性尚待探索,仅 SemVecNet [51] 的相关工作。该工作通过 LiDAR 值将视角图像的语义标签投影到构建语义 BEV 映射。然后,作为中间表示的语义 BEV 映射被转换为向量映射。

然而,这种方法需要对视角图像进行预处理,并且只能在一个配备了 LiDAR 的环境中应用,限制了其在实际环境中的适用性。与这项工作不同,作者关注的是建立一个仅使用摄像机观测的灵活 HD 地图构建框架,可以应用于现有的在线 HD 映射结构的多种现有架构。

State Space Models

最近出现的State Space Model (SSM)[17]在建立长程依赖关系方面为各种任务提供了吸引力。特别是在Mamba[52]中,计算复杂性得到降低,使得它适用于处理具有长序列数据的研究,即语言理解[53]。此外,该模型也应用于视觉学习,涉及计算密集型推理任务。U-Mamba[54]和SegMamba[55]将Mamba和卷积神经网络结构混合,以实现语义场景分割。VMamba[56]表现出线性复杂性,具有全局感受野和动态权重的优势,它引入了一个交叉扫描模块来合并一维序列特征,采用了四方向选择性扫描方法。MambaVision[57]提出了一种混合框架,可以捕捉短程和长程依赖关系。

VM-Unet[58]提出了一种分割框架,将VMamba作为基本单元,用于UNet。该研究表明,基于SSM的架构不仅提高了语义分割的准确性,还降低了计算复杂性,这是基于SSM的分割 Baseline 。

受到这些SSM工作成功应用的启发,作者进一步探索它们在HD地图中的应用。特别是,作者致力于研究和实现SSM在具有几何畸变的IPM图像中准确检测道路实例的能力。

III Method

Problem Formulation

Iii-A1 Inverse Perspective Mapping

BEV平面被划分为独立的小网格,表示为 ego坐标系的 。给定多视图视角图像(或特征 ,映射 )和内参 和外参 参数,通过一个假设的高度 ,可以得到 IPM图像 (或IPM特征 ,或IPM映射 ):

其中 表示所有网格的集合。 是摄像机坐标系统中的深度值。 是像素坐标系中的值。 是摄像机的数量。 是视角坐标系中图像 (特征或映射)的大小。 是原始图像的大小。

Proposed Pipeline of GenMapping

如图3所示,基因组映射框架遵循三元协同结构,包括一个主要组件和两个辅助组件。主要分支(III-B1)学习IPM图像中的全局语义特征。同时,密集视点分支(III-B2)专注于从视点视角理解特征的空间关系。稀疏先验分支(III-B3)依赖于OpenStreetMap (OSM)的潜在可行驶区域知识。最终,辅助分支在三元增强融合(Tri-EM) (III-B4)中执行与主要分支的特征对齐和融合。

此外,作者提出了一种跨视图地图学习(CVML) (III-C)来提高联合学习能力,以及一种双向数据增强(BiDA) (III-D)来减小训练中的过拟合。该框架本质上由语义图引导,可以灵活地集成到其他模型中,例如向量化映射模型。在本论文中,语义 Head 的输入特征被用作简单的BEV特征,以供向量化映射模型吸收。

Iii-B1 The Principal Branch

该分枝的输入为IPM图像 ,它是由初始的多视图视角图像 转换而来的,如式1至式4所述。注意,式4中的 的大小。然而,从IPM图像中学习时面临局部几何失真的挑战。作者考虑是否可以利用全局策略,如现代状态空间模型(SSM),在全局互建模和线性计算复杂性方面表现出色,如式5至式8所示。

因此,作者提出了一种分枝,利用从SSM获取的长程依赖。主分枝是基于UNet架构的编码器-解码器结构,由单独的视觉Mamba(VM)块组成。具体而言,来自编码器的融合特征和对辅助分支的特征输入解码器以获得解码特征 。最后,一个传统的层用于解码语义图

一个VM块由几个视觉状态空间(VSS)子块组成,有两个分支。在VSS子块中,在进入两个分支之前,使用输入归一化函数对输入 进行归一化。第一个分支包含一个线性层(Linear)和激活函数(SiLU [59]):

第二个分支中的特征依次经过线性层(Linear)、逐点卷积(DSConv),激活函数(SiLU)和二维选择扫描模块(SS2D),如式6所示。

此外,SS2D具有三个组件:扫描扩展操作,S6块和扫描合并操作,类似于V Mamba [56]。在经过层归一化(LN)后, 与第一个通过标量相乘(Element-wise Production,EP)进行融合。然后,通过线性层学习到的融合特征与残差连接相结合,输出

Iii-B2 The Dense Perspective Branch

由于IPM图像仅捕获道路平面特征,因此上下方信息丢失。本分支旨在补充来自视角图像的不同信息,从两个方面进行考虑。首先,虽然IPM图像和视角图像中的道路视觉描述相似,但相同结构的周围分布在这两张图像中由于不同的坐标系统而出现差异,拥有不同的局部特征分布。

此外,IPM图像只保留视角图像中的道路平面,与高于道路平面的其他动态和静态目标缺乏互动,如图3所示。然而,这些互动在视角图像中可以得到充分的探索。因此,本分支将多视图视角图像输入轻量级语义分割网络,以捕捉丰富的道路特征。

在本段中,作者旨在利用视角图像中道路结构的分化局部特征。经典轻量级卷积网络ERFNet [60]被选择。通过设计非瓶颈1D模块,该网络能够在提高准确性的同时保持效率,从而实现上下文信息的有效捕获。

最后,作者得到了视角图像上的道路图 和视角图像的深度特征

Iii-B3 The Sparse Prior Branch

在简单环境下,IPM图像能准确地描绘道路平面。然而,在复杂场景中,IPM图像可能会遭受严重的空间失真问题,这会阻碍准确道路结构定位,如图3所示。因此,在本节中,作者通过从OpenStreetMap(OSM)中利用稀疏先验知识来解决这些问题。它描述了驱动区域的中心线,以向量形式表示。

车辆的GPS坐标可以协助在数据库指定范围内捕获OSM。由于OSM数据是矢量格式,每个本地OSM数据都可以进行离散化以获得OSM的网格地图表示, ,作为本分支的输入。为了保持主分支的形状,采用了填充操作

.(式12)

然后,设计两个由卷积层组成的单位层,以获取驱动区域的退化特征。

.(式13)

,(式14)

,(式15)

其中, 都是基于卷积结构的下采样函数。在这里, 表示卷积核是4,步长是2,填充是1。 的定义类似。 是激活函数。 是批量归一化操作。

Iii-B4 Triple-Enhanced Merging

在与两个辅助分支同步学习后,从主要分支的稠密视图分支中可以得到视角特征 ,而从先验分支中可以得到 OSM 特征 ,如图4 所示。这些辅助特征在主要分支的编码器和解码器之间进行汇总。

视角特征位于 BEV 空间之外,BEV 坐标系 通过特征 IPM 技术从视角特征 获得,如公式 1 到公式 4 所述。在这里, 被替换为公式中的视角特征 ,其他参数相应地调整。需要注意的是,







请到「今天看啥」查看全文


推荐文章
大家-腾讯新闻  ·  叶克飞:好兵帅克式的抵抗,贯穿捷克百年
8 年前
V保险  ·  这样卖保险,签单更容易...
8 年前
中国房地产数据研究院  ·  2017中国top100优秀商业地产企业评选活动
7 年前