题目:Neural Map Prior for Autonomous Driving
名称:自动驾驶的神经先验地图
论文:https://arxiv.org/abs/2304.08481
单位:上海期智研究院、清华、MIT、理想
会议:2023
0.摘要
高清语义地图对于自动驾驶汽车在城市环境中行驶至关重要。传统的制作离线高清地图的方法需要耗费大量人力的手工标注过程,不仅成本高,而且无法及时更新。最近的研究提出了另一种方法,即利用在线传感器观测生成本地地图。然而,这种方法受到传感器的感知范围和对闭塞的敏感性的限制。在这项研究中,我们提出了神经地图先验(NMP),一种全局地图的神经表示。这种表示自动更新自身,提高了本地地图推理的性能。
具体来说,我们利用两种方法来实现这一目标。首先,为了将强地图先验集成到局部地图推理中,我们应用了交叉注意,这是一种动态识别当前和先验特征之间相关性的机制。其次,为了更新全局神经地图,我们利用基于学习的融合模块来指导网络融合以前遍历的特征。基于nuScenes数据集的实验结果表明,我们的框架与各种地图分割和检测体系结构高度兼容。即使在具有较长感知范围的恶劣天气条件和情况下,它也能显著提高地图预测性能。据我们所知,这是第一个基于学习的全球地图先验创建系统。
1.介绍
自动驾驶汽车需要高清语义地图来准确预测其他智能体的未来轨迹,并在城市环境中安全导航。然而,这些车辆中的大多数依赖于昂贵且劳动密集型的预标注离线高清地图。这些地图是通过一个复杂的管道构建的,包括多次激光雷达扫描和测量车辆,全球点云对齐以及手动标注地图元素。尽管这些离线地图解决方案的精度很高,但它们的可扩展性受到限制,并且它们不支持及时更新以响应不断变化的路况。因此,自动驾驶汽车可能会基于过时的地图进行操作,这可能会危及驾驶安全。
最近的研究探索了利用机载传感器观测数据(如相机图像和LiDAR点云)构建高清语义地图的替代方法[11,13,15]。这些方法通常使用深度学习技术来实时推断地图元素,从而解决与离线地图相关的地图更新问题。然而,与预先构建的全局地图相比,这些推断地图的质量通常较差。在不利的天气条件或闭塞的情况下,这种质量会进一步下降。不同语义图构建方法的对比如图1所示。
图1所示:语义图构建方法的比较。传统的离线语义映射管道(第一行)涉及复杂的手动标注管道,不支持及时的映射更新。在线高清语义地图学习方法(第二行)完全依赖于机载传感器观测,容易受到遮挡的影响。
我们提出了神经地图先验(NMP,第三行),这是一种创新的全球地图神经表示,旨在帮助车载地图预测。NMP在不断整合来自自动驾驶车队的新观测数据的同时,也在逐步更新。
在这项研究中,我们提出了神经地图先验(NMP),这是一种结合了两者优点的新型混合地图解决方案。NMP利用神经表征预先构建和更新全局地图,从而提高局部地图推理性能。NMP方法包括两个重要阶段:全局地图先验更新和局部地图推断。之前的全局地图是通过聚合来自自动驾驶汽车车队的传感器数据自动开发的。然后将机载传感器数据和全局地图先验集成到局部地图推理过程中,随后对地图先验进行细化。这些程序在一个反馈回路中相互关联,随着每天从穿越道路的车辆收集到的数据越来越多,反馈回路变得越来越强。图2显示了一个示例。
图2:在恶劣天气条件下自动驾驶的NMP演示。雨天的地面反射使在线高清地图预测变得更加困难,给自动驾驶系统带来了安全问题。NMP有助于做出更好的预测,因为它结合了在晴天经过同一地区的其他车辆的先验信息。
从技术上讲,全局NMP被定义为稀疏的地图块,其中每个块对应于特定的现实世界位置,并以空状态开始。
对于自动驾驶汽车的每次在线观测,神经网络编码器首先提取本地鸟瞰(BEV)特征。然后使用相应的NMP先验特征对这些特征进行细化,这些特征来源于全局NMP的地图tile。改进的BEV特征使我们能够更好地推断局部语义映射并更新全局NMP。当自动驾驶汽车在不同的场景中穿行时,局部地图推理阶段和全局地图先验更新步骤是相互加强的。这种迭代过程提高了预测的局部语义图的质量,并保持了一个更完整和最新的全局NMP。
我们证明了我们的NMP可以很容易地应用于各种最先进的高清语义地图学习方法,有效地提高了它们的准确性。通过在nuScenes数据集上进行的实验,我们的管道显示出显着的性能改进,包括HDMapNet的+4.32 mIoU, LSS的+5.02 mIoU, BEVFormer的+5.50 mIoU和VectorMapNet的+3.90 mAP。
综上所述,我们的贡献如下:
我们提出了一种新的映射范式,神经地图先验,它集成了离线全局地图的维护和在线局部地图的推理。值得注意的是,我们的方法的局部映射推理所需的计算和内存资源与以前的方法相当。
我们提出现在-先验-注意力和门控循环单元模块。这些方法适用于主流的高清语义地图学习方法,有效地提高了它们的地图预测性能。
我们在nuScenes数据集上对我们的方法进行了全面的评估,考虑了不同的地图元素和四种地图分割/检测架构。结果显示出一致性和显著的改进。此外,我们的方法在具有挑战性的情况下取得了实质性进展,例如恶劣天气条件和较长的感知范围。
2.相关工作
2.1 基于激光雷达SLAM的测绘
自动驾驶系统需要了解道路地图元素,包括车道,人行横道和交通标志,以导航世界。这种地图元素通常由现有管道中预标注的高清(HD)语义地图提供[26]。目前大多数高清语义地图都是手动或半自动地在环境的激光雷达点云上进行标注,并将配备高端GPS和IMU的勘测车辆收集的激光雷达扫描结果合并在一起。
SLAM算法是将激光雷达扫描融合成高度精确和一致的点云的最常用算法。首先,为了匹配两个相邻时间戳的LiDAR数据,采用了成对对齐算法,如ICP[1]、NDT[2]及其变体[29],使用语义[39]或几何信息[24]。其次,准确估计自我车辆的姿态对于构建全局一致的地图至关重要,可以将其表述为非线性最小二乘问题[10]。Yang等[35]提出了一种在成对对齐因子约束下基于位姿图优化的城市比例尺地图重构方法。为了降低人工标注语义图的成本,Jian等人[9]提出了几种从融合LiDAR点云和相机中提取静态元素的机器学习技术。然而,由于对高精度和及时更新的要求,维护高清语义地图仍然是一个费力而昂贵的过程。
在本文中,我们提出使用神经地图先验作为一种新的地图范式来取代人类策划的高清地图,支持及时更新全球地图先验并增强局部地图学习,可能使其成为自动驾驶的更具可扩展性的解决方案。
2.2 语义映射学习
语义地图学习是现实世界地图构建的一个基本挑战,在[18]中被表述为语义分割问题。已经采用了各种方法来解决这个问题,包括航空图像[19],激光雷达点云[34]和高清全景图[31]。为了提高细粒度的分割性能,文献[32]中提出了众包标签。
最近的研究主要集中在解读车载摄像头图像[17,36]和视频[4]中的BEV语义。由于输入和目标地图属于不同的坐标系,仅依靠机载传感器进行模型输入是一个挑战。交叉视图学习方法,如在[5,11,21,23,25,27,33,40]中发现的方法,利用场景几何结构来弥合传感器输入和BEV表示之间的差距。
我们提出的方法利用BEV特征的固有空间属性作为神经地图先验,使其与大多数BEV语义地图学习技术兼容。因此,这种方法具有增强在线地图预测能力的潜力。
2.3 神经表征
最近,在神经表征方面取得了进展[8,14,20,22,28,37]。NeuralRecon[30]提出了一种集成了重建和融合过程的隐式神经三维重建方法。不像传统的方法,首先估计深度,然后离线进行融合。同样,我们的工作通过使用编码的图像特征通过神经网络预先预测地图来学习神经表示。
3.神经地图先验
这项工作的目的是通过利用全局神经地图先验来提高局部地图估计的性能。为了实现这一点,我们提出了一个管道,如图3所示,该管道专门设计用于通过集成融合组件同时训练全局地图先验更新和局部地图学习。此外,我们通过为全局神经地图引入稀疏瓦片格式来解决与存储城市街道特征相关的内存密集型挑战,详见第4.8节。
图3:NMP的模型体系结构。上面的黄色方框说明了在线高清地图学习过程,它以图像为输入,通过BEV编码器和解码器进行处理,生成地图分割结果。
在绿框内,定制的融合模块——包括C2P注意力和gru——被设计成有效地整合编码器和解码器之间的先验地图特征,随后解码以产生最终的地图预测。在底部的蓝色框中,模型从存储中查询与当前BEV特征重叠的地图块。更新后,神经地图返回到先前提取的地图块。
问题设置:我们的模型在典型的自动驾驶系统上运行,该系统配备了一系列车载传感器,如环视摄像头和GPS/IMU,以实现精确定位。我们假设采用与[11]类似的单帧设置,采用BEV编码器和解码器用于推断局部语义映射的模型。BEV编码器用Fenc表示,解码器用Fdec表示。此外,我们创建并维护了一个全局神经地图Pg∈R(HG×WG×C),其中HG和WG分别表示城市的高度和宽度。每次观测由来自周围摄像机I的输入和ego车辆在全局坐标系Gego∈R4×4中的位置组成。我们可以使用Gego将BEV的每个像素的局部坐标,记为Lego∈R(H×W×2),其中H和W表示BEV特征的大小,转换为固定的全局坐标系。这种转换的结果是Pego∈R(H×W×2)。最初,我们获得在线BEV特征o = Fenc (I) ∈R (H×W×C),其中C表示网络的隐藏嵌入大小。然后,我们使用自我位置Pego查询全局先验Pg,以获得局部先验BEV特征Plt−1∈R(H×W×C)。然后对在线BEV特征和局部先验BEV特征应用融合函数,得到精细化的BEV特征:
最后,通过解码器Fdec将改进后的BEV特征解码为最终的地图输出。同时,使用frefine更新pg之前的全局地图。全局神经网络作为一个外部存储器,能够增量地整合新信息,同时提供知识输出。这种双重功能最终会提高局部地图估计性能。
3.1. 本地地图学习
为了适应现实世界中道路网络的动态特性,最近开发了先进的在线地图学习算法。这些方法仅根据机载传感器收集的数据生成语义地图预测。与之前的方法相比,我们提出的方法结合了神经先验来提高准确性。由于地图上的道路结构可能会发生变化,因此必须优先考虑最近的观察结果。为了强调当前特征的重要性,我们引入了一种不对称融合策略,该策略结合了现在-先验关注和门控循环单元。
3.1.1 现在-先验(C2P)交叉注意力
我们引入了当前到先前的交叉注意机制,该机制采用标准的交叉注意方法[16]在当前和先前的BEV特征之间操作。具体来说,我们将每个BEV特征划分成小块,并添加一组可学习的位置嵌入,这将在后面进行描述。当前的特性产生查询,而先前的特性产生键和值。然后应用一个标准的交叉注意,然后是一个完全连接的层。最后,我们将输出查询组合起来,以派生出精炼的BEV特征,这些特征与输入当前特征保持相同的维度。与先前和当前的特征相比,期望得到的改进的BEV特征表现出卓越的质量。
3.1.2 位置嵌入
据观察,随着与自我车辆的距离增加,预测地图的准确性会下降。为了解决这个问题,我们提出将位置嵌入(一组网格形可学习参数)集成到融合模块中。其目的是增强融合模块对特征位置的空间感知,使其能够学习信任距离自我车辆较近的当前特征,并更多地依赖于较远位置的先前特征。具体来说,在融合模块Ffuse之前,引入了两个位置嵌入:PEp∈R(H×W×C)用于先前的特征,PEc∈R(H×W×C)用于当前的特征。其中,H和W分别表示BEV特征的高度和宽度。这些嵌入为融合模块提供空间感知,有效地使其吸收来自不同特征距离和位置的信息。
3.2. 全局地图先验更新
为了使用C2P注意力模块生成的精细特征更新全局地图先验,引入了一个辅助模块,以达到当前和先验特征之间的平衡比例。这个过程如图3所示。直观上,该模块优先调节全局地图的更新速度。高更新率可能导致全局地图先验由于局部观测不理想而损坏,而低更新率可能导致全局地图先验无法及时捕捉路况变化。因此,我们在NMP中引入了门控循环单元[6]模块的二维卷积变体,用于平衡更新和遗忘比率。从全局神经地图先验Pgt−1中提取在t−1更新的局部地图先验特征Plt−1。C2P注意模块生成的精细化特征记为0′。将0′与局部先验特征Plt−1进行积分,GRU在时刻t得到新的先验特征Plt。随后,将这些特征通过解码器预测局部语义图,并直接用Plt替换先验Pgt,在相应位置更新全局神经图。设zt表示更新门,rt表示复位门,σ表示sigmoid函数,w * 表示二维卷积的权值,⊙表示Hadamard积。通过以下操作,GRU将o '与先验特征Plt−1融合:
在GRU中,更新门zt和复位门rt有助于确定先前遍历的信息(即先前特征Plt−1)与当前BEV特征o '的融合。此外,它们还控制了将当前BEV特征信息整合到全局地图先验特征图中的过程。GRU使模型能够更好地适应各种路况和更有效的测绘场景。
4.实验
数据集
我们在nuScenes数据集[3]上验证了我们的NMP, nuScenes数据集是一个大规模的自动驾驶基准,包括具有精确定位和注释的高清地图语义标签的多次遍历。NuScenes数据集包含火车中的700个场景,val中的150个场景,测试中的150个场景。数据收集使用一个工作频率为20赫兹的32束激光雷达和6个提供360度视野的12赫兹摄像机。关键帧的注释以2hz的频率提供。每个场景的持续时间为20秒,训练集和验证集的帧数分别为28,130帧和6,019帧。
指标
我们使用两个指标来评估HD语义学习的质量:平均交联(mIoU)和平均平均精度(mAP),如HDMapNet[11]所示。根据HDMapNet中详细介绍的方法,我们评估了nuScenes数据集上的三个静态地图元素:道路边界、车道分隔线和人行横道。
4.1 实验细节
基础模型
我们主要使用BEVFormer模型12进行实验,选择BEVFormer模型是因为其在BEV特征提取能力方面的优势以及在地图语义分割方面的卓越性能。为了验证我们方法的广泛适用性,如表1和表2所示,我们将我们的NMP范式纳入了最近提出的四种基于相机的地图语义分割和检测方法中,这些方法作为我们的基线模型:HDMapNet[11]、LSS[23]、BEVFormer[12]和VectorMapNet[15]。每种方法都实现了不同的2D-3D特征提升策略:HDMap-Net采用基于MLP的投影;LSS基于深度的投影;BEVFormer的几何感知类Transformer模型,以及VectorMapNet基于同形图的投影。在表4和表7的对比中,我们只使用GRU融合模块。
C2P注意力
对于当前先验注意力模块中的所有线性层,我们将特征的维度设置为256。对于patching,我们使用10 × 10的patching大小,对应于BEV中的3m × 3m区域。此设置在保留参数的同时保留本地空间信息。
全局地图分辨率
对于所有实验的栅格化神经图先验,我们使用0.3m的默认地图分辨率,并对表7中的分辨率进行消融研究。
4.2 神经地图先验有助于在线地图推理
在本节中,我们将展示NMP的有效性与各种模型体系结构和评估指标无关。为了说明这一点,我们将NMP集成到上述四个基本模型中:HDMapNet, LSS, BEVFormer和VectorMapNet。我们使用与原始设计相同的超参数设置。在训练过程中,我们将所有模块冻结在BEV特征之前,只训练C2P注意力模块、GRU、本地PE和解码器。为了测试,所有样本按时间顺序排列。如表1和表2所示,与基线模型相比,NMP持续提高了地图分割和检测性能。定性结果如图4所示。这些发现表明,NMP是一种通用的方法,可以潜在地应用于其他映射框架。
4.3 神经地图先验有助于看得更远
自动驾驶系统中使用的传统地图提供了视线之外道路的关键信息,有助于导航、规划和明智的决策。然而,最近采用车载摄像头作为在线地图预测的替代方法,在预测范围上引入了限制。这种限制是由于在捕获的图像中遥远区域的低分辨率引起的。为了克服这一限制,我们提出的NMP可以扩展在线地图预测的范围。具体来说,NMP利用了其他旅行产生的历史信息,封装了丰富的场景背景细节,大大增强了在线地图预测的能力。表3展示了这种增强,与基线方法相比,在不同的BEV范围内,包括60m × 30m, 100m × 100m和160m × 100m,分割结果一致。
4.4 Intra-trip融合优于Inter-trip融合
在表4中,我们展示了Inter-trip融合与Intra-trip融合在地图构建方面的有效性。Intra-trip是指融合仅限于一次遍历的场景,而Inter-trip融合模型使用在同一位置的多次遍历生成的map prior。研究结果表明,多遍历先验信息的整合更有助于精确的地图构建,突出了使用多遍历的重要性。
4.5 神经地图先验在恶劣天气条件下更有帮助
自动驾驶汽车在恶劣天气或低光照条件下行驶时面临挑战,例如下雨或夜间行驶,这可能会妨碍准确的道路信息识别。然而,我们的方法NMP可以在最佳天气和光照条件下捕获并保留道路的外观,从而为车辆提供增强和可靠的信息,以便在当前行程中精确感知道路。如表5所示,NMP在具有挑战性的条件下的应用,包括下雨和下雨,与正常天气情况相比,夜间驾驶会带来更大的改善。这表明我们的感知模型有效地利用了必要的信息来应对恶劣天气。然而,由于样本量较小,且可获得的前期旅行数据有限,因此在夜雨条件下,改善效果不太显著。
4.6. 组件烧蚀研究
4.6.1 GRU、C2P注意力与局部位置嵌入
在本节中,我们将评估第3节中提出的组件的有效性。为了便于比较,我们引入一个简单的融合基线,称为移动平均线(MA)。在这种情况下,用移动平均融合函数代替C2P注意力和GRU。对应的更新规则可以表示为:
其中α表示手动搜索的比率,其他符号在3.2节中定义。尽管GRU和MA作为更新模块都展示了相当的性能增强,但GRU是首选,因为它消除了MA中需要的手动参数搜索。GRU和CA都是有效的特征融合模块,从而大大提高了性能。C2P注意力相对于GRU的轻微优势表明,Transformer架构在融合先前特征上下文方面具有较小的优势。
比较表6中的C与E和F与G,我们观察到局部PE分别使交叉的IoU增加了2.67和2.72。这表明,局部PE改善了特征融合,特别是在具有挑战性的人行横道类别中。局部PE使模型能够事先从地图中提取额外的信息,从而补充当前的观测结果。在表6中C与F和E与G的对比中,C2P Attention使车道分隔器的IoU分别增加了1.83和2.05,突出了其在处理车道结构方面的有效性。注意机制基于空间语境提取相关特征,从而更准确地理解分割线和边界结构。
总的来说,消融研究证实了所有三个提出的特征融合和更新组件的有效性。
4.6.2 地图分辨率
我们在表7中研究了不同分辨率的全局神经先验对在线地图学习效果的影响。高分辨率是保存地图细节的首选。然而,在存储和分辨率之间存在权衡。我们的实验取得了良好的效果,分辨率为0.3m。具体来说,当当前帧的预测质量较好时,网络倾向于学习更大的zt,赋予当前特征更多的权重;当当前帧的预测质量较差时,通常在十字路口或离自我车辆较远的位置,网络倾向于对先验特征学习较小的zt。
4.7 数据集Re-split
在nuScenes数据集的原始分割中,一些样本缺乏历史遍历。我们采用了一种类似于《后见之明》[38]中提出的方法,重新分割波士顿的行程,并将其命名为波士顿分割。波士顿分割确保每个样本至少包含一次历史旅行,而训练样本和测试样本在地理上是不相交的。为了估计两个样本的接近程度,我们计算了两次遍历视场之间的面积重叠,特别是鸟瞰图中的IoU。这种方法得到7354个训练样本和6504个测试样本。原始分割和波士顿分割下的模型性能比较如表8所示。与原始分裂相比,在波士顿分裂上观察到的NMP改善更大。
4.8 地图 Title
我们使用map tile作为全局神经地图先验的存储格式。在城市环境中,建筑通常占据了相当大的一部分面积,而道路相关区域所占的比例较小。为了防止地图的存储大小与城市的物理规模成比例过度扩展,我们设计了一种存储结构,该结构将城市划分为由其物理坐标索引的稀疏块。它比密集磁贴少消耗70%的内存空间。此外,每辆车不需要存储整个城市地图;相反,它可以按需下载地图。训练后的模型保持固定,但这些地图块被更新、集成并异步上传到云。随着时间的推移,收集到的旅行数据越来越多,之前的地图变得越来越广泛,质量也越来越高。
5.结论
在本文中,我们介绍了一个新的系统,神经地图先验,旨在提高在线学习高清语义地图。NMP包括以增量方式对每帧进行全局地图先验更新和局部地图推理的联合执行。对nuScenes数据集的综合分析表明,NMP提高了在线地图推理性能,特别是在具有挑战性的天气条件和扩展的预测范围下。未来的工作包括学习更多的语义地图元素和3D地图。
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)