专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

中科院开源 TopoLogic | 利用几何距离拓扑推理方法,无需重新训练,显著提升车道拓扑推理的性能!

智驾实验室  · 公众号  ·  · 2024-06-07 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

作为将感知与推理相结合的新兴任务,自动驾驶场景中的拓扑推理最近受到了广泛关注。

然而,现有工作常常强调“感知优于推理”:它们通常通过增强对车道的感知来提升推理性能,并直接采用多层感知机(MLP)从车道 Query 中学习车道拓扑。

这种范式忽略了车道本身固有的几何特征,并且容易受到车道线检测中固有的端点偏移的影响。

为了解决这个问题,作者提出了一种基于车道几何距离和车道 Query 相似性的可解释车道拓扑推理方法,名为TopoLogic。这种方法减轻了几何空间中端点偏移的影响,并在语义空间中引入了显式的相似性计算作为补充。

通过整合两个空间的结果,作者的方法为车道拓扑提供了更全面的信息。

最终,作者的方法在主流基准OpenLane-V2上的表现显著优于现有最先进的方法(在子集A上的TOP 为23.9对10.9,OLS为44.1对39.8)。

此外,作者提出的几何距离拓扑推理方法可以整合到经过良好训练的模型中,无需重新训练,显著提升车道拓扑推理的性能。

代码已发布在https://github.com/Franpin/TopoLogic。

1 Introduction

近年来,自动驾驶领域取得了众多里程碑式的成就,并逐步从纯理论研究转向实际应用。在复杂的驾驶场景中,车辆需要感知车道和交通元素,并推理它们之间的拓扑关系(即车道的连通性和与交通元素的对齐关系),这为下游的路径规划和运动控制提供了全面的信息。在端到端自动驾驶的趋势下,上述感知和推理被整合为单一任务,在自动驾驶场景中称为拓扑推理[1]。这一挑战引起了自我规划[2; 3; 4]和高清晰度地图学习社区的广泛关注。

拓扑推理任务近年来受到了极大的关注,因为它更贴近实际需求。一些研究探索了车道中心线表示[1; 9; 10]和车道段表示[11],而其他研究引入了SDMap(标准定义地图)[12]为学习提供额外的线索。然而,现有工作主要集中在提高感知部分的性能,对推理部分的修改很少。

无论方法细节如何,现有研究通常采用普通的MLP(多层感知器)直接从车道 Query 中学习车道拓扑。

这种范式的缺点是:由于每个车道都是通过不同的 Query 独立编码的,因此很难确保两个连通车道的端点严格重叠,如图1(b)所示。相比之下,显然地,图1(a)中 GT 中两个连通车道的端点实际上完美重叠。端点略有偏移的车道可能会被MLP错误地分类为不连通。

这导致MLP容易预测较少的车道拓扑,如图1(c)所示。

为了解决上述问题,作者提出了 TopoLogic,一种基于车道几何距离和语义空间中车道 Query 相似性的可解释车道拓扑推理方法。

基于几何距离的方法旨在减轻端点偏移的影响,从而更稳健地学习车道拓扑。这种方法首先计算车道之间的几何距离,然后使用可学习的映射函数将距离映射到连通性概率。

值得注意的是,对于给定的两条车道,它们的几何距离定义为一条车道的端点与下一条车道的起点之间的距离。这个距离本身可以作为一个很强的标准:当这个距离在一定范围内时,预测的端点应被视为重叠,并且车道是连通的;否则,它们不是。

这样,车道拓扑推理对端点偏移变得更加宽容,从而变得更加准确。值得注意的是,即使仅将几何距离方法作为后处理应用而不重新训练,也能显著提高车道拓扑推理的SOTA模型的性能,如图1(d)所示。此外,当车道线检测不精确时,如图4所示,完全基于几何距离推理车道拓扑可能导致不准确,因为车道几何距离的计算严重依赖于车道线检测的准确性。

为了弥补几何距离方法的不足,作者设计了一个额外的基于车道 Query 相似性的拓扑方法作为补充。这种方法将车道 Query 投影到高维语义空间中,并明确计算车道 Query 之间的点积以确定相似性,然后使用sigmoid将这种相似性映射到车道拓扑上[13]。

计算车道 Query 相似性的方法补充了用于计算车道几何距离拓扑的方法,并且同样具有很高的可解释性。通过融合两种方法得到的拓扑矩阵,得到最终的车道拓扑。此外,车道拓扑也用于GNN中,通过从相邻车道聚合特征来增强车道学习。

总之,作者的贡献如下:

1. 作者确定了当前拓扑推理研究的现状是“感知优于推理”,并揭示当仅使用MLP进行车道拓扑推理时,车道拓扑很容易受到车道线检测中端点偏移的影响。

2. 作者提出了一种可解释的方法,称为TopoLogic,通过计算车道几何距离和高维语义空间中车道 Query 的语义相似性来进行车道拓扑推理。 3. 在主流基准OpenLane-V2上进行的广泛实验表明,作者的方法显著优于现有最先进的方法,特别是在车道拓扑指标上。即使仅作为后处理步骤应用而不重新训练,所提出的几何距离方法也能显著提高训练有素的车道拓扑推理模型的效果。

2 Related Work

二维图像分割有着悠久的历史,已经提出了许多算法。传统方法主要包括基于边缘检测[1],基于区域的方法[2],以及基于图的方法[3]。随着深度学习的发展,卷积神经网络(CNN)在图像分割任务中被广泛应用,并显著提高了分割算法的性能。FCN[4]首次使用CNN进行像素级预测,从此之后,各种改进方法如U-Net[5],SegNet[6],和PSPNet[7]等被提出。

Lane Detection

车道线检测在自动驾驶中起着重要作用,这是车道拓扑推理的基本方面。在车道线检测领域,一些工作[14; 15; 16]试图在分割图上执行车道线检测。此外,一些研究行人使用基于向量的方法进行3D车道线检测[17; 18; 19; 20],然而,这些方法依赖于 Query 中预定的一系列Y轴坐标来预测3D车道,因此缺乏单独沿Y轴预测3D车道位置的能力。

在最近的研究中,TopoNet[1]利用图神经网络(GNN)[21]来增强对车道中心线的感知,而TopoMLP[9]使用PETR[22]进行中心线检测。LaneSegNet[11]设计了一种车道关注机制来加强车道段的感知,SMERF[12]引入了标准定义(SD)地图作为附加输入以增强对车道中心线的感知。

在作者的工作中,通过使用GNN聚合相邻车道的特征来增强车道学习,这涉及计算车道几何距离和车道 Query 相似性。

Lane Topology Reasoning

在车道拓扑推理中,对车道拓扑的准确理解对于自动驾驶中的有效导航和决策至关重要。已经提出了一些方法[23; 24; 25; 26; 27]来解决这个问题。STSU[28]模型受到DETR[29]的启发,并采用了神经网络架构,辅以MLP建立线条连通性。

在此基础上,Can等人[30]引入了最小循环 Query 来细化中心线,确保重叠线条的准确排序,从而提高精度。进一步的进展包括中心线[1; 12; 10; 9]和车道段[11]的感知。其中,CenterLineDet[10]和TopoNet[1]都将车道线视为顶点,并利用基于图的模型更新车道表示和车道拓扑。

虽然这些方法主要依赖MLP生成邻接矩阵来表示车道拓扑。在作者的工作中,作者分别基于车道之间的几何距离和高维语义空间内车道 Query 的相似性计算车道拓扑矩阵,然后将它们融合形成最终的车道拓扑。

几何和语义空间的融合丰富了模型对车道拓扑的理解,因此在驾驶场景分析和决策制定方面提高了性能。

3 Method

Problem Definition

在车辆环视摄像头捕获的图像中,车道拓扑推理需要在鸟瞰图(BEV)中感知车道实例,然后推理这些车道实例之间的拓扑关系。车道实例感知的增强有助于推理车道拓扑。车道实例被描述为一组有向车道线,表示为 。每条车道线由一系列有序点组成,表示为 。车道实例之间的拓扑关系表示有向车道的连通性,它被描绘为一个拓扑图 ,其中边集 。如果车道 的终点连接到车道 的起点,则 中的条目 为正。

Overview

如图2所示,作者提出的TopoLogic方法以车载摄像头拍摄的多视角图像作为输入。这些图像通过一个 Backbone 网络进行处理,以生成多尺度图像特征。多尺度图像特征通过一个视图转换模块变换为鸟瞰图(BEV)特征,然后传递给车道可变形解码器以生成用于车道线检测的车道 Query 。所提出的车道几何距离方法和车道相似性方法分别计算车道拓扑。最终,这两种拓扑被融合并输入到图神经网络(GNN)中,以增强下一解码层中的车道线学习。

Lane Geometric Distance Topology

车道几何距离矩阵。 车道 Query 可以通过车道 Head 生成多条有向车道线。作者可以通过计算一条有向车道线终点与下一条车道线起点的几何距离来评估这些车道之间的连通性。

(2)

其中 是车道几何距离, 分别表示前一条和后一条车道线, 表示 之间的几何距离, 表示车道线 的最后一个点, 表示车道线 的第一个点。

距离到拓扑映射函数。 在获得车道的几何距离矩阵 后,有必要将车道几何距离映射到车道拓扑中。车道拓扑可以用一个范围在 0 1 的矩阵表示。零表示两条车道之间没有连接,而一表示有连接。这个映射函数需要捕捉以下概念:当输入 时,意味着两条车道非常接近,输出 ,表明这两条车道很可能是连接的。反之,当 时, 。受到高斯函数的启发,作者可以设计以下可学习的映射函数:

其中 是几何距离矩阵 的标准差。 是可学习参数。借助这种映射,作者可以得到以下车道拓扑:

还存在着一些满足条件的常见替代函数,例如高斯函数、基于sigmoid的函数和基于tanh的函数,如方程 6(a,b,c)。作者在图3 中将它们与 进行了比较。显然, 对于确定拓扑连通性设置了更大的几何距离阈值,相比于 ,这使得车道拓扑对端点偏移更加健壮。表3 中的消融研究也验证了这一观点。

Lane Similarity Topology

基于车道线几何距离的车道拓扑推理,在车道线检测准确时可以取得令人满意的结果。

然而,由于这种拓扑推理方法严重依赖于检测到的车道线,车道线检测的不准确可能会干扰几何方法,导致错误的推理结果,如图4所示。鉴于这种情况,作者在高维语义空间内计算车道 Query 之间的相似性来进行车道拓扑推理。 之间的相似度越高,表明车道之间连通的可能性越大;相似度越低,则表示车道之间不存在连通性。作者最初使用两个不同的MLP对 进行编码,然后通过计算两个编码结果的内积来表示相似性。最后,作者需要一个函数将 之间的相似性映射到车道拓扑。考虑到车道相似性与车道拓扑之间的相关性,作者使用sigmoid函数将车道相似性映射到车道拓扑。这个过程如下:







请到「今天看啥」查看全文