专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

CVPR 2024 国际自动驾驶挑战赛第一名！无图的解决方案！

智驾实验室 · 公众号 · · 2024-07-02 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

本报告介绍了2024年自主挑战赛的第一名解决方案——无需地图的驾驶。在报告中，作者引入了一种新颖的在线地图构建流程LGmap，该方法采用长距离时间模型。

首先，作者提出了对称视角变换（SVT），一个混合视角变换模块。作者的方法克服了正向稀疏特征表示的限制，并利用深度感知和SD先验信息。

其次，作者提出了分层时间融合（HTF）模块。它从局部到全局利用时间信息，这增强了构建具有高稳定性的长距离高清地图的能力。最后，作者提出了一种新颖的人行横道重采样方法。简化的行人横道表示加速了基于实例注意力的解码器的收敛性能。

作者的方法在无需地图的驾驶OpenLaneV2测试集上达到了0.66的UniScore。

1 Introduction

高清晰度（HD）地图是为高精度自动驾驶设计的，它包含实例 Level 的矢量表示，如人行横道、车道分隔线、道路边界等。道路拓扑和交通规则的丰富语义信息对自动驾驶导航至关重要。无地图驾驶轨迹[2]旨在从车载周围摄像头图像和SD地图动态构建局部HD地图。在这项工作中，作者提出了一种多阶段框架，将2D/3D元素检测和拓扑预测任务解耦。

作者的方法主要关注三个方面来应对竞争。

从近到远的融合。作者提出了一种创新的方法，将前向投影和后向投影策略与SD地图融合和深度监督相结合。
从局部到全局的融合。作者提出了一种新颖的在线地图构建流程，适用于短距离和长距离，整合了流式策略和堆叠策略。
人行横道重采样。作者将人行横道简化为4个角点，然后在每条边上均匀采样6个点。

2 Method

本节介绍了作者方法的具体细节。作者首先介绍LGmap架构的主要流程，如图1所示。然后呈现区域组件和车道线段组件。此外，作者引入了交通元素。最后，作者描述了基于注意力的拓扑推理头。

Pipeline

2.1.1 Encoder

主要有两种视图变换类型，正向投影和反向投影。Lift-Splat-Shoot (LSS)[4] 利用深度分布来模拟每个像素深度的不确定性。但正向投影的缺点是离散且稀疏的鸟瞰图（BEV）表示。BEVFormer [5] 将3D点反向投影回2D图像。作为一种反向投影，BEVFormer的一个局限性是由于遮挡导致的3D与2D空间之间的虚假相关性。为了解决这些问题，作者引入了一种对称视图变换。每个相机的深度图是从与激光雷达点云同步生成的。LSS只在训练阶段使用深度监督。给定场景的SD图，作者沿着每条多段线均匀采样固定数量的点。通过正弦嵌入，BEVFormer在每个编码器层将SD图的特性表示与来自视觉输入的特性之间应用交叉注意力。为了融合BEV表示，作者使用了基于通道注意力的融合模块。

2.1.2 Decoder

为了处理具有不同形状先验的不同地图元素，作者扩展了实例级检测解码器，增加了额外的分割任务。基于统一 Transformer 的实例检测和分割解码器从像素级分类任务和区域级回归任务中受益。额外的分割分支加快了实例级特征嵌入的收敛性能。

2.1.3 Temporal fusion

流式策略有助于更长时间的时间关联，因为传播的隐藏状态编码了所有历史信息。但是，像convGRU [6]这样的时间融合器仍可能面临遗忘问题。堆叠策略可能整合来自特定先前帧的特征，提供了在长距离信息融合中的灵活性。计算成本与融合的帧数线性相关。作者提出了一种新颖的分层时间融合（HTF）。分层时间融合充分利用了流式策略的局部融合能力和堆叠策略的长距离融合能力。与堆叠策略相比，它最大限度地减少了内存和延迟成本。在这里，作者介绍了HTF的两个变体，即流式-流式策略和流式-堆叠策略，如图2所示。对于流式-堆叠策略，在训练阶段，作者从最新的M个先前帧中随机选择N帧用于堆叠模式层。在测试阶段，通过一定的距离步长选择N帧。

2.1.4 Loss functions

首先，作者采用了与MapTR [8]相同的分类损失、点对点损失和边缘方向损失。其次，作者采用了与MapTRv2 [9]相同的图像分割辅助密集预测损失和深度预测损失。第三，作者采用了BEV实例分割损失。最后，作者采用了几何3D损失。与忽略Z轴的GeMap [10]的几何损失不同，作者将欧几里得损失的维度从2D扩展到3D。### 区域

受到Machmap [11]的启发，作者将人行横道简化为四个角。然后将这四个角统一为MapTR形式的N个点。主要区别在于MapTR使用20个均匀采样的点，MachMap使用4个点，而作者沿着每条边均匀采样6个点，如图3所示。

作者的人行横道表示保留了四个角作为关键点，这些是基本的形状先验。更重要的是，人行横道的排列比MapTR简单。与一个20个点的多边形MapTR的40个等效排列相比，LGmap只需要8个。作者不使用逐点排列，而只使用角点排列。最后，保留角点有利于实例 Query 嵌入。

Lane segments

基于回归分支的中心线输出，引入了一个偏移分支来预测左右车道边界的位置偏移，并引入两个分类分支来预测车道边界的属性，参考LaneSegNet [2]。

Traffic elements

作者采用YOLOv8作为基本的2D检测器，并且额外使用YOLOv9[3]进行模型集成。基于OpenlaneV2数据集，作者提出了一系列数据增强方法，不包括HSV变换和水平翻转，因为这些技巧可能导致交通灯和交通标志方向的混淆。数据集中类别的分布高度不平衡，有些类别的差异达到一个数量级。此外，在测试集上生成的伪标签也提高了结果。作者采用测试时增强（TTA），缩放范围在0.7-1.4之间，以改善小物体和大物体的召回率。

Lane-Lane topology

作者使用了TopoMLP方法[12]。首先，作者将中心线坐标传递给MLP，并将其添加到精炼的 Query 特征中。最后，作者应用MLP进行拓扑分类。

Lane-Traffic topology

作者使用中心线的坐标以及交通元素边界框的坐标和类别。由于没有使用特征嵌入，作者使用车道段和交通元素的真实数据进行拓扑模型的训练。通过与上游检测模型的解耦，拓扑的训练和预测过程变得更加方便。由于交叉口的复杂性，作者使用自注意力来促进元素间的信息交换并获得相对关系。

CVPR 2024 国际自动驾驶挑战赛第一名！无图的解决方案！

正文

1 Introduction

2 Method

Pipeline

2.1.1 Encoder

2.1.2 Decoder

2.1.3 Temporal fusion

2.1.4 Loss functions

Lane segments

Traffic elements

Lane-Lane topology

Lane-Traffic topology

3 Experiments

请到「今天看啥」查看全文

CVPR 2024 国际自动驾驶挑战赛第一名！无图的解决方案 ！

正文

1 Introduction

2 Method

Pipeline

2.1.1 Encoder

2.1.2 Decoder

2.1.3 Temporal fusion

2.1.4 Loss functions

Lane segments

Traffic elements

Lane-Lane topology

Lane-Traffic topology

3 Experiments

请到「今天看啥」查看全文

CVPR 2024 国际自动驾驶挑战赛第一名！无图的解决方案！