专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

端到端新SOTA！GPVL：3D视觉语言预训练的生成式规划新框架！

自动驾驶之心 · 公众号 · · 2025-01-22 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 同济大学最新工作—GPVL：采用3D视觉语言模型的生成式规划新框架 ！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『端到端』 技术交流群

论文作者 | Tengpeng Li等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

自动驾驶是一项具有挑战性的任务，需要对自动驾驶汽车的周围环境有深刻的了解，以确保安全和高效的实际部署。优秀的自动驾驶系统必须能够全面感知驾驶环境，并根据道路信息准确做出规划决策。最近，提出了几种端到端自动驾驶框架，并通过传感器数据了解驾驶场景并输出规划决策，取得了可喜的成果。一些早期的方法直接获得预测的规划轨迹，而没有彻底了解驾驶场景，导致可解释性有限且难以收敛的问题。

通过上图可以看出，大多数方案利用传感器信息将多个视觉任务（例如：3D 物体检测和运动预测）集成到一个网络中，以提高规划性能。然而，这些仅基于视觉的方法难以结合上下文线索进行安全决策，需要进一步的进行优化。随着大语言模型 (LLM) 的快速发展，出色的推理能力引起了人们的极大兴趣，并促进了自动驾驶领域的应用。如上图(b)所示，最近的几种方法引入了多模态大语言模型 (MLLM) 来产生驾驶解释和语言注入规划结果。

尽管如此，这些在 2D 视觉语言数据集上预先训练的模型在理解驾驶场景中复杂的 3D 空间关系方面仍存在困难。因此，几种有效的策略被设计来克服上述挑战，例如直接使用检测到的关键物体的 3D 边界框并将鸟瞰图 (BEV) 特征与可学习查询相结合。然而，这些先进的策略仅仅整合了 2D 和 3D 视觉信息，而没有充分解决 3D 视觉特征与语言表示的对齐问题。

针对上述提到的相关问题，我们提出了一种用于自动驾驶的采用3D视觉语言预训练范式的生成规划框架，称为GPVL。在nuScenes数据集上的大量实验结果表明，与SOTA的算法模型相比，所提出的方案取得了出色的性能。此外，所提出的 GPVL 在处理各种场景中的高级命令时表现出强大的泛化能力和实时潜力。

文章链接：https://arxiv.org/pdf/2501.08861；

网络结构&细节梳理

在详细介绍本文提出的算法模型技术细节之前，下图展示了提出的GPVL算法模型的整体网络结构图。

通过上图可以看出，GPVL算法模型包括三个关键部分，主干网络基于提取的BEV特征生成有监督的检测、地图和运动特征；其次，3D视觉语言预训练模块旨在将视觉和语言特征对齐到共同的语义空间中；最后跨模态语言模型以生成的方式输出可靠的决策和轨迹结果。

GPVL算法模型方法概览

整体而言，本文提出的GPVL算法模型的目标是生成自车的安全驾驶轨迹。为了获得令人满意的规划结果，提出了 GPVL 来建立 3D 视觉特征与语言表示之间的语义关联，并以自回归的方式生成高质量路线。

具体而言，针对输入的多视角图片，我们首先使用预训练的BEVFormer中的Encoder模块来提取BEV特征。在此之后，BEV特征喂入到检测、运动以及地图Transformer中来同时学习3D目标框、代理运动以及地图元素，进而得到检测特征、运动特征以及地图特征。然后，检测、运动以及地图特征被送入到具有多个transformer层堆叠组成的视觉注意力模块中生成具有注意力的视觉特征以及拼接后的特征。同时，环境真值描述被集成到了基于BERT的文字注意力模块中用于获得各自的文字表达。此外，进一步设计了一个分组对齐模块，将这些视觉和语言特征投射到共享语义空间中。最后，将所有特征拼接的结果特征与自车的导航prompt一起输入到语言模型中，以自然语言的格式生成可靠的轨迹。

3D 视觉语言预训练

3D视觉语言预训练模块旨在通过对比学习方式建立视觉和语言模式之间的多层次对齐。以前的几种方法已经引入了预训练的LLM来增强对驾驶场景的感知和理解。然而，这些方法要么缺乏3D空间信息，要么在不同表示之间表现出语义差距，这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下，我们提出的GPVL模型利用监督检测、运动和地图特征来感知目标的3D空间分布，并通过3D视觉语言预训练模块最大限度地减少不同特征之间的语义差距。

BEV-injected Visual Features

在提出的GPVL算法中，我们引入了驾驶场景中的三种目标，包括前景目标、代理运动和地图元素。我们首先利用视觉嵌入层来编码检测、运动以及地图特征到相同的通道维度。然后，引入了 Transformer 结构，通过长距离注意力机制建立紧凑的交互，以增强视觉特征。整个函数可以表示成如下的形式

随后，将注意力检测、运动和地图特征沿空间维度进行整合，以获得全局视觉特征。

Environmental Linguistic Features

为了赋予模型语言感知能力，我们利用 BERT 结构提出了一个文本注意模块。该模块处理感知和规划标签，例如边界框、未来轨迹和地图元素，并使用预定义模板将其转换为特定于驾驶的语言提示。随后将与检测、运动和地图特征相关的描述输入到文本注意模块中，以生成相应的语言表示。现在，整个过程可以表述为如下的形式

随后，这些描述性特征被拼接起来，形成全局文本表征。

Group-wise Alignment

为了充分利用不同特征之间的多级关联，我们利用对比学习设计了分组对齐策略。考虑了四种类型的 3D 视觉语言 (VL) 对齐组，包括检测相关 VL 组、运动相关 VL 组、地图相关 VL 组和全局 VL 组。例如，在一批个训练样本中，对齐函数旨在将匹配的 VL 样本视为正样本，将不匹配的 VL 样本视为负样本。给定视觉特征和文本特征作为输入，对比损失定义为如下的形式。

在该模块中，引入了可学习的权重来探索不同表示之间的细粒度关系。例如，检测相关的 VL 组的相似度函数可以表示为如下的形式。

因此，总的组对齐损失可以用如下的公式进行表示。

Planning via Cross-modal Language Model

自车与代理直接的交互是自动驾驶系统中的一个重要问题。先前的研究尝试引入可学习查询来为自车的查询特征建模自车与代理之间的关系，并将其发送到多层感知机以获取预期的未来轨迹。虽然此策略可以在特定的基准数据集上呈现良好的性能，但直接使用 MLP 生成轨迹可能会导致过度拟合，并且难以推断生成的轨迹路径点之间的上下文关系。面对这些挑战，我们开发了一种用于生成规划的跨模态语言模型，以使 GPVL 能够以合理和稳健的方式做出安全决策。

Ego-agent Cross-modal Decoder

所提出的模型为自动驾驶汽车的当前状态制定语言提示，包括其高级驾驶命令和位置。信息提示被发送到文本嵌入层，以产生自动驾驶汽车的初始语言表示。同时，设计的场景字幕模型生成视觉描述（例如，交通信号灯、标志、关键物体和天气）。随后，环境视觉特征和提示特征被输入到语言模型中，以学习具有丰富驾驶场景和导航信息的规划特征。该过程可以表述为如下的形式

最后，预测出来的特征被送入到线性层和Softmax函数中生成词向量

Generative Planning

与大多数视觉字幕任务类似，引入交叉熵损失以语言建模方式输出轨迹。在训练期间，每个样本都配备一个提示字幕真值作为参考，其中包括高级命令和自车的未来轨迹，损失函数表示为如下的形式。

实验结果&评价指标

本文将所提出的算法模型与13种自动驾驶方法进行了比较，其中包括8种传统非自回归方法和 5 种LLM注入自回归方法。

下表展示了所提出的 GPVL算法模型与其他SOTA算法模型的统计结果比较。总体而言，GPVL 的表现性能明显优于其他方法。具体而言，与 VAD算法模型相比，GPVL 在 L2 距离度量中获得了最低的得分，并且明显减少了规划位移误差（1s 时 0.18m、2s 时 0.28m、3s 时 0.34m 和平均 0.27m），表明轨迹预测的准确性更高。

此外，GPVL 在大多数碰撞率指标中表现出最佳性能，凸显了其在避免碰撞方面的卓越安全性和稳健性。与引入辅助任务或使用 LLM 的方法相比，所提出的方法保持了相当的规划性能，实现了 188.7 毫秒的延迟和 5.3 fps 的推理速度，具有实际应用的潜力。根据BEV-Planner的报告，所提出的方案排除了自车状态信息以防止捷径学习。

下表显示了在左转、右转和直行命令方面评估的 L2 和碰撞得分。很明显，GPVL 在所有指标上的表现都明显优于 UniAD 和 VAD。在 nuScenes 数据集中，87.7% 的训练样本和 88.2% 的验证样本由简单的直行场景组成。因此，UniAD 和 VAD 更容易在这些样本上过度拟合和学习捷径，导致在更复杂的转弯场景中表现不佳。相比之下，所提出的方法在所有场景中都获得了良好的结果，在各种驾驶情况下都表现出强大的泛化能力。

此外，为了更加直观的展示我们算法模型的有效性。下图展示了GPVL算法模型生成的规划结果与 VAD 和真值的比较。为了充分了解驾驶场景，包括多视角摄像机图像，并在前置摄像机图像中可视化规划轨迹。

总体而言，得益于提出的 3D 视觉语言预训练模块和跨模态语言模型，设计的模型可以生成准确合理的轨迹。例如，在第一个场景中，当指示自车直行时，GPVL 生成的轨迹引导车辆安全地穿过城市道路。相比之下，VAD 的轨迹有与路边相撞的风险。在第三种情况下，GPVL 的结果与真值情况非常一致，使车辆能够在路口安全地左转。然而，VAD 的规划决策更具侵略性，可能会导致与迎面而来的车辆相撞。

下表中的消融实验结果系统地调查了 GPVL 关键组件对 nuScenes 数据集的贡献。如果没有感知模块，GPVL 很难检测前景物体、预测运动和构建地图，从而导致更高的 L2 和碰撞分数。禁用 VLP 和 GA 组件会显著降低性能，凸显出模型在视觉和语言理解之间架起桥梁的强大能力。没有 GA 会导致明显的性能下降，表明其在细粒度特征关联中的重要性。排除 CLM 会增加 L2 和碰撞分数，强调其在生成合理规划决策中的作用。最后，如下表第六行所示，所有模块的集成产生了最佳性能，展示了组合系统的协同效应。