自动驾驶(AD)任务的快速发展转向了端到端的方式,特别是在利用视觉-语言模型(VLMs)方面,这些模型集成了强大的逻辑推理和认知能力,以实现全面的端到端规划。然而,这些基于VLM的方法往往将2D视觉标记器和大型语言模型(LLM)集成用于自我车辆规划,这缺少了可靠规划基石的3D几何先验。
自然地,这个观察提出了一个关键问题:
2D标记化的LLM能否准确感知3D环境?
作者评估了当前基于VLM的方法在3D目标检测、矢量化地图构建和环境描述方面的表现,不幸的是,答案似乎是
否定的
。换句话说,2D标记化的LLM无法提供可靠的自动驾驶。
为此,作者引入了类似DETR的3D感知器作为3D标记器,它们通过一层线性投影器与LLM连接。这种简单而优雅的策略,称为Atlas,利用了3D物理世界的固有先验,使其能够同时处理高分辨率多视角图像并运用时空建模。
尽管它的设计简单,但Atlas在nuScenes数据集上的3D检测和自我规划任务中表现出卓越的性能,证明了3D标记化的LLM是实现可靠自动驾驶的关键。
1 Introduction
自动驾驶(AD)是一个复杂的系统,它集成了感知、推理和规划。感知作为初始阶段,捕捉周围环境细节。这些信息然后输入到推理组件中,促进更深入的理解,并最终指导通过规划过程中的明智决策。最近,构建端到端模型的感知、推理和规划的融合变得普遍。它可以广泛地分为两种不同的方法论:基于模块化鸟瞰图(BEV)的方法和基于大型视觉语言模型(VLM)的方法。
基于模块化BEV的方法经过精心设计,包括定制模块,如3D感知、轨迹预测和自我车辆规划,如图1(a)所示。尽管BEV表示增强了环境感知,但这些方法可能因其有限的推理能力而遇到困难。特别是,这些模型倾向于模仿已建立的专家轨迹,并且在面对新情境时难以预测多个潜在的移动轨迹。为了解决这一挑战,基于VLM的方法标志着的一个重要转折点。它们通常采用2D视觉标记器(例如,ViT-CLIP [11])与大型语言模型(LLM)来解释扭曲的图像并产生导航命令。得益于VLM代理强大的逻辑推理和认知能力,该模型可以生成合理的决策和对话。
尽管基于VLM的算法取得了成功,但这一范式中的感知能力几乎没有被研究。虽然作者认为感知子任务可能对端到端驾驶不是至关重要,但感知环境的能力仍然是可靠规划的基础。
由于基于VLM的方法依赖于2D视觉标记器进行环境感知而没有融合3D几何先验,一个直观的问题产生了:
2D标记化的LLM能否准确感知3D环境?
为了回答这个问题,作者专门设计了实验来评估流行的VLM基系统在三个任务中的感知性能:3D目标检测、3D车道线检测和环境描述。
作者的发现揭示,尽管进行了广泛的预训练和庞大的参数扩展,主流VLM解决方案通常在精度上落后于为这些任务设计的专用模型。这个明显的差距突显了2D标记器在感知3D环境方面的局限性。
为了解决这个问题,作者想知道3D视觉标记器是否掌握了潘多拉 Box 。作者发现现有的DETR风格的BEV框架自然可以作为3D视觉压缩标记器。因此,作者选择先进StreamPETR [18]和TopoMLP [19]作为作者的3D视觉标记器,放弃了传统的ViT-CLIP [11]的使用。
这一策略带来了三个优点:
1)
通过引入位置编码,在视觉标记中自然编码了3D物理世界的固有先验。
2)
能够处理任何纵横比的的高分辨率图像,而不会扭曲图像的风险。
3)
视频帧可以以流式方式处理,得益于DETR风格的 Query 传播。通过对nuScenes数据集的评估,作者证明了作者的3D标记化LLM方法在3D目标检测和车道线检测等任务上与专用算法相媲美的性能。
除此之外,作者还需要回答另一个问题:
3D标记化的LLM是否是可靠自动驾驶的关键?
在BEV-Planner [20]之后,作者将探索扩展到nuScenes数据集上的开环规划。通过利用3D标记器增强感知能力,作者的模型不仅理解了车辆周围的环境,还利用LLM制定驾驶建议并以端到端的方式规划自我车辆轨迹。值得注意的是,这种方法摒弃了手工设计,并在nuScenes规划任务上实现了最先进的表现。
总之,作者的工作强调了在基于VLM的AD中适当视觉标记器的重要性,并引入了3D标记化的LLM作为一种解决方案。作者展示了它在熟练解决自动驾驶系统中的多个任务,如3D感知、矢量化地图构建、环境描述和规划方面的优势。
作者的模型在基准评估和实际下游应用中表现出卓越的性能,证明了其可靠性和多用途性。此外,作者的框架为端到端LLM驱动的AD解决方案铺平了道路,可能改变这些系统的发展方式。
2 Can a 2D-Tokenized LLM Accurately Perceive 3D Environment?
当前在自动驾驶(AD)中基于视觉语言模型(VLM)的方法倾向于使用2D视觉标记器。它们在没有融合几何3D先验的情况下操作,这引发了关于它们准确感知和描述3D环境的能力的担忧,这对于可靠规划至关重要。
在本节中,作者提供了深入的分析,并揭示了仅依赖2D标记器来理解3D驾驶场景的限制,包括3D感知和视觉描述。
2D-Tokenized LLM for Perception
为了研究当前基于视觉语言模型(VLM)的方法在3D理解能力方面的表现,作者首先在传统的感知任务上进行了实验:3D目标检测和3D车道线检测。在这部分,作者介绍了数据集、模型和评价指标。
数据集。
作者基于流行的多视角基准数据集nuScenes [21] 设计了适合VLM方法的定制数据集,如图2所示。对于3D检测任务,作者构建了问题与答案(QA)对,这些对主要关注识别 ego 车辆周围物体的位置。每个问题促使模型从六个视角提取目标物体的空间信息。相应的答案要求模型识别物体的类别和3D坐标。类似地,用于3D车道线检测的数据集也包括QA对,其答案来自OpenLane-V2子集B [22] 的车道点。在这里,每条道路都通过描述道路中心线的四个连续点来描绘。
模型。
作者研究中所有的2D标记化的大型语言模型遵循统一的架构,包括三个主要组成部分:2D标记器、投影器和大型语言模型。2D标记器遵循ViT-CLIP [11] 从图像的多个视角提取视觉特征。对于投影模块,作者整合了一个卷积层来连接2D标记器和LLM。此外,作者利用不同的预训练LLM,例如LLaMA [23]、LLaVA [24]、Vicuna [25],这些模型对复杂的视觉信息进行综合处理以生成环境感知,以证明作者探索的一致性和公平性。另外,还评估了基于VLM的另一种模型,该模型在2D目标检测任务上进行预训练,名为Merlin [26]。
评价指标。
在本研究中,作者采用F1分数作为主要评价指标。选择F1分数有两个主要考虑:首先,VLM无法为诸如平均精度(mAP)等指标提供必要的预测置信度。其次,传统的感知评价指标通常鼓励大量的冗余预测,这可能导致模型输出混乱。相比之下,VLM被设计为生成更针对性和集中的预测,使F1分数更适合评估这些模型。在本研究中,对于3D检测,作者选择0.5、1.0、2.0和4.0米的阈值距离来定义阳性预测,类似于在检测mAP计算中使用的判别水平。至于3D车道线检测,作者遵循OpenLane-V2评估协议 [22] 来计算F1分数。
3D目标检测。
在这项研究中,作者进行了广泛的实验,以评估VLM在3D检测上的性能,如表1所示。作为比较,表1还包括了特定任务的模型,如PETR [27] 和StreamPETR [18]。其中,最先进的检测器StreamPETR取得了F14.0分数为48.7的成绩。尽管2D标记化LLM方法拥有丰富的上下文知识和大量的参数,但在精确度和召回率方面表现出较大的性能下降,导致F1分数出人意料地低。这些方法在检测ego车辆附近的物体时遇到困难,凸显了基于VLM的方法与特定任务的专用方法在3D目标检测能力上的较大差异。
3D车道线检测。
向量化的地图为ego车辆提供了驾驶路线,作为自动驾驶的关键感知任务。作者展示了特定任务的最先进模型TopoMLP [19] 以及上述几种2D标记化LLM方法在车道线检测上的实验。主要结果如表2所示。同样,2D标记化LLM方法的性能远低于特定任务的模型,难以处理3D车道线检测。
2D-Tokenized LLM for Captioning
除了基本的环境感知任务,LLM(大型语言模型)可以适配以执行更复杂的任务,比如从视觉环境中提取和解释关键特征以进行环境描述。这种能力扩展了LLM在实际应用中的实用性,并利用了世界知识和推理能力,特别是在需要详细环境理解的情况下。
为了探索一个2D标记化的LLM是否能够作为一个有效的感知器,作者开发了一个专门用于环境描述的模型版本。这个变种利用Vicuna [25] 作为其底层LLM,负责捕捉和描述车辆的运行环境。这个描述包括各种元素,如附近车辆和行人的位置和数量,交通动态,以及关于行人横穿和道路周围的车道等信息。
尽管VLMs(视觉语言模型)在生成自然语言描述方面具有高级能力,如图3所示,作者的发现表明,2D标记化的LLM在准确的环境感知方面存在困难。该模型经常产生错误或“虚构”的描述,这表明在实践应用中,它仍然无法达到可靠的感知水平。这凸显了在动态环境中为复杂感知任务部署LLM所固有的挑战和限制。
备注。
综上所述,上述实验揭示了依赖于2D视觉标记器的LLM在感知能力上的重大局限性。这种局限性对于可靠的自我车辆规划提出了严重挑战。作者认为这种局限性的主要原因在于2D视觉标记器无法有效地整合3D空间先验。为了解决这一局限性,作者在下一节引入了先进的预训练3D感知模型作为3D标记器。