专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

CARLA在自动驾驶挑战赛中排名第一，性能提高了458%，比最佳同期提交的作品提高了32.6% ！

智驾实验室 · 公众号 · · 2024-06-29 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

在这份技术报告中，作者介绍了CarLLaVA，这是为CARLA自动驾驶挑战赛2.0开发的用于自动驾驶的视觉语言模型（VLM）。

CarLLaVA采用了LLaVA VLM的视觉编码器以及LLaMA架构作为基础，仅使用相机输入，无需复杂或昂贵的标签，便实现了最先进的闭环驾驶性能。此外，作者还展示了初步的结果，即在驾驶输出的同时预测语言评论。

CarLLaVA使用了一种半解耦的输出表示，既包括路径预测也包括航点，从而既利用路径进行更好的横向控制，又利用航点进行更好的纵向控制。

作者提出了一种有效的训练方法，可以在不浪费计算资源在简单、平凡数据上训练大型驾驶数据集。

在CARLA自动驾驶挑战赛2.0的传感器赛道上，CarLLaVA排名第一，性能比之前的最先进技术提高了458%，比最佳同期提交的作品提高了32.6%。

1 Introduction

自动驾驶技术的趋势正在向端到端解决方案转变，这一点在近期的行业进展[33]以及在CARLA Leaderboard 1.0上的最先进性能表现中得到了展示。在CARLA Leaderboard 1.0[1]上表现最佳的条目大多数依赖于昂贵的激光雷达传感器，除了TCP[39]，它采用了仅基于相机的方案。此外，多任务学习已成为提高性能的常见策略[9]。

然而，这需要获取标签，如鸟瞰图（BEV）语义、深度或语义分割，这些在现实世界中获取成本高昂。这使得将模拟器中的研究成果以可扩展和低成本的方式转移到现实驾驶变得困难。相比之下，CarLLaVA仅依赖于常见且易于获取的驾驶数据，如相机图像和驾驶轨迹，并且是一个仅使用相机的方法。

此外，大多数最先进的CARLA方法使用在ImageNet上预训练的ResNet风格的主干网络。然而，最近的预训练技术进展，如CLIP[23]，MAE[13]和DINO，展示了使用视觉 Transformer （ViTs）[31]相对于传统CNN编码器进行特征学习的优势。此外，最先进的视觉语言模型（VLM）[8, 17, 20]对CLIP编码器进行微调，显示出细致的图像理解能力，表明存在强大的视觉特征。CarLLaVA通过使用在互联网级视觉语言数据上预训练的LLaVA-NeXT[19, 20, 21]的视觉编码器来利用这一点。尽管现代VLM的大小可能会被视为在实车上部署时的推理时间担忧，但几项近期的研究表明这是一个可解决的工程问题。

在这份技术报告中，作者描述了作者的驾驶模型CarLLaVA的细节，包括以下特性和优势： 仅使用相机，无需昂贵的标签 ：作者的方法只使用相机输入，无需额外的昂贵标签，如鸟瞰图（BEV）、深度或语义分割。

这种无标签的方法减少了对于大量标注数据集的依赖，使得在实车上部署变得更加可行。 视觉语言预训练 ：作者的方法利用在互联网级视觉语言数据上预训练的视觉编码器。

作者证明这种预训练可以有效地转移到驾驶任务上，与从驾驶数据开始训练相比，提高了驾驶性能。 高分辨率输入 ：作者注意到CLIP视觉编码器的默认分辨率对于质量驾驶来说不够。

与LLaVA[21]类似，作者将输入图像分割成块，以使VLM能够访问驾驶图像中的较小细节，如远处的交通灯和行人。与LLaVA不同，作者不使用小分辨率的全局块以减少 Token 数量。

高效的训练方法 ：作者提出了一种高效的训练方法，更多地利用有趣的训练样本，显著减少了训练时间。

半解耦的输出表示 ：作者提出了一种半解耦的表示，包括时间条件控制航点和空间条件控制路径航点，以实现更好的控制。

2 Related Work

驾驶的基础模型。 近年来，大型语言模型（LLM）被整合到驾驶系统中，以利用其推理能力解决长尾场景。基于多模态LLM的驾驶框架，如LLM-Driver [7]，DriveGPT4 [40]和DriveLM [32]，利用来自不同模态的输入进行驾驶的基础模型。GPT-Driver [22]和LanguageMPC [25]将ChatGPT作为运动规划器进行微调，使用文本。知识驱动的方法[12, 37]也被采用，基于常识知识做出决策并持续进化。然而，这些工作大多数仅通过定性分析或在开环设置中进行评估。在CARLA中利用基础模型进行闭环驾驶的最相似的工作是DriveMLM [36]和LMDrive [28]，它们利用多模态LLM。但是，这些方法依赖于带有定制编码器的图像和激光雷达输入，没有利用视觉语言预训练的强大功能，专注于如指令跟随等任务。相比之下，作者专注于纯闭环驾驶性能，提供了一个可以解决基本驾驶行为以使未来研究能够基于VLM进行驾驶的 Baseline 。

在CARLA中进行端到端的闭环驾驶。 基于模仿学习（IL）的端到端训练是CARLA Leaderboard 1.0 [5, 15, 26, 38]上最先进方法的占主导地位的方法。这些方法大多数结合了大量的辅助输出，并依赖于昂贵的传感器，如激光雷达。相比之下，作者构建了一个仅依赖于摄像头图像和驾驶轨迹的模型。

主流的输出表示是使用GRU预测航点，并使用PID控制器进行横向和纵向控制。TCP [38]指出航点在转弯时表现不佳，但预测直接控制在进行避障时表现更差。他们提出了这些表示基于情境的融合策略。Interfuser [26]提出预测路径航点并结合预测和启发式方法来获得控制。TF++ [15]使用路径航点进行横向控制，并使用目标速度类别进行纵向控制。在作者的工作中，作者利用路径表示来改进转向，并结合标准的航点进行纵向控制，避免使用启发式或预定义类别。此外，直接从 Transformer 的输出特征预测航点，而不使用GRU。

3 Method

以下部分，作者提供了作者架构和训练方法的全面概述。

任务。 目标是在一个10x10平方公里地图上达到指定的目标位置，同时通过预定的中间目标点。地图包括多种环境，如高速公路、城市街道、居民区和乡村设置，所有这些环境都必须在多种天气条件下进行导航，包括晴朗的白天、日落、雨、雾和夜间情景。在路上，智能体还必须处理各种复杂情景，如遇到行人、导航停车场出口、执行无保护转弯、汇入正在进行的交通、经过施工地点或避开打开车门的车辆。

架构。 作者的基础架构概览如图1所示。

图1： CarLLaVA基础模型架构。（C1T1） 图像被分成两部分，每部分独立编码然后拼接，降采样并投射到一个预训练的大型语言模型中。输出利用了一个半解耦表示，同时具有时间条件航点和水条件路径航点，以改善横向控制。

输入/输出表示。模型的输入包括摄像头图像、接下来的两个目标点以及智能车的速度。

作者测试了几个配置：

(1) 基础模型（C1T1）带有一个单一的前视图图像；

(2) 时间模型（C1T2）它包括来自前一时间步的图像特征；

(3) 多视图模型（C2T1）它将低分辨率的后视图摄像头添加到高分辨率的前视图中。

对于输出，作者使用了一个半解耦表示，同时具有带有PID控制器的条件航点进行纵向控制，以及带有PID控制器的空间条件路径航点进行横向控制。早期的关于耦合航点的实验导致了在转弯或绕过障碍物时的转向错误。通过使用路径航点，作者实现了更密集的监督，因为当车辆静止时作者也预测路径，从而改善了转向行为。

对于纵向控制，作者使用标准的时间条件航点来利用比直接预测控制更好的避障能力[38]。作者也尝试了目标速度分类和GRUs，但这些方法的表现并不好，尽管作者缺乏官方的性能指标。

HD视觉编码器。

CARLA在自动驾驶挑战赛中排名第一，性能提高了458%，比最佳同期提交的作品提高了32.6% ！

正文

1 Introduction

2 Related Work

3 Method

请到「今天看啥」查看全文