专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

2025年，自动驾驶即将开卷端到端大模型2.0 - VLA

智能车情报局 · 公众号 · 科技自媒体 · 2024-12-23 11:56

主要观点总结

本文介绍了全球自动驾驶峰会、智能驾驶的快速发展以及视觉语言动作（VLA）模型的相关信息。峰会将在北京举办，包含多个分会场和技术研讨会。智能驾驶方面，国内竞争非常激烈，技术发展迅速。文章详细解释了VLA模型的概念、优点、实验室进展、落地应用的挑战、车企的布局以及VLA是否是自动驾驶的最终归宿等问题。

关键观点总结

关键观点1: 全球自动驾驶峰会

峰会将于1月14日在北京举办，包含主会场开幕式、端到端自动驾驶创新论坛，以及分会场的专题论坛和技术研讨会。

关键观点2: 智能驾驶的快速发展

智能驾驶在国内的落地发展非常迅速，从体验功能端到硬核的软件技术端，竞争非常激烈。

关键观点3: VLA模型介绍

VLA模型是视觉语言动作模型的简称，是一种基于视觉和语言处理结合的技术，可以解释复杂的指令并在物理世界中执行动作。

关键观点4: VLA模型的优点

VLA模型具有端到端大模型的优点，如通用性，可解释性，大数据量处理能力等。它使得所有智能机械设备都可以采用这套大模型算法，通过微调实现各种功能。

关键观点5: 实验室中的VLA进展

目前谷歌DeepMind推出了全球首个用于控制机器人的视觉语言动作（VLA）模型RT-2，以及OpenVLA模型等，这些模型的推出激励了智能机器人行业的发展。

关键观点6: 落地应用VLA的挑战

VLA模型在实际应用中面临着计算成本高、缺乏有效数据集、训练匹配语言描述和驾驶行为或机器人动作等挑战。

关键观点7: 车企的布局

目前已有一些车企在布局VLA模型的应用，如理想、Wayve等。华为也在急攻一段式端到端技术，预计其应用VLA的时间不会太长。

关键观点8: VLA是否是自动驾驶的最终归宿

目前还很难说，因为AI的发展非常迅猛，从LLM到VLM再到未来的Spatial人工智能都有可能。但是自动驾驶采用AI的大方向是既定的。

正文

大会预告

1月14日，第四届全球自动驾驶峰会 将在北京举办。峰会主会场将进行开幕式、端到端自动驾驶创新论坛，分会场将进行城市NOA专题论坛，和自动驾驶视觉语言模型、自动驾驶世界模型两场技术研讨会。目前，中科院自动化所副研究员张启超，北汽研究总院智能网联中心专业总师林大洋，昇启科技创始人孙琪，百度Apollo开放平台首席架构师胡旷，朗歌科技副总经理、智驾地图事业部总经理李战斌已确认参会并将带来主题分享。

太卷了，智能驾驶在国内的落地发展太迅速了，从体验功能端，大家开城大战打完了之后就进入点到点的落地战，点到点弄完了之后肯定Robotaxi大战；而在硬核的软件技术端，端到端大模型战在华为这个月宣布急攻端到端大模型的信息下，已经算是进入焦灼状态。

那么端到端大模型之后呢？

或许最近不少苗头已经透露 VLM （vision language model ）之后的 VLA （vision language action）会是2025年国内的自动驾驶行业全面宣传和竞争的重点，各家会开卷端到端大模型 2.0。

VLA其实不但可以应用于自动驾驶，它其实是自动驾驶车辆的大类 - 智能机器人，具身智能的基础， 那么也可以理解为什么现在人行机器人产业。具身智能会火起来了，其实机器人比汽车更容易，机器人出问题可能不会有生命危险，但汽车出问题是会有生命危险，甚至公共安全的生命危险。

本文整理 VLA 相关论文以及其在汽车行业发展和应用信息，希望能大家一些科普和前瞻信息。

什么是 VLA 模型？
VLA 有哪些优点？
实验室里面的 VLA 有哪些进展？
落地应用 VLA 有哪些挑战？
目前有哪些车企在布局？
VLA会是自动驾驶最终的归宿吗？

什么是 VLA 模型

首先，我们先回顾视觉语言模型 (VLM)，它是一种机器学习模型，可以处理视觉信息和自然语言。它们将一张或多张图像作为输入，并生成一系列标记，这些标记通常表示自然语言文本。

VLM 的奇妙之处是在人类智慧结晶互联网上的图像和文本数据上进行训练的， VLM 类似于三体中的智子，吸收了人类语言文字的智慧，能看懂和推理图片内容。

而 VLA 模型，就是在 VLM 基础上利用机器人或者汽车运动轨迹数据，进一步训练这些现有的 VLM，以输出可用于机器人或者汽车控制的文本编码动作。

这些经过进一步训练的 VLM 被称为视觉-语言-动作 (VLA) 模型。通过结合视觉和语言处理，VLA 模型可以解释复杂的指令并在物理世界中执行动作。

上面Google Deepmind RT-2的图片，非常好的图像化解释VLA，VLA(RT-2) = VLM + 机器运动数据（RT-1）。

VLA 有哪些优点

首先，VLA是一个端到端大模型，所以大模型该有的优点，他都有。

另外，从视觉到执行，类似可推理性，可解释性都有非常大的优势。

其次，它具有通用型，未来所有“智能机器设备”都可以统一采用这套大模型算法，通过微调可以实现，不管是汽车，飞行设备，乃至任何智能机器人都可以通用。

所以这就是为什么可以看到现在的新势力，上天下地，机器人都搞的原因，他们明白通用AI可以加任何机械设备从而变成人工智能设备， 实现phycial AI（也有人叫具身智能，我更愿意叫他phycial AI）而不是仅仅现在的digital AI。

VLA这些通用系的模型在数据量、计算资源和模型复杂度的边界上表现出持续的性能提升,因为有了自然文字语言的人类智慧为底座，所以可以极大的减少重复的数据，计算资源，同时降低模型复杂度。

实验室里面的 VLA 有哪些进展

当前AI的催生，基本都来自于著名学术机构高校和知名公司的创新实验。

2023年7月28日， 谷歌DeepMind推出了全球首个用于控制机器人的视觉语言动作（VLA）模型 RT-2 也就是上文解释 VLA 借用的那个图片。

RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 为基础，这些模型使用 DeepMinds 在开发 RT-1 模型期间收集的机器人轨迹数据进行微调。

该模型经过微调，通过将机器人动作表示为文本标记来输出机器人动作。这种独特的方法使模型能够从自然语言响应和机器人动作中学习，从而使其能够执行各种任务。

RT-2 模型的令人印象深刻的泛化能力。该模型在新的物体、背景和环境中表现出显著改善的性能。

它可以解释机器人训练数据中不存在的命令，并根据用户命令执行基本的推理。推理能力是底层语言模型采用思路链推理能力的结果。

该模型推理能力的例子包括弄清楚要拿起哪个物体用作临时锤子（一块石头），或者哪种饮料最适合疲惫的人（能量饮料）。这种程度的泛化是机器人控制领域的一大进步。

RT-2目前不是开源的，也就是大家无法基于他去创新和修改，但他的出现激励了当前智能机器人行业的发展，给了大家信心。

另一个比较知名的是 OpenVLA 模型，它是由来自斯坦福大学、加州大学伯克利分校、谷歌 Deepmind 和丰田研究院的研究人员组成的团队发起。

他是一种基于 LLM/VLM 构建的视觉/语言动作模型，用于具身机器人和行为学习（此基础模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM）。

OpenVLA 模型不是使用图像字幕或视觉问答，而是根据用于控制机器人的摄像头图像和自然语言指令生成动作标记。

动作标记是从文本标记器词汇表中保留的离散标记 ID，这些标记映射到连续值，并根据每个机器人的运动范围进行归一化。

通过微调预训练的Prismatic-7B VLM 来训练 OpenVLA 。模型由三个关键元素组成：

融合视觉编码器一般也叫ViT(Vision transformer)，由 SigLIP 和 DinoV2 主干组成，其中DinoV2主要是为了增加对于空间的理解，将图像输入映射到多个“图像块嵌入”，可以简单理解将视觉编码成语言。
投影仪MLP Projector，这个组件可以获取视觉编码器的输出嵌入并将其映射到大型语言模型的输入空间，可以理解为这是个中间人，他能将编码的语言和大语言模型对接上。
Llama 2 7B作为语言模型的主干，根据对接上的信息，预测标记化的输出动作。这些标记被解码为可直接在机器人上执行的连续输出动作。

OpenVLA 是开源的，目前不少公司应该都基于他在进行研究，来找VLA应用和商业落地的方法。

以上两个为影响比较大的，除了上面 VLA 还有不少其他的例如 Umass的3D-VLA，美的集团的Tiny-VLA等等。

落地应用 VLA 有哪些挑战

VL A 那么好，是不是立马可以在生活和商用中用起来？其实上面RT-2/Open VLA基本上和大模型一样都是上Billions十亿的参数。

模型大，需要边缘算力大，就拿Open VLA 的7B 的参数模型来看，推理过程中速度很慢，需要对大量机器人数据进行大量预训练，这使得实际部署变得困难。

所以， 实时运行大型 VLA 模型的计算成本很高，需要进行更多研究来优化其推理速度。

此外，目前 可用于微调的开源 VLM 模型有限。

未来的研究应侧重于开发实现更高频率控制的技术，并使更多 VLM 模型可用于训练 VLA 模型。

Phycical AI 需要与人类世界互动，那么实时高频精准的运动是必须的，机器人可能要求的响应可以低，但一般可用的都需要达到以 30-50 Hz 运行的执行；而汽车智能汽车的电控底盘一般的执行响应都达到100Hz。所以，这里还有很长的路要走。

最后，其实 VLA 应用的难点还有匹配语言描述和驾驶行为或者机器人动作的训练。

目前VLA 模型应用于自动驾驶的一个主要障碍是缺乏能够有效结合视觉数据与语言描述和驾驶行为的大规模数据集。

现有数据集往往在规模和全面注释方面存在不足，尤其是对于语言，这通常需要费力的人工操作。这限制了能够处理现实世界驾驶复杂性的稳健 VLA 模型的开发和评估。

所以这些都是目前 VLA 工程落地，需要攻克的问题。

目前有哪些车企在布局？

目前准确来讲，应用VLA的应该屈指可数，甚至没有，但大批车企以及自动驾驶企业布局中。

我们之前文章中讲到的EMMA，就是Waymo内部团队在创新和测试探索的 VLA。

国外的创业公司Wayve，他的主要投资方是微软和软银，走的是提供L4软件算法的路线，目前测试车队已经从欧洲扩展到北美，与Uber达成合作协议，未来可能进入Uber平台。

他在开始就站位采用通用人工智能来解决自动驾驶，所以可以看到之前就采用LLM，之后采用VLM，目前有消息其正在采用类似于VLA的模型。

国内，元戎启行在上个月宣布下一步计划使用VLA，计划在英伟达Thor芯片上进行开发，不过Thor推迟到明年年中量产，高性能Thor估计年底，所以估计中国的VLA大概率在明年中旬声量巨大，一起卷。