专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

揭秘VLA：下一代端到端模型，自动驾驶技术的关键飞跃

智能车情报局 · 公众号 · · 2024-11-20 22:41

正文

大会预告

12月5日-6日，2024中国生成式AI大会（上海站） 举办，30+位嘉宾已确认参会演讲。其中，银河通用机器人合伙人张直政将在大模型峰会进行演讲。上海科大助理教授&博导顾家远，国地共建具身智能机器人创新中心数据智能负责人李广宇，上海人工智能实验室青年科学家王泰，上交大在读博士、穹彻智能实习研究员吕峻将在具身智能技术研讨会进行分享，欢迎报名～

自动驾驶技术的 最新进化方向确实在于“端到端”技术的深度融入多模态大模型。 这一趋势的 核心是VLA（Vision-Language-Action Model）模型，它结合了视觉、语言和动作，展现出更高的场景推理与泛化能力。 VLA模型最初在机器人行业由谷歌DeepMind推出，并迅速扩散至智能驾驶领域。谷歌旗下的自动驾驶公司 Waymo 基于VLA模型推出了自动驾驶多模态模型EMMA，标志着VLA模型正式进军智能驾驶市场。

与传统智能驾驶方案相比， VLA模型的最大特点在于其深度融合了多模态大模型，这使得智能驾驶系统不仅能够依赖规则算法进行决策，更能借助大模型的强大能力，提升对复杂交通场景的理解与应对能力。理想汽车等业内领军企业已经开始布局VLA模型，显示出VLA模型在智能驾驶领域的应用前景备受期待。VLA模型的上车难度不小，对技术和车端的芯片算力都有高强度要求，预计2026年才会出现支持VLA模型上车交付的芯片。因此， VLA模型不仅是“端到端”技术的进化，也可能是“端到端+VLM”技术框架的“终结者”，对智驾的演进意义重大 。长远来看，在L2辅助驾驶到L4自动驾驶的飞跃中，VLA可能会成为关键跳板。

《A Survey on Vision-Language-Action Models for Embodied AI》论文提供了对Embodied AI 领域中视觉-语言-行动模型（VLA）的全面综述。

视觉-语言-行动模型（VLAs）代表了一类设计用于处理多模态输入的模型，整合了视觉、语言和行动模态的信息。 VLAs旨在解决体现智能中的指令跟随任务。与其他AI形式不同，例如以ChatGPT为代表的对话AI，体现智能需要控制物理实体并与环境互动。机器人技术是体现智能最突出的领域。在语言条件机器人任务中，策略必须具备理解语言指令、视觉感知环境并生成适当行动的能力，这就需要VLA的多模态能力。与早期深度强化学习方法相比，基于VLA的策略在复杂环境中展现出更高的多功能性、灵活性和泛化性。 这使得VLA不仅适用于工厂等受控环境，也适用于日常任务，如烹饪和清洁。

Figure 1: VLA模型的分类。这个图表展示了视觉-语言-行动（VLA）模型的不同分类。它将VLA模型分为三个主要部分：预训练（Pretraining）、控制策略（Control Policy）和任务规划器（Task Planner）。每个部分下面又细分为不同的子类别，展示了VLA模型的不同研究重点和方法。

预训练（Pretraining）：

预训练视觉表示（Pretrained Visual Representation）：关注于通过预训练任务提升视觉编码器的性能。
动态学习（Dynamics Learning）：涉及学习环境的动态，包括正向和逆向动态。
世界模型（World Model）：构建一个能够预测未来状态的世界模型。

控制策略（Control Policy）：

语言指令（Language Instruction）：根据语言指令生成行动的策略。
非TFM（Non-TFM）和TFM-based：基于Transformer的和非基于Transformer的方法。
LLM-based（基于大型语言模型）：使用大型语言模型来处理控制策略。
多模态指令（Multi-modal Instruction）：处理多模态输入的指令。
目标状态指令（Goal-state Instruction）：直接根据目标状态生成行动的策略。

任务规划器（Task Planner）：

端到端（End-to-end）：直接将指令映射到行动的策略。
基于语言的（Language-based）：使用语言模型来规划任务。
基于代码的（Code-based）：使用代码来规划任务。

Figure 2: 单模态模型到多模态模型的演变时间线。展示了从单模态模型到多模态模型的演变过程，以及VLA模型的发展。它包括了计算机视觉、自然语言处理和强化学习领域的关键进展，以及视觉-语言模型的里程碑。

视觉-语言-行动模型（VLAs）是处理视觉和语言的多模态输入并输出机器人行动以完成体现任务的模型。 它们是体现智能领域中指令跟随机器人策略的基石。这些模型依赖于强大的视觉编码器、语言编码器和行动解码器。为了在各种机器人任务中提升性能，一些VLAs优先获取优越的预训练视觉表示（第III-A1节）；其他一些则专注于改进低级控制策略，这些策略擅长接收短期任务指令并生成可通过机器人运动规划执行的行动（第III-B节）；此外，某些VLAs抽象于低级控制，专注于将长期任务分解为可由低级控制策略执行的子任务（第III-C节）。 因此，低级控制策略和高级任务规划器的组合可以被视为层次策略，如图3所示，包括这三个主要方面。

Figure 3: 高级任务规划器和低级控制策略的层次结构。说明了高级任务规划器和低级控制策略如何协同工作。高级任务规划器根据用户指令生成计划，然后由低级控制策略逐步执行。

VLA模型数据集、模拟器和基准测试

由于收集真实世界机器人数据的过程受到多种因素的阻碍 ，包括获取机器人设备的成本、设置环境和投入大量人力资源，以及收集专家示范数据所需的时间投入，以及不同类型和配置的机器人引入的不一致性，以及在捕获对象6D姿态和精确复制或重置设置方面的困难，因此公共真实世界机器人数据集相对稀缺。

此外，在真实世界条件下评估机器人系统的性能引入了另一层复杂性， 因为在不同模型之间精确再现设置通常是不可行的，通常需要人工监督。 我们总结了表V中最近VLAs的机器人数据集。因此，许多研究人员求助于模拟环境作为缓解这些障碍和加速数据收集过程的手段。然而，这种策略也带来了自己的挑战，其中最主要的是sim-to-real gap（仿真到现实的差距）。这种差距发生在在模拟数据上训练的模型在现实世界部署中表现不佳时。

造成这种差距的原因是多方面的，包括渲染质量的差异、物理模拟的不准确，以及以不真实的对象属性和机器人运动规划为特征的领域转移。 例如，模拟非刚性对象（如液体或毛巾）存在显著困难。此外，将新对象纳入模拟器需要相当大的努力，通常涉及3D扫描和网格编辑等技术。尽管存在这些障碍，模拟环境提供了自动化评估指标，帮助研究人员一致地评估机器人模型。大多数基准测试都是基于模拟器的，因为只有模拟环境才能精确地再现实验设置，而真实世界的评估在不同模型之间有所不同，使得它们之间无法可靠地进行比较。

作为解决真实世界环境中数据稀缺问题的替代策略，利用人类数据。 人类行为为机器人策略提供了丰富的指导，因为其灵活性和多样性。然而，这种策略也带来了固有的缺点。捕获和转移人类手/身体动作到机器人实体本质上是困难的。此外，人类数据的不一致性带来了障碍，因为一些数据可能是自我中心的，而其他数据是从第三人称视角捕获的。此外，从人类数据中过滤有用信息可能是劳动密集型的。这些障碍强调了将人类数据纳入机器人学习过程中的复杂性。

此外， 一些数据集和基准测试可能不是专门针对机器人操纵和导航的，但它们针对体现智能的其他相关能力，如空间推理、物理理解以及世界知识。 这些能力对于任务规划器来说是无价的。体现任务中最著名的体现问题是体现问答（EQA）。EQA类似于以前的视觉上的问题回答和视频问题回答任务，但不同之处在于代理可以在提供答案之前主动探索环境。EmbodiedQA[192]和IQUAD[193]是最早引入这项任务的工作之一。MTEQA[194]关注涉及多个目标的问题，增加了理解和回答问题的复杂性。MP3D-EQA[195]将以前的RGB输入转换为点云，测试了3D感知能力。然而，主动探索需要访问模拟器，限制了可以使用的数据类型，如真实世界视频。因此，一些EQA基准测试不涉及主动探索。EgoVQA[196]将VQA的焦点转移到自我中心视频上。EgoTaskQA[197]强调空间、时间和因果关系推理。EQA-MX[198]关注多模态表达（MX），包括常规的口头话语和非言语手势，如眼神和指向。OpenEQA[199]评估了七个主要类别，包括功能推理和世界知识，这些在以前的基准测试中没有被覆盖。EgoPlan-Bench[200]和EgoCOT[51]衡量模型生成任务计划的能力，使用准确性和困惑度等指标。PlanBench[201]、[202]全面评估了任务规划能力的各个方面，如成本最优性、计划验证和重规划等。LoTa-Bench[203]通过在模拟器中执行生成的计划并计算成功率来直接评估任务规划。

Figure 4: 低级控制策略的三种常见架构。 展示了低级控制策略中视觉-语言融合的三种方法：交叉注意力（Cross-attention）、FiLM（Feature-wise Linear Modulation）和连接（Concatenation）。这些方法展示了如何将视觉和语言信息整合到一起以生成行动。

Figure 5: 将LLM与多模态模块连接的不同方法。 展示了高级任务规划器中将大型语言模型（LLM）与多模态模块连接的两种方法： 基于语言的方法和基于代码的方法。这两种方法都旨在将高级任务规划器的输出转换为低级控制策略可以执行的具体行动。

基于语言的方法： LLM生成的语言指令直接用于指导低级控制策略。
基于代码的方法： LLM生成的代码调用感知模块和控制API，以执行任务。

VLA模型的挑战和未来方向

挑战：

机器人数据稀缺（Scarcity of Robotic Data）：

随着模拟技术的发展，模拟环境可以提供大量的合成数据，但如何缩小模拟数据与现实世界之间的差距（sim-to-real gap）仍是一个关键挑战。此外，合成数据的多样性和真实性也是提升模型泛化能力的重要因素。

获取足够的真实世界机器人数据是一个重大障碍，因为收集此类数据既耗时又资源密集。

运动规划（Motion Planning）：

运动规划是机器人技术中的一个核心问题，尤其是在动态和不确定的环境中。未来的研究需要开发更加智能和适应性强的运动规划算法，以提高机器人的自主性和灵活性。

当前的运动规划模块往往缺乏必要的灵活性，无法有效应对各种环境的复杂性。

实时响应性（Real-Time Responsiveness）：

在紧急情况下，如灾难响应或医疗救助，机器人的实时响应能力至关重要。因此，优化模型的计算效率和决策速度是实现这些应用的关键。

许多机器人应用需要实时决策和行动执行，这对VLA模型的响应速度提出了要求。

多模态集成（Integration of Multiple Modalities）：

多模态信息的融合是提升机器人认知能力的关键。研究者需要探索更有效的表示学习和融合技术，以实现不同模态间深层次的语义连接。

VLA必须处理和整合来自多个模态的信息，这在技术上是一个挑战。

泛化到未见场景（Generalization to Unseen Scenarios）：

泛化能力是体现智能系统实用性的关键。研究者需要开发能够适应新环境和任务的模型，这可能涉及到元学习（meta-learning）和持续学习（continual learning）等技术。

机器人系统需要能够理解和执行自然语言指令，这在多样化和未见场景中尤为困难。

长期任务执行（Long-Horizon Task Execution）：

长期任务往往涉及复杂的决策过程和多个子任务的协调，这要求模型不仅要有强大的规划能力，还要有灵活的执行和调整策略。

机器人执行长期任务需要高级任务规划器和低级控制策略的有效协同。

基础模型（Foundation Model）：

基础模型为机器人提供了一个预训练的知识库，可以加速学习过程并提高性能。然而，如何构建一个适用于多种任务和环境的基础模型仍是一个开放的问题。

在机器人任务中，探索VLA的基础模型是一个相对较新且未被充分开发的领域。

基准测试（Benchmarks）：

基准测试是推动技术进步的重要工具。开发新的基准测试不仅可以评估模型的性能，还可以揭示当前方法的局限性，并激发新的研究方向。

需要更全面的基准测试来评估VLA模型的性能。

安全考虑（Safety Considerations）：

随着机器人技术的发展，其安全性问题变得越来越重要。这不仅涉及到技术层面的鲁棒性，还包括伦理和法律层面的考量。

确保机器人系统的安全性是至关重要的。

伦理和社会影响（Ethical and Societal Implications）：

随着机器人在社会中的普及，它们的行为和决策可能对社会产生深远影响。因此，需要跨学科的合作来确保机器人技术的负责任使用，并解决相关的伦理和社会问题。

机器人的部署引发了各种伦理、法律和社会问题。

Figure 6: 单模态模型到多模态模型的演变时间线。 展示了从2012年到2023年，单模态模型到多模态模型的演变过程。它详细记录了计算机视觉、自然语言处理和强化学习领域的关键模型和进展，以及它们如何为VLA模型的发展奠定基础。

未来方向：

数据集和模拟器的发展：

需要更多样化和高质量的数据集，以及更逼真的模拟器来缩小sim-to-real gap。

算法和模型的创新：

需要开发新的算法和模型，以提高机器人在复杂环境中的适应性和灵活性。

多模态融合技术的进步：

需要探索新的多模态融合技术，以实现更深层次的信息整合。

泛化和适应性的研究：

需要研究如何使模型在新环境中快速适应和学习。

长期任务规划和执行：

需要研究如何有效地规划和执行长期任务，包括任务分解和协调。

基础模型的构建和优化：

需要构建和优化适用于机器人任务的基础模型。

基准测试的创建和更新：

需要创建和更新基准测试，以全面评估模型的性能。

安全性和鲁棒性的研究：

需要研究如何提高系统的安全性和鲁棒性，以应对现实世界的挑战。

伦理和社会影响的评估：

需要评估和解决机器人技术可能带来的伦理和社会问题。

这些挑战和未来方向为VLA模型的研究提供了清晰的路线图。 随着技术的不断进步，我们可以期待VLA模型在未来的机器人技术和体现智能领域中发挥更大的作用。

Figure 7: 单模态模型的规模增长。显示了从2012年到2023年，单模态模型参数规模的增长。以对数尺度展示了不同模型的参数数量，反映了模型规模的快速增长，特别是在计算机视觉、自然语言处理和强化学习领域。

当前， 高阶自动驾驶的计算硬件普遍采用两颗英伟达OrinX芯片，提供的总算力约为508Tops。 然而，业界有观点认为，现有的车载算力难以满足VLA（视觉-语言-行动）模型的部署需求。

英伟达的最新一代车载AI芯片Thor，以其单片1000Tops的AI算力，被期待能够为AI和大型模型提供更强大的支持，有望改变这一局面。

揭秘VLA：下一代端到端模型，自动驾驶技术的关键飞跃

正文

Figure 2: 单模态模型到多模态模型的演变时间线。 展示了从单模态模型到多模态模型的演变过程，以及VLA模型的发展。它包括了计算机视觉、自然语言处理和强化学习领域的关键进展，以及视觉-语言模型的里程碑。

Figure 3: 高级任务规划器和低级控制策略的层次结构。 说明了高级任务规划器和低级控制策略如何协同工作。高级任务规划器根据用户指令生成计划，然后由低级控制策略逐步执行。

挑战：

未来方向：

Figure 7: 单模态模型的规模增长。 显示了从2012年到2023年，单模态模型参数规模的增长。以对数尺度展示了不同模型的参数数量，反映了模型规模的快速增长，特别是在计算机视觉、自然语言处理和强化学习领域。

请到「今天看啥」查看全文

Figure 2: 单模态模型到多模态模型的演变时间线。展示了从单模态模型到多模态模型的演变过程，以及VLA模型的发展。它包括了计算机视觉、自然语言处理和强化学习领域的关键进展，以及视觉-语言模型的里程碑。

Figure 3: 高级任务规划器和低级控制策略的层次结构。说明了高级任务规划器和低级控制策略如何协同工作。高级任务规划器根据用户指令生成计划，然后由低级控制策略逐步执行。

Figure 7: 单模态模型的规模增长。显示了从2012年到2023年，单模态模型参数规模的增长。以对数尺度展示了不同模型的参数数量，反映了模型规模的快速增长，特别是在计算机视觉、自然语言处理和强化学习领域。