专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

具身智能中 VLA 主流方案全解析：技术总结与未来展望

自动驾驶之心 · 公众号 · · 2025-02-12 07:30

正文

作者 | yiha 编辑 | 具身智能之心

原文链接：https://www.unifolm.com/#/post/433

点击下方卡片，关注“ 具身智能之心 ”公众号

本文只做学术分享，如有侵权，联系删文

>> 点击进入→ 具身智能之心 技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区 ： 具身智能之心知识星球 (戳我) ，这里包含所有你想要的。

引言

具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标，而视觉 - 语言 - 动作（VLA）模型作为其中的关键技术，近年来备受关注。VLA 模型能够处理视觉、语言和动作信息，使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容，对主流的 VLA 方案进行总结，包括其开源项目、核心思想、结论共识以及未来发展方向，希望能为关注具身智能领域的读者提供有价值的参考。

内容出自国内首个具身智能全栈学习社区： 具身智能之心知识星球 ，这里包含所有你想要的。

一、VLA 方案总览

（一）基于经典 Transformer 结构方案

代表性开源项目 ：ALOHA(ACT)系列、RT-1、HPT等。
核心思想 ：利用强化学习轨迹与序列建模问题结构的自然对齐性，采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模，有效提升了模型在复杂环境中的决策能力。例如，在机器人控制任务中，模型可以根据过去的状态和动作序列，预测未来的最优动作，从而更好地适应复杂环境中的变化。

（二）基于预训练 LLM/VLM 方案

代表性开源项目 ：RT - 2、OpenVLA 等。
核心思想 ：将 VLA 任务视为一个序列到序列的生成问题，利用预训练的语言模型（LLM）或视觉语言模型（VLM）来处理视觉和语言信息，并生成相应的动作。以 RT - 2 为例，它通过共同微调，使模型适应互联网规模的视觉问答数据和机器人数据，从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时，能够借助预训练模型对语言和视觉信息的理解，更准确地生成合适的动作指令，为机器人在复杂任务中的执行提供了有力支持。

（三）基于扩散模型方案

代表性开源项目 ：Diffusion Policy、RDT - 1B 等。
核心思想 ：将机器人策略建模为去噪扩散概率模型（DDPM），通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术，如后退视域控制、视觉条件和时间序列扩散变压器，在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时，该模型能够有效地生成稳定且多样化的动作，为机器人在复杂环境中的动作生成提供了新的思路和方法。

（四）LLM + 扩散模型方案

代表性开源项目 ：Octoπ0 等。
核心思想 ：结合 LLM 和扩散模型的优势，LLM 用于压缩多模态表征，扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合，在不同机器人和任务中实现了正向转移和泛化，提高了模型在复杂任务中的性能和适应性。例如，在多模态信息处理中，LLM 可以对视觉和语言信息进行初步的理解和整合，然后扩散模型根据这些信息生成精确的动作轨迹，使机器人能够更好地完成任务。

（五）视频生成 + 逆运动学方案

代表性开源项目 ：UniPiRo、BoDreamer、UniSim、GR - 1/GR - 2 等。
核心思想 ：先根据首帧和指令生成运动视频，再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态，然后利用逆运动学将预测的状态转换为可执行的动作，提高了动作生成的可解释性和准确性。以 UniPiRo 为例，它根据给定的初始帧和指令生成运动视频，该视频展示了机器人在未来一段时间内的预期运动轨迹，然后通过逆运动学将视频中的状态转换为具体的关节动作，使机器人能够按照预期轨迹运动，在机器人控制任务中具有重要意义。

（六）显示端到端 VLA 方案

代表性开源项目 ：众多端到端 VLA 模型，如部分基于 Transformer 的模型等。
核心思想 ：将视觉语言信息压缩成联合的表征，再映射到动作空间生成动作。这些模型通过直接处理多模态信息，减少了中间环节的信息损失，提高了模型的效率和准确性。在实际应用中，模型可以直接从视觉和语言输入中提取关键信息，快速生成相应的动作。例如，模型在接收到 “将蓝色杯子从桌子上拿起并放到厨房的架子上” 的指令和对应的视觉场景后，能够直接对视觉中的物体进行识别、定位，结合语言指令理解任务目标，然后生成一系列精确的动作指令，如控制机械臂移动到杯子上方、调整夹爪姿态、抓取杯子、移动到架子位置并放置杯子等，整个过程无需复杂的中间转换，有效提高了机器人的响应速度和执行准确性。

（七）隐式端到端 VLA 方案

代表性开源项目 ：如利用人类视频训练世界模型的相关项目（如 SWIM 等）。
核心思想 ：利用当前的视频扩散模型预测未来状态，再通过逆运动学生成动作，同时注重提高模型的可解释性。例如，SWIM 通过使用人类视频训练世界模型，并结合视觉可供性地图推断目标姿势，实现了知识从人类数据到机器人控制的有效转移。该模型从人类视频中学习到人类在不同场景下的行为模式，然后利用这些知识预测机器人在相似场景下应采取的动作，为机器人在复杂环境中的决策提供了更可靠的依据。

（八）分层端到端 VLA 方案

代表性开源项目 ：结合了高层任务规划和低层控制策略的分层模型（如一些包含 LLM 作为高层规划器的项目）。
核心思想 ：充分利用大小模型的特点，高层任务规划器将复杂任务分解为子任务，低层控制策略执行子任务，以提升模型的泛化性和执行效率。这种分层结构使模型能够更好地处理长时域任务，提高了机器人在复杂任务中的执行能力和适应性。例如，在执行 “整理房间” 这样的长时域任务时，高层规划器可以将任务分解为 “捡起物品”“移动到指定位置”“放置物品” 等子任务，低层控制策略则负责具体执行这些子任务，使机器人能够有条不紊地完成整个任务。

二、方案对比与结论共识

（一）模型架构与信息融合

在模型架构方面，不同方案探索了多种融合视觉和语言输入的方法。例如，基于经典 Transformer 结构的方案通过特定的网络结构设计来整合多模态信息；基于预训练 LLM/VLM 的方案则借助预训练模型的强大表征能力进行信息融合。
结论共识是，合适的架构设计对于实现高效的视觉 - 语言 - 动作交互至关重要。不同架构在处理多模态信息时有其优势和局限性，如某些架构在处理长序列信息时表现较好，而另一些在模型参数效率上更具优势。例如，Transformer 架构在处理长序列数据时能够有效捕捉信息之间的依赖关系，但可能需要较大的计算资源；而一些基于卷积神经网络的架构在参数效率上可能更高，但在处理长序列信息时可能存在一定困难。

（二）动作类型与训练目标

动作类型上，多数低层级控制策略预测末端执行器的位姿，但不同方案在动作表示和处理方式上存在差异。例如，一些方案采用离散动作表示，而另一些则采用连续动作表示。
训练目标方面，包括行为克隆（BC）、强化学习等多种方式。不同训练目标对模型的性能和泛化能力有不同影响，例如 BC 在模仿学习中广泛应用，但其在不同动作类型下的实现方式和效果有所不同。以 RT - 1 为例，它采用离散动作表示，通过行为克隆的方式进行训练，在一些简单任务中表现出较好的性能，但在处理需要连续动作的复杂任务时可能存在一定局限性。
总体而言，选择合适的动作类型和训练目标需要综合考虑任务需求、模型性能和数据可用性等因素，以实现高效的动作生成和优化。例如，在需要精确控制动作的任务中，连续动作表示可能更合适；而在数据量有限的情况下，行为克隆等基于已有数据的训练方式可能更具优势。

（三）LLM 与非 LLM 方案

LLM - 基于方案（如 RT - 2 等）在指令理解和复杂任务处理上具有优势，能够更好地解析用户意图。然而，其训练成本高且部署速度可能较慢，在动态环境中可能面临推理延迟的问题。例如，RT - 2 在理解复杂语言指令方面表现出色，但由于其模型规模较大，训练过程需要大量的计算资源和时间，并且在实时性要求较高的动态环境中，可能因为推理速度较慢而影响机器人的响应及时性。
非 LLM 方案（如一些早期的基于经典 Transformer 结构的方案）虽然在指令理解能力上相对较弱，但在特定场景下，如对实时性要求较高的任务中，可能因其简单高效的特点而表现出色。例如，一些基于经典 Transformer 结构的模型在处理简单指令和实时性要求高的任务时，能够快速生成动作，保证机器人的高效运行。
未来的发展可能需要在两者之间寻求平衡，或者探索新的方法来充分发挥它们的优势，克服各自的局限性。例如将 LLM 与非 LLM 模型进行协同工作，利用 LLM 进行高层任务规划和指令解析，非 LLM 模型负责底层动作执行和实时控制，实现更强大、高效和智能的 VLA 系统。

（四）RT 系列模型的发展与影响

RT - 1 作为开创性的 “Robotic Transformer” 模型，激发了一系列后续工作。其后续模型如 RT - 2、RTX 等在数据集规模、模型架构和性能上不断改进。

RT - 1 模型特点与贡献 ：RT - 1 是首个用于机器人的 Transformer 模型，其输入包括头部视角历史长度 T = 6 的 300x300 的图像以及语言指令。它采用了 FiLM conditioned EfficientNet - B3 作为图像 Encoder，直接融合视觉和语言信息（VL），将每张图经过处理得到 9x9x512 的 VL 融合后的 token，再通过 tokenlearner 将每张图的 81 个 token 变为 8 个 token，最终得到 8*6 = 48 个 token。Language Encoder 使用 Universal Sentence Encoder 得到 512 维向量。Decoder/Policy Head 采用 decoder - only Transformer，包含 8 个自注意力层，模型参数达 19M，输出为 11D 的离散动作空间，涵盖手臂、基座的扭矩、夹爪位置、旋转等信息。
RT - 2 的改进与创新 ：RT - 2 基于 ViT 和 LLM，引入了共同微调的训练方式，使其能适应互联网规模的视觉问答数据和机器人数据。它在 RT - 1 的基础上，进一步提升了模型的泛化能力和涌现能力，为机器人在更复杂任务中的执行提供了支持。
RTX 的优化与提升 ：RTX 模型重新使用了 RT - 1 和 RT - 2 模型，并利用新引入的开源大型数据集 Open X - Embodiment（OXE）进行训练。OXE 数据集包含 160,266 个任务、527 个技能和 22 个实施例，规模比以前的数据集大得多。因此，RTX 模型（包括 RT - 1 - X 和 RT - 2 - X）在性能上超越了其原始版本，展现了数据集规模对模型性能提升的重要性。

结论共识是，随着数据集的扩大和模型架构的优化，RT 系列模型在实际应用中的性能逐步提升，展示了基于 Transformer 架构在具身智能领域的潜力。同时，也为其他 VLA 模型的发展提供了重要的参考和借鉴。例如，其他模型可以借鉴 RT 系列模型在数据利用、架构设计等方面的经验，不断改进自身性能，推动 VLA 技术的发展。

三、未来方向

（一）数据稀缺问题

目前，获取足够的真实世界机器人数据仍然是一个重大挑战，收集过程耗时且资源密集。例如，在实际环境中收集机器人操作数据需要大量的人力、物力和时间投入，而且不同环境和任务下的数据多样性难以保证。
未来的方向包括开发更高效的数据收集方法，如利用自动化数据收集技术（如 RoboGen、AutoRT 等），以及通过模拟环境生成更多样化的数据来缓解数据稀缺问题。RoboGen 可以通过生成式模拟范式提出有趣的技能，模拟相应环境并选择最优学习方法来训练策略获取数据；AutoRT 则能作为机器人编排器，由 LLMs 驱动生成任务，筛选后利用自主策略或人工远程操作收集和评估数据。同时，改进数据标注技术和提高数据质量也是关键，例如采用更先进的标注工具和算法，确保数据的准确性和一致性，从而为模型训练提供更优质的数据。

（二）运动规划能力提升

当前运动规划模块在处理复杂环境中的任务时，往往缺乏足够的灵活性和精确性，限制了机器人与工具交互、在复杂环境中导航和执行高精度操作的能力。例如，在复杂的操作任务中，机器人可能难以精确地抓取和放置物体，或者在狭窄空间中导航时容易出现碰撞等问题。
未来需要开发更强大的运动规划算法，结合深度学习和传统规划方法的优势，提高机器人在复杂环境中的运动规划能力。例如，通过强化学习优化运动轨迹生成，使机器人能够根据环境反馈不断调整动作，找到最优的运动路径；引入基于模型的预测控制方法，提高动作的准确性和稳定性，确保机器人在执行任务时能够精确控制动作的力度、方向和速度等参数。

（三）实时响应性增强

许多机器人应用对实时决策和动作执行有严格要求，但现有 VLA 模型在处理复杂任务时可能面临延迟问题。例如，在一些需要快速响应的场景中，如工业生产线上的机器人操作或自动驾驶中的决策，模型的推理延迟可能导致生产效率降低或安全风险增加。
未来研究需优化模型架构与算法提升计算效率、缩减推理时间，确保机器人在实时性场景快速响应。比如探索高效架构、减少计算层与参数，或用并行计算技术加速。硬件层面优化计算资源分配利用也重要，研发专用加速器，优化软硬件协同，使资源高效服务模型推理，让机器人在实时性要求高的场景稳定准确运行，像智能仓储物流中快速分拣运输货物，救援场景中迅速决策行动。

（四）多模态信息融合优化

虽然在多模态信息融合方面已经取得了一定进展，但实现视觉、语言和动作信息的最优融合仍然是一个挑战。目前的模型在融合不同模态信息时，可能存在信息丢失、模态间对齐不准确等问题。例如，在处理包含复杂场景和模糊指令的任务时，模型可能无法准确地将视觉信息与语言指令进行匹配，从而导致动作执行的不准确。
未来需要进一步研究多模态表示学习、融合技术和任务特定适应方法，以提高模型对多模态信息的理解和处理能力。例如，探索更有效的跨模态注意力机制，使模型能够更加关注不同模态信息之间的关联部分，从而更好地整合信息；开发新的多模态特征融合方法，将视觉、语言和动作的特征进行更有效的融合，提高特征的表达能力；针对不同任务的特点，设计专门的适应方法，使模型能够根据任务需求灵活调整信息融合策略，从而做出更准确的决策。

（五）泛化能力提升

一个真正通用的机器人系统应能够在不同的、未见过的场景中理解和执行自然语言指令，但目前模型在面对新场景、新任务和新对象时的泛化能力仍有待提高。例如，在一个新的家庭环境中，机器人可能无法理解与之前训练场景稍有不同的指令，或者在处理新类型的任务时表现不佳。
未来的研究方向包括开发更具适应性和可扩展性的 VLA 架构，通过元学习、域适应等技术提高模型在不同场景下的泛化能力。元学习可以让模型学习如何快速适应新任务，从少量的样本中获取有效的学习策略；域适应技术则有助于模型在不同领域或场景之间迁移知识，减少对大量特定场景数据的依赖。使机器人能够快速适应新环境和任务需求，实现更广泛的应用，例如在不同的工业场景、家庭环境或户外环境中都能准确执行任务。