专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
新闻广角  ·  刚刚,亮相央视!泉州花灯火了! ·  昨天  
新闻广角  ·  14000页涉肯尼迪遇刺案文件被发现 ·  昨天  
新闻广角  ·  马云新年再度现身杭州阿里园区 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

具身智能中 VLA 主流方案全解析:技术总结与未来展望

自动驾驶之心  · 公众号  ·  · 2025-02-12 07:30

正文

作者 | yiha  编辑 | 具身智能之心

原文链接:https://www.unifolm.com/#/post/433

点击下方 卡片 ,关注“ 具身智能之心 ”公众号

本文只做学术分享,如有侵权,联系删文

>> 点击进入→ 具身智能之心 技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区 具身智能之心知识星球 (戳我) 这里包含所有你想要的。

引言

具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标,而视觉 - 语言 - 动作(VLA)模型作为其中的关键技术,近年来备受关注。VLA 模型能够处理视觉、语言和动作信息,使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容,对主流的 VLA 方案进行总结,包括其开源项目、核心思想、结论共识以及未来发展方向,希望能为关注具身智能领域的读者提供有价值的参考。

内容出自国内首个具身智能全栈学习社区: 具身智能之心知识星球 ,这里包含所有你想要的。

一、VLA 方案总览

(一)基于经典 Transformer 结构方案

  • 代表性开源项目 :ALOHA(ACT)系列、RT-1、HPT等。
  • 核心思想 :利用强化学习轨迹与序列建模问题结构的自然对齐性,采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模,有效提升了模型在复杂环境中的决策能力。例如,在机器人控制任务中,模型可以根据过去的状态和动作序列,预测未来的最优动作,从而更好地适应复杂环境中的变化。

(二)基于预训练 LLM/VLM 方案

  • 代表性开源项目 :RT - 2、OpenVLA 等。
  • 核心思想 :将 VLA 任务视为一个序列到序列的生成问题,利用预训练的语言模型(LLM)或视觉语言模型(VLM)来处理视觉和语言信息,并生成相应的动作。以 RT - 2 为例,它通过共同微调,使模型适应互联网规模的视觉问答数据和机器人数据,从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时,能够借助预训练模型对语言和视觉信息的理解,更准确地生成合适的动作指令,为机器人在复杂任务中的执行提供了有力支持。

(三)基于扩散模型方案

  • 代表性开源项目 :Diffusion Policy、RDT - 1B 等。
  • 核心思想 :将机器人策略建模为去噪扩散概率模型(DDPM),通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术,如后退视域控制、视觉条件和时间序列扩散变压器,在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时,该模型能够有效地生成稳定且多样化的动作,为机器人在复杂环境中的动作生成提供了新的思路和方法。

(四)LLM + 扩散模型方案

  • 代表性开源项目 :Octoπ0 等。
  • 核心思想 :结合 LLM 和扩散模型的优势,LLM 用于压缩多模态表征,扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合,在不同机器人和任务中实现了正向转移和泛化,提高了模型在复杂任务中的性能和适应性。例如,在多模态信息处理中,LLM 可以对视觉和语言信息进行初步的理解和整合,然后扩散模型根据这些信息生成精确的动作轨迹,使机器人能够更好地完成任务。

(五)视频生成 + 逆运动学方案

  • 代表性开源项目 :UniPiRo、BoDreamer、UniSim、GR - 1/GR - 2 等。
  • 核心思想 :先根据首帧和指令生成运动视频,再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态,然后利用逆运动学将预测的状态转换为可执行的动作,提高了动作生成的可解释性和准确性。以 UniPiRo 为例,它根据给定的初始帧和指令生成运动视频,该视频展示了机器人在未来一段时间内的预期运动轨迹,然后通过逆运动学将视频中的状态转换为具体的关节动作,使机器人能够按照预期轨迹运动,在机器人控制任务中具有重要意义。

(六)显示端到端 VLA 方案

  • 代表性开源项目 :众多端到端 VLA 模型,如部分基于 Transformer 的模型等。
  • 核心思想 :将视觉语言信息压缩成联合的表征,再映射到动作空间生成动作。这些模型通过直接处理多模态信息,减少了中间环节的信息损失,提高了模型的效率和准确性。在实际应用中,模型可以直接从视觉和语言输入中提取关键信息,快速生成相应的动作。例如,模型在接收到 “将蓝色杯子从桌子上拿起并放到厨房的架子上” 的指令和对应的视觉场景后,能够直接对视觉中的物体进行识别、定位,结合语言指令理解任务目标,然后生成一系列精确的动作指令,如控制机械臂移动到杯子上方、调整夹爪姿态、抓取杯子、移动到架子位置并放置杯子等,整个过程无需复杂的中间转换,有效提高了机器人的响应速度和执行准确性。

(七)隐式端到端 VLA 方案

  • 代表性开源项目 :如利用人类视频训练世界模型的相关项目(如 SWIM 等)。
  • 核心思想 :利用当前的视频扩散模型预测未来状态,再通过逆运动学生成动作,同时注重提高模型的可解释性。例如,SWIM 通过使用人类视频训练世界模型,并结合视觉可供性地图推断目标姿势,实现了知识从人类数据到机器人控制的有效转移。该模型从人类视频中学习到人类在不同场景下的行为模式,然后利用这些知识预测机器人在相似场景下应采取的动作,为机器人在复杂环境中的决策提供了更可靠的依据。

(八)分层端到端 VLA 方案

  • 代表性开源项目 :结合了高层任务规划和低层控制策略的分层模型(如一些包含 LLM 作为高层规划器的项目)。
  • 核心思想 :充分利用大小模型的特点,高层任务规划器将复杂任务分解为子任务,低层控制策略执行子任务,以提升模型的泛化性和执行效率。这种分层结构使模型能够更好地处理长时域任务,提高了机器人在复杂任务中的执行能力和适应性。例如,在执行 “整理房间” 这样的长时域任务时,高层规划器可以将任务分解为 “捡起物品”“移动到指定位置”“放置物品” 等子任务,低层控制策略则负责具体执行这些子任务,使机器人能够有条不紊地完成整个任务。

二、方案对比与结论共识

(一)模型架构与信息融合

  1. 在模型架构方面,不同方案探索了多种融合视觉和语言输入的方法。例如,基于经典 Transformer 结构的方案通过特定的网络结构设计来整合多模态信息;基于预训练 LLM/VLM 的方案则借助预训练模型的强大表征能力进行信息融合。
  2. 结论共识是,合适的架构设计对于实现高效的视觉 - 语言 - 动作交互至关重要。不同架构在处理多模态信息时有其优势和局限性,如某些架构在处理长序列信息时表现较好,而另一些在模型参数效率上更具优势。例如,Transformer 架构在处理长序列数据时能够有效捕捉信息之间的依赖关系,但可能需要较大的计算资源;而一些基于卷积神经网络的架构在参数效率上可能更高,但在处理长序列信息时可能存在一定困难。

(二)动作类型与训练目标

  1. 动作类型上,多数低层级控制策略预测末端执行器的位姿,但不同方案在动作表示和处理方式上存在差异。例如,一些方案采用离散动作表示,而另一些则采用连续动作表示。
  2. 训练目标方面,包括行为克隆(BC)、强化学习等多种方式。不同训练目标对模型的性能和泛化能力有不同影响,例如 BC 在模仿学习中广泛应用,但其在不同动作类型下的实现方式和效果有所不同。以 RT - 1 为例,它采用离散动作表示,通过行为克隆的方式进行训练,在一些简单任务中表现出较好的性能,但在处理需要连续动作的复杂任务时可能存在一定局限性。
  3. 总体而言,选择合适的动作类型和训练目标需要综合考虑任务需求、模型性能和数据可用性等因素,以实现高效的动作生成和优化。例如,在需要精确控制动作的任务中,连续动作表示可能更合适;而在数据量有限的情况下,行为克隆等基于已有数据的训练方式可能更具优势。

(三)LLM 与非 LLM 方案

  1. LLM - 基于方案(如 RT - 2 等)在指令理解和复杂任务处理上具有优势,能够更好地解析用户意图。然而,其训练成本高且部署速度可能较慢,在动态环境中可能面临推理延迟的问题。例如,RT - 2 在理解复杂语言指令方面表现出色,但由于其模型规模较大,训练过程需要大量的计算资源和时间,并且在实时性要求较高的动态环境中,可能因为推理速度较慢而影响机器人的响应及时性。
  2. 非 LLM 方案(如一些早期的基于经典 Transformer 结构的方案)虽然在指令理解能力上相对较弱,但在特定场景下,如对实时性要求较高的任务中,可能因其简单高效的特点而表现出色。例如,一些基于经典 Transformer 结构的模型在处理简单指令和实时性要求高的任务时,能够快速生成动作,保证机器人的高效运行。
  3. 未来的发展可能需要在两者之间寻求平衡,或者探索新的方法来充分发挥它们的优势,克服各自的局限性。例如将 LLM 与非 LLM 模型进行协同工作,利用 LLM 进行高层任务规划和指令解析,非 LLM 模型负责底层动作执行和实时控制,实现更强大、高效和智能的 VLA 系统。

(四)RT 系列模型的发展与影响

  1. RT - 1 作为开创性的 “Robotic Transformer” 模型,激发了一系列后续工作。其后续模型如 RT - 2、RTX 等在数据集规模、模型架构和性能上不断改进。
  • RT - 1 模型特点与贡献 :RT - 1 是首个用于机器人的 Transformer 模型,其输入包括头部视角历史长度 T = 6 的 300x300 的图像以及语言指令。它采用了 FiLM conditioned EfficientNet - B3 作为图像 Encoder,直接融合视觉和语言信息(VL),将每张图经过处理得到 9x9x512 的 VL 融合后的 token,再通过 tokenlearner 将每张图的 81 个 token 变为 8 个 token,最终得到 8*6 = 48 个 token。Language Encoder 使用 Universal Sentence Encoder 得到 512 维向量。Decoder/Policy Head 采用 decoder - only Transformer,包含 8 个自注意力层,模型参数达 19M,输出为 11D 的离散动作空间,涵盖手臂、基座的扭矩、夹爪位置、旋转等信息。
  • RT - 2 的改进与创新 :RT - 2 基于 ViT 和 LLM,引入了共同微调的训练方式,使其能适应互联网规模的视觉问答数据和机器人数据。它在 RT - 1 的基础上,进一步提升了模型的泛化能力和涌现能力,为机器人在更复杂任务中的执行提供了支持。
  • RTX 的优化与提升 :RTX 模型重新使用了 RT - 1 和 RT - 2 模型,并利用新引入的开源大型数据集 Open X - Embodiment(OXE)进行训练。OXE 数据集包含 160,266 个任务、527 个技能和 22 个实施例,规模比以前的数据集大得多。因此,RTX 模型(包括 RT - 1 - X 和 RT - 2 - X)在性能上超越了其原始版本,展现了数据集规模对模型性能提升的重要性。
  1. 结论共识是,随着数据集的扩大和模型架构的优化,RT 系列模型在实际应用中的性能逐步提升,展示了基于 Transformer 架构在具身智能领域的潜力。同时,也为其他 VLA 模型的发展提供了重要的参考和借鉴。例如,其他模型可以借鉴 RT 系列模型在数据利用、架构设计等方面的经验,不断改进自身性能,推动 VLA 技术的发展。

三、未来方向

(一)数据稀缺问题

  1. 目前,获取足够的真实世界机器人数据仍然是一个重大挑战,收集过程耗时且资源密集。例如,在实际环境中收集机器人操作数据需要大量的人力、物力和时间投入,而且不同环境和任务下的数据多样性难以保证。
  2. 未来的方向包括开发更高效的数据收集方法,如利用自动化数据收集技术(如 RoboGen、AutoRT 等),以及通过模拟环境生成更多样化的数据来缓解数据稀缺问题。RoboGen 可以通过生成式模拟范式提出有趣的技能,模拟相应环境并选择最优学习方法来训练策略获取数据;AutoRT 则能作为机器人编排器,由 LLMs 驱动生成任务,筛选后利用自主策略或人工远程操作收集和评估数据。同时,改进数据标注技术和提高数据质量也是关键,例如采用更先进的标注工具和算法,确保数据的准确性和一致性,从而为模型训练提供更优质的数据。

(二)运动规划能力提升

  1. 当前运动规划模块在处理复杂环境中的任务时,往往缺乏足够的灵活性和精确性,限制了机器人与工具交互、在复杂环境中导航和执行高精度操作的能力。例如,在复杂的操作任务中,机器人可能难以精确地抓取和放置物体,或者在狭窄空间中导航时容易出现碰撞等问题。
  2. 未来需要开发更强大的运动规划算法,结合深度学习和传统规划方法的优势,提高机器人在复杂环境中的运动规划能力。例如,通过强化学习优化运动轨迹生成,使机器人能够根据环境反馈不断调整动作,找到最优的运动路径;引入基于模型的预测控制方法,提高动作的准确性和稳定性,确保机器人在执行任务时能够精确控制动作的力度、方向和速度等参数。

(三)实时响应性增强

  1. 许多机器人应用对实时决策和动作执行有严格要求,但现有 VLA 模型在处理复杂任务时可能面临延迟问题。例如,在一些需要快速响应的场景中,如工业生产线上的机器人操作或自动驾驶中的决策,模型的推理延迟可能导致生产效率降低或安全风险增加。
  2. 未来研究需优化模型架构与算法提升计算效率、缩减推理时间,确保机器人在实时性场景快速响应。比如探索高效架构、减少计算层与参数,或用并行计算技术加速。硬件层面优化计算资源分配利用也重要,研发专用加速器,优化软硬件协同,使资源高效服务模型推理,让机器人在实时性要求高的场景稳定准确运行,像智能仓储物流中快速分拣运输货物,救援场景中迅速决策行动。

(四)多模态信息融合优化

  1. 虽然在多模态信息融合方面已经取得了一定进展,但实现视觉、语言和动作信息的最优融合仍然是一个挑战。目前的模型在融合不同模态信息时,可能存在信息丢失、模态间对齐不准确等问题。例如,在处理包含复杂场景和模糊指令的任务时,模型可能无法准确地将视觉信息与语言指令进行匹配,从而导致动作执行的不准确。
  2. 未来需要进一步研究多模态表示学习、融合技术和任务特定适应方法,以提高模型对多模态信息的理解和处理能力。例如,探索更有效的跨模态注意力机制,使模型能够更加关注不同模态信息之间的关联部分,从而更好地整合信息;开发新的多模态特征融合方法,将视觉、语言和动作的特征进行更有效的融合,提高特征的表达能力;针对不同任务的特点,设计专门的适应方法,使模型能够根据任务需求灵活调整信息融合策略,从而做出更准确的决策。

(五)泛化能力提升

  1. 一个真正通用的机器人系统应能够在不同的、未见过的场景中理解和执行自然语言指令,但目前模型在面对新场景、新任务和新对象时的泛化能力仍有待提高。例如,在一个新的家庭环境中,机器人可能无法理解与之前训练场景稍有不同的指令,或者在处理新类型的任务时表现不佳。
  2. 未来的研究方向包括开发更具适应性和可扩展性的 VLA 架构,通过元学习、域适应等技术提高模型在不同场景下的泛化能力。元学习可以让模型学习如何快速适应新任务,从少量的样本中获取有效的学习策略;域适应技术则有助于模型在不同领域或场景之间迁移知识,减少对大量特定场景数据的依赖。使机器人能够快速适应新环境和任务需求,实现更广泛的应用,例如在不同的工业场景、家庭环境或户外环境中都能准确执行任务。






请到「今天看啥」查看全文