本文转载来源:机器之心公众号,不代表官方立场
上周五,稚晖君在微博上预告,「下周有好东西发布」。
还没进入「下周」多久,智元机器人的「好东西」揭晓了,还是双重惊喜:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。
机器人训练,苦数据难久矣。一方面是认知维度的数据:互联网上海量的文本和图片数据,帮助机器人建立基础认知,理解世界是什么样的。
另一方面是动作维度的数据,主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据,还有机器人在实际环境中实操得来的真机示教数据。
智元机器人将机器人的训练数据划分为四个层次
然而现有的 VLA(Vision-Language-Action)架构,主要依赖真机和合成数据。
我们每天刷的短视频有很多可供机器人学习的操作,但不能直接用,需要「翻译」成机器人能理解的语言。
因此,机器人很难做到看完人类的视频教程,脑子学会了,手学会了,直接上手做好了。
没有充分激活人类 / 跨本体操作视频数据这个宝贵的数据来源,机器人迭代的成本更高,进化的速度也更慢了。
那么,怎样的架构才能充分利用好这些数据呢?
智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架构。
与 VLA 架构相比,ViLLA 通过预测 Latent Action Tokens(隐式动作标记),让机器人能够将人类动作视频转化为自己可执行的动作序列。这样,机器人就能同时获得认知和动作两个维度的训练,既知其然,也知其所以然。
这样一来,机器人也能有效利用高质量的 AgiBot World 数据集以及互联网上广泛的视频数据,增强策略的泛化能力。
基于 ViLLA 架构,智元打造了通用具身基座大模型 ——GO-1。它由 VLM (语言视觉模型) 和 MoE (专家混合模型) 组成。它整合了视觉、语言、动作、触觉等多模态输入,规划具体动作,直接输出机器人的动作执行序列。
举个例子来说,你告诉机器人去挂衣服,GO-1 会指导机器人理解任务要求,分解动作步骤,适应具体环境,最终执行操作。
但在更深的技术面,这是因为 GO-1 大模型融会贯通了机器人训练数据的四个层次:
在训练阶段,学习了互联网的大规模纯文本和图文数据,所以能理解「挂衣服」在此情此景下的含义和要求。
学习过人类操作视频和其他机器人的各种操作视频,所以能知道挂衣服通常包括哪些环节。
学习过仿真的不同衣服、不同衣柜、不同房间,模拟过挂衣服的操作,所以能理解环节中对应的物体和环境并打通整个任务过程。
又因为学习过真机的示教数据,所以机器人能精准完成任务。
这样一来,GO-1 大模型可以帮助机器人完成全面的「基础教育」和「职业教育」,让机器人具备强大的迁移学习能力。面对新场景时,机器人既有基本常识,又能根据多种多样的环境和物体,快速上手新操作。
GO-1:VLA 进化到 ViLLA
与 Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测 Latent Action Tokens (隐式动作标记),弥合图像 - 文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源 SOTA 模型。
ViLLA 架构是由 VLM (多模态大模型) + MoE (混合专家) 组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner (隐式规划器) 借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE 中的 Action Expert (动作专家) 借助百万真机数据获得精细的动作执行能力。
在推理时,VLM、Latent Planner 和 Action Expert 三者协同工作:
-
VLM 采用 InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解
-
Latent Planner 是 MoE 中的一组专家,基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP (Chain of Planning,规划链),进行通用的动作理解和规划
-
Action Expert 是 MoE 中的另外一组专家,基于 VLM 的中间层输出以及 Latent Action Tokens,生成最终的精细动作序列
Latent Planner 和 Action Expert 是这个 MoE 框架里的 2 个关键构成:
Latent Planner(隐式规划器)
尽管 AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。
为此,智元采用 Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过 Latent Planner 预测这些 Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。
-
Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间 Latent Actions 的 Groundtruth(真值),它由编码器和解码器组成。其中
-
编码器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(时序因果掩码)。
-
解码器采用 Spatial Transformer,以初始帧和离散化的 Latent Action Tokens 作为输入。
-
Latent Action Tokens 通过 VQ-VAE 的方式进行量化处理。
-
Latent Planner 负责预测这些离散的 Latent Action Tokens,它与 VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的 FFN (前馈神经网络) 和 Q/K/V/O (查询、键、值、输出) 投影矩阵。Latent Planner 这组专家会逐层结合 VLM 输出的中间信息,通过 Cross Entropy Loss(交叉熵损失)进行监督训练。
Action Expert(动作专家)
为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,智元引入了 Action Expert,其采用 Diffusion Model 作为目标函数来建模低层级动作的连续分布。
-
Action Expert 结构设计上与 Latent Planner 类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的 FFN 和 Q/K/V/O 投影矩阵,它通过 Denoising Process(去噪过程)逐步回归动作序列。
-
Action Expert 与 VLM、Latent Planner 分层结合,确保信息流的一致性与协同优化。
GO-1 首个通用具身基座模型
而
G
O-1 基于
ViLLA架构。
具体来说,VLM 作为通用具身基座大模型的主干网络,继承开源多模态大模型 InternVL2.5-2B 的权重,利用互联网大规模纯文本和图文数据,让 GO-1 大模型具备了通用的场景感知和理解能力。