本文只做学术分享,如有侵权,联系删文
>>
点击进入→
具身
智能之心
技术交流群
更多干货,欢迎加入国内首个具身智能全栈学习社区
:
具身智能之心知识星球
(戳我)
,
这里包含所有你想要的。
导 言
智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。
研究论文:
https://agibot-world.com/blog/agibot_go1.pdf
2024年底,智元推出了
AgiBot
World
,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模
高质量真机数据集。基于AgiBot World,
智元今天正式发布智元通用具身基座大模型 Genie Operator-1(GO-1)。
为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。
GO-1作为首个通用具身基座大模型,基于ViLLA构建。
与Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在
真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。
ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。
在推理时,
VLM、Latent Planner
和
Action Expert
三者协同工作:
-
VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
-
Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
-
Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;
下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert:
混合专家一:
Latent Planner(隐式规划器)
尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐
式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。
-
编码器采用Spatial-temporal Transformer,并使用Causal Temporal Masks(时序因果掩码)。
-
解码器采用Spatial Transformer,以初始帧和离散化的Latent Action Tokens作为输入。
-
Latent Action Tokens通过VQ-VAE的方式进行量化处理。