专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
蛋先生工作室  ·  最新淘汰鸡行情 ·  14 小时前  
超级美工  ·  25种排版问题,你别再乱排版了! ·  1 周前  
蛋先生工作室  ·  最新淘汰鸡行情 ·  2 天前  
澳門政府消費者委員會  ·  【最新物價】調查嬰兒奶粉、個人護理用品及非處 ... ·  2 天前  
浙江省网商协会  ·  【会员动态】是的,今天的热搜榜一,是交个朋友! ·  2 天前  
浙江省网商协会  ·  【会员动态】是的,今天的热搜榜一,是交个朋友! ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

全球首个!智元发布首个通用具身基座大模型GO-1

自动驾驶之心  · 公众号  ·  · 2025-03-12 07:30

正文

作者 | 智元机器人

点击下方 卡片 ,关注“ 具身智能之心 ”公众号

本文只做学术分享,如有侵权,联系删文

>> 点击进入→ 具身 智能之心 技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区 具身智能之心知识星球 (戳我) 这里包含所有你想要的。

导 言

智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。


研究论文:

https://agibot-world.com/blog/agibot_go1.pdf

2024年底,智元推出了 AgiBot World ,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模 高质量真机数据集。基于AgiBot World, 智元今天正式发布智元通用具身基座大模型 Genie Operator-1(GO-1)。



01

GO-1:VLA进化到ViLLA



为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。 GO-1作为首个通用具身基座大模型,基于ViLLA构建。 与Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在 真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。


ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。 在推理时, VLM、Latent Planner Action Expert 三者协同工作:

  1. VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

  2. Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

  3. Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;


下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert:




混合专家一:

Latent Planner(隐式规划器)


尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐 式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。


  • Latent Action Model (LAM,隐式动作模型)主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth(真值),它由编码器和解码器组成。其中:

  • 编码器采用Spatial-temporal Transformer,并使用Causal Temporal Masks(时序因果掩码)。

  • 解码器采用Spatial Transformer,以初始帧和离散化的Latent Action Tokens作为输入。

  • Latent Action Tokens通过VQ-VAE的方式进行量化处理。







请到「今天看啥」查看全文