国内首个通用具身基座模型发布

科普中国 · 公众号 · 科学 · 2025-03-18 18:30

正文

3月10日，上海机器人初创公司智元机器人正式发布 智元启元大模型 GenieOperator-1（GO-1）， 这是中国首个通用具身基座模型。 智元机器人表示，这款模型具有泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，降低了后训练成本。

智元发布首个通用具身基座模型——智元启元大模型（Genie Operator-1）。图：智元机器人公众号

据介绍，该模型开创性地提出了Vision-Language-Latent-Action（ViLLA）架构，实现了可以利用人类视频学习，完成小样本快速泛化。ViLLA架构是由VLM（多模态大模型） + MoE（混合专家）组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner（隐式规划器）借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert（动作专家）借助百万真机数据获得精细的动作执行能力。在推理时，VLM（多模态大模型）、Latent Planner（隐式规划器）和Action Expert（动作专家）三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。

2024年年底，智元机器人曾发布AgiBot World百万真机数据集，尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为了解决具身智能数据困境，智元机器人采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner（隐式规划器）预测这些Latent Actions（隐式动作），从而将异构数据源中真实世界的动作知识转移到通用操作任务中。