专栏名称: 科普中国
公众科普,科学传播
目录
相关文章推荐
知识分子  ·  美国顶尖大学普林斯顿降薪、冻结招聘 ·  7 小时前  
科普中国  ·  爸妈,这个咱不买! ·  昨天  
环球科学  ·  不太大也不太小,你的尺寸刚刚好 ·  昨天  
51好读  ›  专栏  ›  科普中国

国内首个通用具身基座模型发布

科普中国  · 公众号  · 科学  · 2025-03-18 18:30

正文


3月10日,上海机器人初创公司智元机器人正式发布 智元启元大模型 GenieOperator-1(GO-1), 这是中国首个通用具身基座模型。 智元机器人表示,这款模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,降低了后训练成本。


智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1)。图:智元机器人公众号


据介绍,该模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化。ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。 在推理时,VLM(多模态大模型)、Latent Planner(隐式规划器)和Action Expert(动作专家)三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。


2024年年底,智元机器人曾发布AgiBot World百万真机数据集,尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为了解决具身智能数据困境,智元机器人采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner(隐式规划器)预测这些Latent Actions(隐式动作),从而将异构数据源中真实世界的动作知识转移到通用操作任务中。







请到「今天看啥」查看全文