专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

稚晖君预告揭晓！首个通用具身基座模型，机器人告别「看得懂做不来」

新机器视觉 · 公众号 · · 2025-03-11 09:10

正文

Datawhale分享

发布：智元机器人，编辑：机器之心

上周五，稚晖君在微博上预告，「下周有好东西发布」。

还没进入「下周」多久，智元机器人的「好东西」揭晓了，还是双重惊喜：Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。

机器人训练，苦数据难久矣。一方面是认知维度的数据：互联网上海量的文本和图片数据，帮助机器人建立基础认知，理解世界是什么样的。

另一方面是动作维度的数据，主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据，还有机器人在实际环境中实操得来的真机示教数据。

智元机器人将机器人的训练数据划分为四个层次

然而现有的 VLA（Vision-Language-Action）架构，主要依赖真机和合成数据。

我们每天刷的短视频有很多可供机器人学习的操作，但不能直接用，需要「翻译」成机器人能理解的语言。

因此，机器人很难做到看完人类的视频教程，脑子学会了，手学会了，直接上手做好了。

没有充分激活人类 / 跨本体操作视频数据这个宝贵的数据来源，机器人迭代的成本更高，进化的速度也更慢了。

那么，怎样的架构才能充分利用好这些数据呢？

智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架构。

与 VLA 架构相比，ViLLA 通过预测 Latent Action Tokens（隐式动作标记），让机器人能够将人类动作视频转化为自己可执行的动作序列。这样，机器人就能同时获得认知和动作两个维度的训练，既知其然，也知其所以然。

这样一来，机器人也能有效利用高质量的 AgiBot World 数据集以及互联网上广泛的视频数据，增强策略的泛化能力。

基于 ViLLA 架构，智元打造了通用具身基座大模型 ——GO-1。它由 VLM (语言视觉模型) 和 MoE (专家混合模型) 组成。它整合了视觉、语言、动作、触觉等多模态输入，规划具体动作，直接输出机器人的动作执行序列。

举个例子来说，你告诉机器人去挂衣服，GO-1 会指导机器人理解任务要求，分解动作步骤，适应具体环境，最终执行操作。

但在更深的技术面，这是因为 GO-1 大模型融会贯通了机器人训练数据的四个层次：

在训练阶段，学习了互联网的大规模纯文本和图文数据，所以能理解「挂衣服」在此情此景下的含义和要求。

学习过人类操作视频和其他机器人的各种操作视频，所以能知道挂衣服通常包括哪些环节。

学习过仿真的不同衣服、不同衣柜、不同房间，模拟过挂衣服的操作，所以能理解环节中对应的物体和环境并打通整个任务过程。

又因为学习过真机的示教数据，所以机器人能精准完成任务。

这样一来，GO-1 大模型可以帮助机器人完成全面的「基础教育」和「职业教育」，让机器人具备强大的迁移学习能力。面对新场景时，机器人既有基本常识，又能根据多种多样的环境和物体，快速上手新操作。

论文链接：https://agibot-world.com/blog/agibot_go1.pdf

GO-1：VLA 进化到 ViLLA

请到「今天看啥」查看全文

推荐文章

深圳晚报 · 价格“疯”涨！最高6880元

昨天

深圳晚报 · 价格“疯”涨！最高6880元

昨天

郓城融媒体中心 · 禁止！禁止！刚刚，乒协发声→

昨天

郓城融媒体中心 · 禁止！禁止！刚刚，乒协发声→

昨天

掌上铜山 · 禁止！禁止！刚刚，乒协发声

2 天前

掌上铜山 · 禁止！禁止！刚刚，乒协发声

2 天前

封面新闻 · 涉嫌性骚扰的乒乓球教练再发声：没报警是因为被要求顾全大局

2 天前

封面新闻 · 涉嫌性骚扰的乒乓球教练再发声：没报警是因为被要求顾全大局

2 天前

天津日报 · 被禁赛10年！徐克声明——

3 天前

天津日报 · 被禁赛10年！徐克声明——

3 天前

底线思维 · 香港行政与司法的博弈，下任特首准备好了吗？

8 年前

鲁中晨报 · 清明节山东最全自驾游攻略，这个小长假，就要玩点不一样的！

7 年前

上海头条 · 上海人注意了！医保卡里用不完的钱，今年起就这么花！

7 年前

正商参略 · 成功老股民的忠告：亏钱小散切记这三点......

7 年前

齐网网络 · 朋友圈点个赞竟导致倾家荡产，齐齐哈尔人速看！

7 年前