大模型的风终于吹到了机器人身上。
刚刚,
人形机器人初创公司
Figure AI
发布了新 AI 系统 Helix,
这是专为人形机器人设计的“视觉-语言-动作”(Vison-Language-Action,VLA)模型,能够让机器人直接理解自然语言、解析视觉信息,并执行相应的动作。
(来源:Figure AI)
Helix 是第一款对整个人形上身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的 VLA 模型。
简单来说,这就像给机器人装上了一个
超级大脑
,让它们可以像人类一样用眼睛观察、用耳朵听、用手操作,并且能在没有特别训练的情况下完成全新的任务。
如果你觉得机器人还停留在那种“机械化执行命令”、只能按照预设流程工作的阶段,那 Figure AI 的新视频可能会改变你的看法。
(来源:Figure AI)
视频中,虽然两个机器人的动作慢吞吞的,但它们对人类指令的理解十分到位,包括打开冰箱、拿起食物、摆放到恰当的位置,甚至还能传递食物(协同合作)。
Figure AI 在 X 上写道:
“我们发现,只要给机器人提示词,我们就可以(让它)拿起几乎任何物体。”
图 | Figure AI 发布 Helix 模型(来源:X)
相比传统的机器人控制方式,Helix 可以让机器人具备更强的自主学习能力,不再局限于固定任务,而是可以在各种场景中学习、适应新挑战。
这种能力得益于 Figure AI 的 S2+S1 双系统架构,可对人形机器人的整个上半身进行高速、灵巧的控制。
图 | Helix 的双系统架构(来源:Figure AI)
其中 S2 系统是一个机载互联网预训练的视觉语言模型(VLM),以 7-9 Hz 的频率运行,用于场景理解和语言理解,从而实现跨对象和上下文的广泛概括。
而 S1 系统负责快速反应的视觉运动策略,将 S2 产生的潜在语义表征转化为 200 Hz 的精确连续机器人动作。换句话说就是负责理解来自人类的语言指令,并结合视觉信息解析环境,实现自主决策并保证流畅的肢体协调。
“这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以慢慢‘思考高级’目标,而 S1 可以‘快速思考’以实时执行和调整动作。”Figure AI 写道。
图 | Figure AI 的 CEO 表示:“要让机器人进入千家万户,我们需要在能力上实现重大进展。”(来源:X)
据
Figure AI
介绍,他们收集了高质量的多机器人、多操作员数据集,其中包含各种远程操作行为,总共约 500 小时。
为了生成自然语言条件训练对,Figure AI 使用自动标记 VLM 来生成 hindsight 指令。VLM 会处理来自机器人机载摄像头的分段视频片段,并提示:“你会给机器人什么指令来执行此视频中看到的动作?”训练期间处理的所有物品均不包含在评估中,以防止污染。
Helix 系统由两个主要组件组成:S2(VLM 主干)和 S1(潜在条件视觉运动 Transformer)。
S2 建立在 7B 参数开源、开放权重的 VLM 上,该 VLM 已在互联网规模数据上进行了预训练。它将单目机器人图像和机器人状态信息(包括手腕姿势和手指位置)投影到视觉语言嵌入空间后进行处理。
结合指定所需行为的自然语言命令,S2 将所有语义任务相关信息提炼为单个连续潜在向量,并传递给 S1 以调节其低级动作。
S1 是一个 80M 参数交叉注意编码器-解码器 Transformer,用于处理低级控制。它依靠完全卷积、多尺度视觉主干进行视觉处理,该主干通过完全在模拟中完成的预训练进行初始化。
图 | 机器人可以捡起各种各样的东西(来源:Figure AI)
虽然 S1 接收与 S2 相同的图像和状态输入,但它以更高的频率处理它们,以实现响应更快的闭环控制。来自 S2 的潜在向量被投影到 S1 的标记空间中,并沿着序列维度与来自 S1 视觉主干的视觉特征连接起来,提供任务调节。
S1 以 200hz 的频率输出完整的人形机器人上半身控制,包括所需的手腕姿势、手指屈曲和外展控制以及躯干和头部方向目标。他们在动作空间中附加了一个合成的“任务完成百分比”动作,使 Helix 能够预测自己的终止条件,从而更容易对多个学习到的行为进行排序。
通过端到端训练,Helix 能够控制机器人,直接从视觉和语言输入中推理出正确的行动,而无需手动编写具体任务指令,也不需要针对特定任务进行调整。
Helix 的训练设计支持在 Figure 机器人上高效地并行部署模型,每个机器人都配备了双低功耗嵌入式 GPU。推理管道分为 S2(高级潜在规划)和 S1(低级控制)模型,每个模型都在专用 GPU 上运行。
Figure AI 总结道:“Helix 以极少的资源实现了强大的对象泛化。我们总共使用约 500 小时的高质量监督数据来训练 Helix,这仅仅是之前收集的视觉-语言-动作数据集的一小部分(<5%),并且不依赖于多机器人化身收集或多个训练阶段。”