专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
秋叶PPT  ·  夸爆!WPS官方接入DeepSeek,自动化 ... ·  昨天  
跟我学个P  ·  除了DeepSeek,这个AI工具做的PPT ... ·  2 天前  
跟我学个P  ·  用DeepSeek为《哪吒2》做了份PPT, ... ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

与 Open AI 分手后,Figure 推出具身模型 Helix,多个机器人一同做家务

AI科技评论  · 公众号  ·  · 2025-02-21 18:42

正文

图片
Figure 首个 VLA 模型,有效实现人形机器人上半身高效控制。

作者丨吴华秀

编辑丨陈彩娴

两周前,Figure 宣布停止与 Open AI 的联姻,并丢下一个预告,将会未来 30 天内推出“人形机器人上从未见过的东西”。

勾起不少人好奇心的 Figure,这回终于丢出了一个重磅:将首个自研具身模型 Helix 装入机器人Figure。Figure 创始人兼 CEO Brett Adcock 表示,有了大脑 Helix 的加持,机器人能够拾取任何家庭物品。

视频画面中,一台桌子,一台冰箱,两个机器人合伙一同整理物品,将它们从未见过的物品挨个分门别类放好。动作全程行云流水,无比丝滑。

尤其是两机器人传递物品时抬头的那一对望,让不少网友直呼机器人仿佛有了意识,“原来这就是心电感应”。

这得益于 Helix 对机器人上半身的全控制,其中涵盖手腕、躯干、头部和各个手指,能够对机器人上半身进行高速率的连续控制。

同时,视频中还罕见地展示了多个机器人间的协作与配合。“多机协作是一个亮点,不过这次 Figure 机器人之间的协作任务还比较简单。”一位从业者告诉 AI 科技评论,多机协作的交互和规划会是一个重要课题,但目前优先级还是让单一机器人能真正落地干活,这也是当下机器人厂商普遍的发力点。

在具体任务的执行上,Figure 表示,只要向机器人发话,机器人便能拾取各种各样从未见过的家庭用品。比如拾取生活中的各种物品,玩具、杯子等等。

不过,正和其他机器人厂商一样,目前 Helix 仍还处在比较早期的阶段。


1

实现高速上半身控制,达到多机器人协作

Helix 是一个通用的“视觉-语言-感知”(VLA)模型,将感知、语言理解和学习控制统一起来,取得一系列首创:

  • 整个上身控制:首次对人形机器人上半身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的VLA。

  • 多机器人协作:首个同时在两个机器人上运行的VLA,能够使用从未见过的物品解决共享的远程操作任务。

  • 拿起任何东西:只需按照自然语言提示,就能拿起几乎任何小型家居物品,包括数千种它们从未遇到过的物品。

  • 一个神经网络:与之前的方法不同,使用一组神经网络权重来学习所有行为(挑选和放置物品、使用抽屉和冰箱以及跨机器人交互),而无需任何针对特定任务的微调。

  • 已做好商业准备:首款完全在嵌入式低功耗 GPU 上运行的 VLA,可立即进行商业部署。

在对机器人上半身的控制上,Helix 能以 200Hz 频率协调 35 自由度动作空间,让机器人的上半身从手指、手腕到头部的动作流畅高效。头部与躯干控制存在独特挑战——当头部移动时,将会改变机器人的接触距离和视线范围,以往这种变化会导致机器人不稳定。

视频中,机器人用头部平稳地跟踪双手,同时调整躯干以获得最佳范围,同时保持精确的手指控制以抓握物品。Figure 表示,此前还没有 VLA 能展示这种程度的实施协调,同时保持多任务泛化能力。

Figure 还尝试了将 Helix 运用在一个高难度多智能体操作场景中: 两台 Figure 机器人之间协作实现零样本杂货存放。 这两台机器人都采用了相同的 Helix 模型权重进行操作,不再需要对机器人进行训练或分配角色,它们之间能通过自然语言进行合作。

如下面视频中所展示的,“将一袋饼干递给你右边的机器人”或“从你左边的机器人那里接过一袋饼干并将饼干放在打开的抽屉里”,两台机器人能灵活协同处理问题。

搭载 Helix 的机器人还展现出了强大的泛化能力。 只要一个简单的“拿起 [X]”命令,机器人几乎能拿起所有的小型家庭用品。 在系统测试中,机器人成功处理了杂乱无章的数千件新物品),不需要任何事先演示或自定义编程。

更难得的是,Helix 能弥合语言理解与机器控制之间的距离。例如,当指示机器人“捡起沙漠物品”时,Helix 不仅能识别出玩具仙人掌,还能选择最近的手去抓住物品。这种通用的“语言到动作”的掌握能力,让机器人部署在非结构化环境中有了新可能。

Figure 创始人 Brett Adcock 表示,团队花了一年多的时间研发出了 Helix,让人形机器人无需经过任何训练、代码,就能抓取几乎任何家庭用品。


2

首创“系统 1、系统 2” VLA,慢思考与快思考

Helix 是首创的“系统 1、系统 2”VLA 模型,可对人形机器人的整个上半身进行高速、灵巧的控制。

先前的方法面临着一个取舍:VLM主干网络具有通用性但速度不快,机器人视觉运动策略速度快但通用不足。而 Helix 通过两个互补的系统解决了这一权衡,这两个系统经过端到端的训练,可以实现通信:

  • 系统 2 (S2):一个机载互联网预训练的 VLM,以 7-9 Hz 的频率运行,用于场景理解和语言理解,从而实现跨对象和上下文的广泛概括。

  • 系统 1 (S1):一种快速反应的视觉运动策略,将 S2 产生的潜在语义表征转化为 200 Hz 的精确连续机器人动作。

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以“慢慢思考”高级目标,而 S1 可以“快速思考”以实时执行和调整动作。

Figure 所采用的分层式的架构具备分而治之的优势,能对不同任务模块进行独立优化和迭代。目前业内分层式架构和一体式架构并存,后者有 1X Technologies、星动纪元等机器人厂商代表。这两种方案并无显著优劣之分,都还在探索阶段。

与现有方法相比,Helix 的设计有几个主要优势:

  • 速度和泛化:Helix 匹配专门的单任务行为克隆策略的速度,同时将零样本推广到数千个新颖的测试对象。

  • 可扩展性:Helix 直接输出高维动作空间的连续控制,避免了先前 VLA 方法中使用的复杂动作标记方案,这些方案在低维控制设置(例如二值化并行夹持器)中已取得一些成功,但在高维人形控制中面临扩展挑战。

  • 架构简单:Helix 使用标准架构 - 用于系统 2 的开源、开放权重 VLM 和用于 S1 的简单的基于变压器的视觉运动策略。

  • 关注点分离:将 S1 和 S2 解耦,我们可以分别在每个系统上进行迭代,而不受寻找统一的观察空间或动作表示的限制。

Figure表示,Helix 以极少的资源实现了强大的泛化能力,一共使用了约 500 小时的高质量监督数据来训练 Helix,仅占此前采集的VLA数据集的一小部分(<5%),而且不依赖机器人实体收集数据或多阶段训练。

尽管数据要求相对较小,但 Helix 可以扩展到更具挑战性的动作空间,即完整的上半身人形控制,具有高速率、高维度的输出。

参考链接:https://www.figure.ai/news/helix

图片

图片

图片


更多内容 ,点击下方关注:

图片

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。







请到「今天看啥」查看全文