Figure 首个 VLA 模型,有效实现人形机器人上半身高效控制。
作者丨吴华秀
编辑丨陈彩娴
两周前,Figure 宣布停止与 Open AI 的联姻,并丢下一个预告,将会未来 30 天内推出“人形机器人上从未见过的东西”。
勾起不少人好奇心的 Figure,这回终于丢出了一个重磅:将首个自研具身模型 Helix 装入机器人Figure。Figure 创始人兼 CEO Brett Adcock 表示,有了大脑 Helix 的加持,机器人能够拾取任何家庭物品。
视频画面中,一台桌子,一台冰箱,两个机器人合伙一同整理物品,将它们从未见过的物品挨个分门别类放好。动作全程行云流水,无比丝滑。
尤其是两机器人传递物品时抬头的那一对望,让不少网友直呼机器人仿佛有了意识,“原来这就是心电感应”。
这得益于 Helix 对机器人上半身的全控制,其中涵盖手腕、躯干、头部和各个手指,能够对机器人上半身进行高速率的连续控制。
同时,视频中还罕见地展示了多个机器人间的协作与配合。“多机协作是一个亮点,不过这次 Figure 机器人之间的协作任务还比较简单。”一位从业者告诉 AI 科技评论,多机协作的交互和规划会是一个重要课题,但目前优先级还是让单一机器人能真正落地干活,这也是当下机器人厂商普遍的发力点。
在具体任务的执行上,Figure 表示,只要向机器人发话,机器人便能拾取各种各样从未见过的家庭用品。比如拾取生活中的各种物品,玩具、杯子等等。
不过,正和其他机器人厂商一样,目前 Helix 仍还处在比较早期的阶段。
Helix 是一个通用的“视觉-语言-感知”(VLA)模型,将感知、语言理解和学习控制统一起来,取得一系列首创:
-
整个上身控制:首次对人形机器人上半身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的VLA。
-
多机器人协作:首个同时在两个机器人上运行的VLA,能够使用从未见过的物品解决共享的远程操作任务。
-
拿起任何东西:只需按照自然语言提示,就能拿起几乎任何小型家居物品,包括数千种它们从未遇到过的物品。
-
一个神经网络:与之前的方法不同,使用一组神经网络权重来学习所有行为(挑选和放置物品、使用抽屉和冰箱以及跨机器人交互),而无需任何针对特定任务的微调。
-
已做好商业准备:首款完全在嵌入式低功耗 GPU 上运行的 VLA,可立即进行商业部署。
在对机器人上半身的控制上,Helix 能以 200Hz 频率协调 35 自由度动作空间,让机器人的上半身从手指、手腕到头部的动作流畅高效。头部与躯干控制存在独特挑战——当头部移动时,将会改变机器人的接触距离和视线范围,以往这种变化会导致机器人不稳定。
视频中,机器人用头部平稳地跟踪双手,同时调整躯干以获得最佳范围,同时保持精确的手指控制以抓握物品。Figure 表示,此前还没有 VLA 能展示这种程度的实施协调,同时保持多任务泛化能力。
Figure 还尝试了将 Helix 运用在一个高难度多智能体操作场景中:
两台 Figure 机器人之间协作实现零样本杂货存放。
这两台机器人都采用了相同的 Helix 模型权重进行操作,不再需要对机器人进行训练或分配角色,它们之间能通过自然语言进行合作。
如下面视频中所展示的,“将一袋饼干递给你右边的机器人”或“从你左边的机器人那里接过一袋饼干并将饼干放在打开的抽屉里”,两台机器人能灵活协同处理问题。
搭载 Helix 的机器人还展现出了强大的泛化能力。
只要一个简单的“拿起 [X]”命令,机器人几乎能拿起所有的小型家庭用品。
在系统测试中,机器人成功处理了杂乱无章的数千件新物品),不需要任何事先演示或自定义编程。
更难得的是,Helix 能弥合语言理解与机器控制之间的距离。例如,当指示机器人“捡起沙漠物品”时,Helix 不仅能识别出玩具仙人掌,还能选择最近的手去抓住物品。这种通用的“语言到动作”的掌握能力,让机器人部署在非结构化环境中有了新可能。
Figure 创始人 Brett Adcock 表示,团队花了一年多的时间研发出了 Helix,让人形机器人无需经过任何训练、代码,就能抓取几乎任何家庭用品。
首创“系统 1、系统 2” VLA,慢思考与快思考
Helix 是首创的“系统 1、系统 2”VLA 模型,可对人形机器人的整个上半身进行高速、灵巧的控制。
先前的方法面临着一个取舍:VLM主干网络具有通用性但速度不快,机器人视觉运动策略速度快但通用不足。而 Helix 通过两个互补的系统解决了这一权衡,这两个系统经过端到端的训练,可以实现通信:
这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以“慢慢思考”高级目标,而 S1 可以“快速思考”以实时执行和调整动作。
Figure 所采用的分层式的架构具备分而治之的优势,能对不同任务模块进行独立优化和迭代。目前业内分层式架构和一体式架构并存,后者有 1X Technologies、星动纪元等机器人厂商代表。这两种方案并无显著优劣之分,都还在探索阶段。
与现有方法相比,Helix 的设计有几个主要优势:
-
速度和泛化:Helix 匹配专门的单任务行为克隆策略的速度,同时将零样本推广到数千个新颖的测试对象。
-
可扩展性:Helix 直接输出高维动作空间的连续控制,避免了先前 VLA 方法中使用的复杂动作标记方案,这些方案在低维控制设置(例如二值化并行夹持器)中已取得一些成功,但在高维人形控制中面临扩展挑战。
-
架构简单:Helix 使用标准架构 - 用于系统 2 的开源、开放权重 VLM 和用于 S1 的简单的基于变压器的视觉运动策略。
-
关注点分离:将 S1 和 S2 解耦,我们可以分别在每个系统上进行迭代,而不受寻找统一的观察空间或动作表示的限制。
Figure表示,Helix 以极少的资源实现了强大的泛化能力,一共使用了约 500 小时的高质量监督数据来训练 Helix,仅占此前采集的VLA数据集的一小部分(<5%),而且不依赖机器人实体收集数据或多阶段训练。
尽管数据要求相对较小,但 Helix 可以扩展到更具挑战性的动作空间,即完整的上半身人形控制,具有高速率、高维度的输出。
参考链接:https://www.figure.ai/news/helix
更多内容
,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。