专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
APPSO  ·  最低调的「AI 六小龙」阶跃星辰,在 ... ·  19 小时前  
小众软件  ·  另外两件事[250221] ·  昨天  
APPSO  ·  最便宜的 AI iPhone ... ·  2 天前  
APPSO  ·  我让 Grok 3 ... ·  2 天前  
小众软件  ·  和官网一样,DeepSeek 官方推荐部署 ... ·  2 天前  
51好读  ›  专栏  ›  APPSO

刚甩掉 OpenAI 转身就爆火,Figure 机器人收拾家务视频刷屏全网,默契配合看傻网友

APPSO  · 公众号  · app  · 2025-02-21 12:16

正文

与 OpenAI 官宣「分手」后,人形机器人公司 Figure 在 X 平台放出狂言,宣称其内部 AI 模型取得重大突破,将在接下来的 30 天内展示前所未见的创新成果。
这一天的到来没有让我们等太久,Figure 深夜正式发布通用具身智能模型 Helix。
Figure 创始人 Brett Adcock 在 X 平台发文称, Helix 团队的目标是攻克通用机器人技术——让每个家庭都能拥有一台机器人 ,虽然还有很长的路要走,但目前的成果已经初见成效。
「介绍 Helix,我们最新的 AI,它的思维方式更接近人类。要让机器人真正走进家庭,我们需要能力上的巨大飞跃。Helix 能够适应并操作任何家居物品。」
具体来说,Helix 是一种通用的视觉-语言-行动(VLA)模型,它融合了感知、语言理解和学习控制能力,旨在解决机器人技术中长期存在的多个难题。
按照 Figure 的说法,Helix 在多个方面实现了行业首创:

Helix 是 首个能够对整个人形机器人上半身进行高速连续控制的 VLA,包括手腕、躯干、头部以及单个手指。

Helix 是首个能够同时运行在两台机器人上的 VLA,使它们能够协作完成一个共享的长时任务,即便面对的是从未见过的物品。

配备 Helix 的 Figure 机器人现在几乎可以拾取任何小型家用物品,包括成千上万种它们以前从未接触过的物品, 只需遵循自然语言指令即可完成操作。

与以往的方法不同,Helix 仅使用一组神经网络权重来学习所有行为——从拾取和放置物品,到使用抽屉和冰箱,再到跨机器人交互—— 无需针对特定任务进行额外微调。

Helix 是首个完全运行在嵌入式低功耗 GPU 上的 VLA,意味着它已具备直接商业化部署的能力。

比技术报告更直击人心当属 Figure 官方发布的演示视频。
还是熟悉的家庭场景,画面中的男人三言两语就给两个 Figure 02 机器人交代了任务—— 运用 Helix AI 模型,推理眼前这些第一次看到的物品所属的位置,然后协作收拾好。
这对机器人搭档收拾家务主打一个行云流水,当机器人递过来一个苹果,另一个机器人秒 Get 同伴的心思,主动递过去一个黑色大碗,搭配暗黑色调,赛博朋克风格拉满。
分类冷藏,这对机器人搭档分工明确,配合默契,整理完还不忘关上冰箱门,比一些真人室友还要靠谱。
一个递,一个放,手脚相当麻利。
脑子也很灵活,让其捡起眼前「沙漠物品」,它二话不说就能在众多物品中准确拣出仙人掌玩偶。
一些 X 网友甚至将这一成果比作「人形机器人领域的 iPhone 时刻」。
虽然这种评价有些夸大其词,但 Helix 确实解决了家用机器人领域长期以来的一个核心难题,在理想的家庭场景中,你可以简单地告诉机器人做某事,它就会去做。
但与标准化的工业环境不同,家庭场景复杂多变,衣物可能皱皱巴巴地散落在各处,餐具可能有着不同的形状和材质,甚至每天都会出现全新的物品,这对家庭机器人的适应能力提出了极高的要求。
传统的解决方案往往需要投入大量资源。一种是请博士级专家花费大量时间为每个具体任务编写专门的程序;另一种是通过数千次反复示范来训练机器人学习特定动作。
显而易见,这些方法不仅耗时费力,而且成本高昂,难以在家用机器人领域大规模普及。基于此,Figure 团队提出了一个新的解题思路。
既然 AI 在图像识别、语言理解等领域已经展现出强大的学习能力和即时泛化能力,那为什么不利用视觉语言模型(VLM)中积累的丰富语义知识来指导机器人行为,特别是这些模型通过对互联网大规模数据的学习,已经积累了大量关于物体、场景和行为的常识性知识。
点子有了,但路还没有走通。
如何从 VLM 中提取这些常识性知识,并将其转化为可泛化的机器人控制?而这正是打造 Helix 的核心目标—— 让机器人能真正理解和执行各种复杂任务,使其具备更强的适应能力。
与传统机器人系统相比,Helix 最大的优势在于无需繁琐的任务演示或复杂的编程,就能自主完成从简单的物品抓取到复杂的协作任务等多样化操作。
作为评价机器人智能水平的关键指标,机器人能否自主处理未见过的场景和物品,将决定其实用价值。
凭借强大的泛化能力,Figure 机器人能够通过自然语言指令,识别和操作数千种不同形状、大小、颜色和材质的家居用品,即使是从未见过的物品也能准确处理。
技术层面上,Helix 的运作依赖于两个紧密配合的系统。一个是负责高层语义理解的 System 2(S2,7B 参数),另一个是负责实时控制的 System 1(S1,80M 参数)。
用更通俗的话来说,S2 负责「思考」,S1 负责「行动」。 其中,S2 系统以 7-9Hz 的频率运行,持续处理机器人摄像头拍摄的画面和接收到的语言指令,将其转化为机器人可以理解的行为指令。
而 S1 系统则以 200Hz 高频率运行,基于 S2 的指令和实时环境数据,精确控制机器人的每个动作。
为了支持这种高效运算,每台配备 Helix 的 Figure 机器人都装有双低功耗嵌入式 GPU,通过高效的并行计算实现流畅的控制效果。
在实际应用场景中,Figure 02 不仅能精确控制每一个手指的动作、手臂的运动轨迹、头部的转向和身体姿态,更重要的是实现了实时整体协调效果。
执行任务时,Figure 02 机器人能像人类一样自然地移动双手,同时调整头部和身体位置,以获得最佳的操作视角和活动范围。
据 Figure 官方介绍,这种全身协调的精准控制在机器人领域是一个重大突破,因为身体各部位的移动会相互影响,形成复杂的连锁反应,传统技术往往很难解决这个问题。
Helix 的另一个重大突破则是实现了真正的多机器人协作。
在测试中,两台 Figure 机器人共享同一套模型权重,无需为每台机器人单独训练或进行多阶段训练, 仅通过简单的语言指令就能默契配合。
比如,当系统收到「把饼干袋递给右边的机器人」,接着「将饼干袋放入抽屉」这样的连续指令时,两台机器人能完美配合完成任务,即使是首次遇到的物品也能手拿把掐。
降低训练成本是推动机器人普及的关键。 通过采用端到端的训练方法,Helix 能够直接从原始像素和文本命令映射到连续动作。
据悉,Helix 仅使用了约 500 小时的高质量监督数据(仅为传统方案的 5%),却实现了更强的泛化能力。而且,Helix 还通过梯度反向传播和时间偏移机制,让训练成果能够顺利地应用到实际场景中。






请到「今天看啥」查看全文