专栏名称: AI领域技术栈

人工智能领域技术：计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法

Figure亮出王牌：两台机器人“共脑”协作，开启家庭机器人新时代！

AI领域技术栈 · 公众号 · · 2025-02-22 09:55

正文

阅读原文小猫动图

在这个科技日新月异的时代，每一次技术的飞跃都让人叹为观止。而今天，我们要为大家带来的，是一个足以让人瞠目结舌的科技突破——Figure公司祭出的首个人形视觉-语言-动作模型Helix！这个AI不仅让机器人学会了像人一样推理，更实现了两台机器人之间的“共脑”合作，让我们一同见证这一历史性的时刻吧！

抛弃OpenAI，Figure自研模型大放异彩

在与OpenAI分手后，Figure公司并没有停下脚步，而是选择了自力更生，自研AI模型。这一次，他们带来的不是ChatGPT这样的语言模型，而是一个端到端的通用视觉-语言-动作模型（VLA）——Helix！这个模型被直接装入了人形机器人的大脑，让机器人具备了感知、语言理解和学习控制的能力。

Figure公司的目标非常明确，那就是发展家庭机器人。为了实现这一目标，他们深知，机器人必须实现能力上的飞跃，才能真正进入家庭领域。于是，Helix应运而生，它让机器人只需一句话，就能拿起任何物品，无论是金属链、帽子还是玩具，都能精准“拿捏”。

“共脑”协作，让人惊叹不已

然而，Helix的惊艳之处远不止于此。它不仅是首个同时操控两台机器人的VLA，更是让这两台机器人能够解决共同的、长序列操作任务。在实验中，两台Figure机器人协作将物品放置在冰箱中，这一场景让无数网友直呼“不寒而栗”，同时也感叹“这非常令人印象深刻”。

想象一下，未来你的家中有了这样两台机器人，它们能够根据你的指令，默契地配合完成各种家务，是不是觉得既科幻又充满期待呢？

单一神经网络权重，无需微调

更令人惊讶的是，Helix采用了单一神经网络权重来学习所有行为，无需任何特定的微调。这意味着，无论面对什么样的新任务或新物品，Helix都能迅速适应并给出正确的反应。这种即时泛化的能力，正是人工智能领域所追求的终极目标之一。

而且，Helix还是首款完全在嵌入式低功耗GPU上运行的VLA。这意味着它在未来的商业部署和走入家庭方面，都迈出了坚实的一步。

Helix：改变机器人技术的发展轨迹

在传统的机器人技术中，教会机器人一个新行为往往需要大量的人力投入。要么需要博士级专家花费数小时进行手动编程，要么需要数千次示教。然而，在Helix的加持下，这一切都变得简单起来。

Helix能够将视觉语言模型（VLM）中捕获的丰富语义知识直接转化为机器人动作，从而从根本上改变机器人技术的发展轨迹。那些曾经需要数百次示教才能掌握的新技能，现在只需通过自然语言与机器人对话就能立即获得。

这种新能力不仅提高了机器人的学习效率，更降低了人类对其的干预程度。未来，我们或许只需通过简单的语音指令，就能让机器人完成各种复杂的任务。

“系统1，系统2”架构，实现高速精确控制

Helix之所以能够实现如此强大的功能，离不开其独特的“系统1，系统2”架构。这一架构让机器人能够在最佳时间尺度上运行不同的系统，从而实现高速精确的控制。

系统2（S2）作为VLM主干网络，经过互联网规模数据的预训练，负责场景和语言理解。它能够对不同的物体和场景进行泛化，为机器人提供高层的语义信息。

而系统1（S1）则是一个80M参数的交叉注意力Transformer，它依靠一个全卷积的多尺度视觉主干网络进行视觉处理。S1负责接收S2传递的语义信息，并将其转化为具体的动作指令。由于S1的处理速度更快，因此它能够实现更快速的闭环控制。