专栏名称: AI领域技术栈
人工智能领域技术:计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法
相关文章推荐
上海发布  ·  3月份沪牌拍卖结果公布 ·  16 小时前  
人人都是产品经理  ·  有哪吒员工收到口头通知:公司要破产了,周五之 ... ·  18 小时前  
上海本地宝  ·  15号以后入职,当月就不用参保了吗? ·  2 天前  
上海发展改革  ·  【新城加速度】 ... ·  2 天前  
51好读  ›  专栏  ›  AI领域技术栈

Figure亮出王牌:两台机器人“共脑”协作,开启家庭机器人新时代!

AI领域技术栈  · 公众号  ·  · 2025-02-22 09:55

正文

在这个科技日新月异的时代,每一次技术的飞跃都让人叹为观止。而今天,我们要为大家带来的,是一个足以让人瞠目结舌的科技突破——Figure公司祭出的首个人形视觉-语言-动作模型Helix!这个AI不仅让机器人学会了像人一样推理,更实现了两台机器人之间的“共脑”合作,让我们一同见证这一历史性的时刻吧!

抛弃OpenAI,Figure自研模型大放异彩

在与OpenAI分手后,Figure公司并没有停下脚步,而是选择了自力更生,自研AI模型。这一次,他们带来的不是ChatGPT这样的语言模型,而是一个端到端的通用视觉-语言-动作模型(VLA)——Helix!这个模型被直接装入了人形机器人的大脑,让机器人具备了感知、语言理解和学习控制的能力。

Figure公司的目标非常明确,那就是发展家庭机器人。为了实现这一目标,他们深知,机器人必须实现能力上的飞跃,才能真正进入家庭领域。于是,Helix应运而生,它让机器人只需一句话,就能拿起任何物品,无论是金属链、帽子还是玩具,都能精准“拿捏”。

“共脑”协作,让人惊叹不已

然而,Helix的惊艳之处远不止于此。它不仅是首个同时操控两台机器人的VLA,更是让这两台机器人能够解决共同的、长序列操作任务。在实验中,两台Figure机器人协作将物品放置在冰箱中,这一场景让无数网友直呼“不寒而栗”,同时也感叹“这非常令人印象深刻”。

想象一下,未来你的家中有了这样两台机器人,它们能够根据你的指令,默契地配合完成各种家务,是不是觉得既科幻又充满期待呢?

单一神经网络权重,无需微调

更令人惊讶的是,Helix采用了单一神经网络权重来学习所有行为,无需任何特定的微调。这意味着,无论面对什么样的新任务或新物品,Helix都能迅速适应并给出正确的反应。这种即时泛化的能力,正是人工智能领域所追求的终极目标之一。

而且,Helix还是首款完全在嵌入式低功耗GPU上运行的VLA。这意味着它在未来的商业部署和走入家庭方面,都迈出了坚实的一步。

图片

Helix:改变机器人技术的发展轨迹

在传统的机器人技术中,教会机器人一个新行为往往需要大量的人力投入。要么需要博士级专家花费数小时进行手动编程,要么需要数千次示教。然而,在Helix的加持下,这一切都变得简单起来。
Helix能够将视觉语言模型(VLM)中捕获的丰富语义知识直接转化为机器人动作,从而从根本上改变机器人技术的发展轨迹。那些曾经需要数百次示教才能掌握的新技能,现在只需通过自然语言与机器人对话就能立即获得。

这种新能力不仅提高了机器人的学习效率,更降低了人类对其的干预程度。未来,我们或许只需通过简单的语音指令,就能让机器人完成各种复杂的任务。

“系统1,系统2”架构,实现高速精确控制

Helix之所以能够实现如此强大的功能,离不开其独特的“系统1,系统2”架构。这一架构让机器人能够在最佳时间尺度上运行不同的系统,从而实现高速精确的控制。
系统2(S2)作为VLM主干网络,经过互联网规模数据的预训练,负责场景和语言理解。它能够对不同的物体和场景进行泛化,为机器人提供高层的语义信息。
而系统1(S1)则是一个80M参数的交叉注意力Transformer,它依靠一个全卷积的多尺度视觉主干网络进行视觉处理。S1负责接收S2传递的语义信息,并将其转化为具体的动作指令。由于S1的处理速度更快,因此它能够实现更快速的闭环控制。






请到「今天看啥」查看全文