在这个科技日新月异的时代,每一次技术的飞跃都让人叹为观止。而今天,我们要为大家带来的,是一个足以让人瞠目结舌的科技突破——Figure公司祭出的首个人形视觉-语言-动作模型Helix!这个AI不仅让机器人学会了像人一样推理,更实现了两台机器人之间的“共脑”合作,让我们一同见证这一历史性的时刻吧!
在与OpenAI分手后,Figure公司并没有停下脚步,而是选择了自力更生,自研AI模型。这一次,他们带来的不是ChatGPT这样的语言模型,而是一个端到端的通用视觉-语言-动作模型(VLA)——Helix!这个模型被直接装入了人形机器人的大脑,让机器人具备了感知、语言理解和学习控制的能力。
Figure公司的目标非常明确,那就是发展家庭机器人。为了实现这一目标,他们深知,机器人必须实现能力上的飞跃,才能真正进入家庭领域。于是,Helix应运而生,它让机器人只需一句话,就能拿起任何物品,无论是金属链、帽子还是玩具,都能精准“拿捏”。
然而,Helix的惊艳之处远不止于此。它不仅是首个同时操控两台机器人的VLA,更是让这两台机器人能够解决共同的、长序列操作任务。在实验中,两台Figure机器人协作将物品放置在冰箱中,这一场景让无数网友直呼“不寒而栗”,同时也感叹“这非常令人印象深刻”。
想象一下,未来你的家中有了这样两台机器人,它们能够根据你的指令,默契地配合完成各种家务,是不是觉得既科幻又充满期待呢?
更令人惊讶的是,Helix采用了单一神经网络权重来学习所有行为,无需任何特定的微调。这意味着,无论面对什么样的新任务或新物品,Helix都能迅速适应并给出正确的反应。这种即时泛化的能力,正是人工智能领域所追求的终极目标之一。
而且,Helix还是首款完全在嵌入式低功耗GPU上运行的VLA。这意味着它在未来的商业部署和走入家庭方面,都迈出了坚实的一步。
在传统的机器人技术中,教会机器人一个新行为往往需要大量的人力投入。要么需要博士级专家花费数小时进行手动编程,要么需要数千次示教。然而,在Helix的加持下,这一切都变得简单起来。
Helix能够将视觉语言模型(VLM)中捕获的丰富语义知识直接转化为机器人动作,从而从根本上改变机器人技术的发展轨迹。那些曾经需要数百次示教才能掌握的新技能,现在只需通过自然语言与机器人对话就能立即获得。
这种新能力不仅提高了机器人的学习效率,更降低了人类对其的干预程度。未来,我们或许只需通过简单的语音指令,就能让机器人完成各种复杂的任务。
Helix之所以能够实现如此强大的功能,离不开其独特的“系统1,系统2”架构。这一架构让机器人能够在最佳时间尺度上运行不同的系统,从而实现高速精确的控制。
系统2(S2)作为VLM主干网络,经过互联网规模数据的预训练,负责场景和语言理解。它能够对不同的物体和场景进行泛化,为机器人提供高层的语义信息。
而系统1(S1)则是一个80M参数的交叉注意力Transformer,它依靠一个全卷积的多尺度视觉主干网络进行视觉处理。S1负责接收S2传递的语义信息,并将其转化为具体的动作指令。由于S1的处理速度更快,因此它能够实现更快速的闭环控制。