Helix是一种通用的视觉-语言-动作(VLA)模型,它融合了感知、语言理解和学习控制能力,旨在解决机器人技术中长期存在的多个难题,如全上身控制、多机器人协作、抓取任何物品等。
Helix采用了独特的“系统1+系统2”(System 1+System 2)双模块架构,通过解耦架构和高效协同,平衡了通用性与实时性的矛盾,同时解决了传统机器人学习中的数据效率与泛化难题。
1. 系统1(S1)—实时控制的“快反应”模块:
S1是一个8000万参数的视觉运动Transformer,以200Hz的高频输出精确的连续动作控制信号。它接收S2生成的潜在语义向量,并融合实时视觉与状态数据,实现从意图到动作的毫秒级转化。
通过卷积神经网络预训练与端到端联合优化,S1能够直接输出高维动作空间的控制指令,如手指屈曲角度、躯干姿态调整等,避免了传统方法中复杂的动作离散化处理。
2. 系统2(S2)—基于VLM的场景理解与语义解析模块: S2是一个基于互联网预训练的视觉语言模型(VLM),以7-9Hz的频率运行,负责场景理解和语言理解。它将视觉和语言信息转化为语义表征,并将语义信息编码为连续的潜在向量,传递给系统1。
Helix采用了独特的“系统1+系统2”(System 1+System 2)双模块架构,通过解耦架构和高效协同,平衡了通用性与实时性的矛盾,同时解决了传统机器人学习中的数据效率与泛化难题。
1. 系统1(S1)—实时控制的“快反应”模块:
S1是一个8000万参数的视觉运动Transformer,以200Hz的高频输出精确的连续动作控制信号。它接收S2生成的潜在语义向量,并融合实时视觉与状态数据,实现从意图到动作的毫秒级转化。
通过卷积神经网络预训练与端到端联合优化,S1能够直接输出高维动作空间的控制指令,如手指屈曲角度、躯干姿态调整等,避免了传统方法中复杂的动作离散化处理。
2. 系统2(S2)—基于VLM的场景理解与语义解析模块: S2是一个基于互联网预训练的视觉语言模型(VLM),以7-9Hz的频率运行,负责场景理解和语言理解。它将视觉和语言信息转化为语义表征,并将语义信息编码为连续的潜在向量,传递给系统1。
Figure 创始人Brett Adcock本周宣布得益于Helix ,今年将会把人形机器人引入家庭进行Alpha测试,比计划提前了2年!
——
重要更新:我们正在将机器人引入家庭
我们的人工智能 Helix 的发展速度超出了我们的预期,加速了我们进入家庭的进程
因此,我们将家庭机器人的时间表提前了 2 年;今年开始 Alpha 测试
——
重要更新:我们正在将机器人引入家庭
我们的人工智能 Helix 的发展速度超出了我们的预期,加速了我们进入家庭的进程
因此,我们将家庭机器人的时间表提前了 2 年;今年开始 Alpha 测试