Helix是一种通用的视觉-语言-动作（VLA）模型，它融合了感-20250302200846_黄建同学的专栏文章_微信文章

Helix是一种通用的视觉-语言-动作（VLA）模型，它融合了感-20250302200846

黄建同学 · 微博 · AI · 2025-03-02 20:08

正文

2025-03-02 20:08
本条微博链接

Helix是一种通用的视觉-语言-动作（VLA）模型，它融合了感知、语言理解和学习控制能力，旨在解决机器人技术中长期存在的多个难题，如全上身控制、多机器人协作、抓取任何物品等。

Helix采用了独特的“系统1+系统2”（System 1+System 2）双模块架构，通过解耦架构和高效协同，平衡了通用性与实时性的矛盾，同时解决了传统机器人学习中的数据效率与泛化难题。

1. 系统1（S1）—实时控制的“快反应”模块：
S1是一个8000万参数的视觉运动Transformer，以200Hz的高频输出精确的连续动作控制信号。它接收S2生成的潜在语义向量，并融合实时视觉与状态数据，实现从意图到动作的毫秒级转化。

通过卷积神经网络预训练与端到端联合优化，S1能够直接输出高维动作空间的控制指令，如手指屈曲角度、躯干姿态调整等，避免了传统方法中复杂的动作离散化处理。

2. 系统2（S2）—基于VLM的场景理解与语义解析模块： S2是一个基于互联网预训练的视觉语言模型（VLM），以7-9Hz的频率运行，负责场景理解和语言理解。它将视觉和语言信息转化为语义表征，并将语义信息编码为连续的潜在向量，传递给系统1。

Figure 创始人Brett Adcock本周宣布得益于Helix ，今年将会把人形机器人引入家庭进行Alpha测试，比计划提前了2年！

——
重要更新：我们正在将机器人引入家庭

我们的人工智能 Helix 的发展速度超出了我们的预期，加速了我们进入家庭的进程

因此，我们将家庭机器人的时间表提前了 2 年；今年开始 Alpha 测试

Helix是一种通用的视觉-语言-动作（VLA）模型，它融合了感-20250302200846

正文

请到「今天看啥」查看全文