专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
机器之心  ·  DeepSeek一天能赚多少钱?官方突然揭秘 ... ·  2 天前  
新智元  ·  GPT-4.5首波实测来袭,算力狂飙10倍! ... ·  3 天前  
宝玉xp  ·  GPT-4.5 写作: ... ·  3 天前  
新智元  ·  刚刚,GPT-4.5震撼上线情商逆天!Ope ... ·  3 天前  
51好读  ›  专栏  ›  黄建同学

Helix是一种通用的视觉-语言-动作(VLA)模型,它融合了感-20250302200846

黄建同学  · 微博  · AI  · 2025-03-02 20:08

正文

2025-03-02 20:08

Helix是一种通用的视觉-语言-动作(VLA)模型,它融合了感知、语言理解和学习控制能力,旨在解决机器人技术中长期存在的多个难题,如全上身控制、多机器人协作、抓取任何物品等。

Helix采用了独特的“系统1+系统2”(System 1+System 2)双模块架构,通过解耦架构和高效协同,平衡了通用性与实时性的矛盾,同时解决了传统机器人学习中的数据效率与泛化难题。

1. 系统1(S1)—实时控制的“快反应”模块:
S1是一个8000万参数的视觉运动Transformer,以200Hz的高频输出精确的连续动作控制信号。它接收S2生成的潜在语义向量,并融合实时视觉与状态数据,实现从意图到动作的毫秒级转化。

通过卷积神经网络预训练与端到端联合优化,S1能够直接输出高维动作空间的控制指令,如手指屈曲角度、躯干姿态调整等,避免了传统方法中复杂的动作离散化处理。

2. 系统2(S2)—基于VLM的场景理解与语义解析模块: S2是一个基于互联网预训练的视觉语言模型(VLM),以7-9Hz的频率运行,负责场景理解和语言理解。它将视觉和语言信息转化为语义表征,并将语义信息编码为连续的潜在向量,传递给系统1。
Figure 创始人Brett Adcock本周宣布得益于Helix ,今年将会把人形机器人引入家庭进行Alpha测试,比计划提前了2年!

——
重要更新:我们正在将机器人引入家庭

我们的人工智能 Helix 的发展速度超出了我们的预期,加速了我们进入家庭的进程

因此,我们将家庭机器人的时间表提前了 2 年;今年开始 Alpha 测试






请到「今天看啥」查看全文