专栏名称: 第一财经YiMagazine
这里是《第一财经周刊》读者俱乐部,我们为你发掘精彩的商业价值,也邀请你一起探寻明亮的商业世界。
目录
相关文章推荐
21世纪经济报道  ·  #糯玉米和甜玉米谁是升糖刺客#【小调查】糯玉 ... ·  昨天  
21世纪经济报道  ·  多家银行宣布:批量下调! ·  2 天前  
21世纪经济报道  ·  #长安汽车回应阿维塔科技将赴港上市传闻#【传 ... ·  2 天前  
神嘛事儿  ·  回复@2025成功幸福-喜乐康宁:不行我结巴 ... ·  3 天前  
启四说  ·  国债为什么跌,后面能不能涨回去? ·  3 天前  
启四说  ·  国债为什么跌,后面能不能涨回去? ·  3 天前  
51好读  ›  专栏  ›  第一财经YiMagazine

智元发布机器人新品,一个致敬DeepSeek,一个致敬乔布斯

第一财经YiMagazine  · 公众号  · 财经  · 2025-03-14 08:26

正文

记者: 吴洋洋

编辑:王杰夫

Key Points


智元的新GO-1模型,既有端到端数据驱动的优点,同时增强了中间决策的可解释性;


GO-1模型中引入的「隐式规划专家」能做长跨度的宏观行为规划,每个行为都对应数十个微观动作;


GO-1模型的强化学习版本将在未来几个月推出;


灵犀系列机器人是智元的one more thing,它已经越来越追求给用户提供情绪价值了;


不投AI的机器人公司没有未来,没有硬件规模也无法验证算法。


时隔半年,智元机器人从内到外地更新了它的机器人产品。在3月10日和3月11日两天,智元接连发布了 首个「机器人通用基座大模型」——智元启元大模型(Genie Operator-1,简称GO-1) ,以及 第二代的灵犀机器人X2

两项发布中,前者相当于给机器人装了一个更聪明的大脑。按照OpenAI为机器人智能演化提出的 G1至G5发展框架 ,「过去业界的机器人大脑更多处于G2到G3阶段,即从基于规则的控制到扩散模型,GO-1则处于G3到G4的过渡阶段,通用能力更强。」智元合伙人、具身业务部总裁、研究院执行院长姚卯青对第一财经「新皮层」说。

GO-1模型已加载在3月11日发布的灵犀X2机器人上,主导「操作智能」。

灵犀机器人的更新,更多在于运动控制能力——小脑的提升。 2024年8月,智元创始人彭稚辉(稚晖君)首次发布该系列机器人时,是在整场发布会的最后作为one more thing发布的。 在此之前,智元的核心产品是体型更大(1.7米左右)的远征系列机器人,主要工作场景是工厂;灵犀机器人则小巧得多,只有1.3米左右,体重不到34公斤,面向C端用户。2024年首次推出时,灵犀X1连走路都跌跌撞撞,而3月11日发布的灵犀X2灵巧得多,不仅能像人一样「可爱地」走路、跑、转圈,还能跳舞,甚至玩平衡车、骑自行车以及跟另一台灵犀X2相互协作。发布视频中,彭稚辉称灵犀X2内置了模块化的小脑控制器Xyber-Edge,这是灵犀X1没有的。

新款灵犀X2机器人在「运动智能」上有进一步提升,可以骑自行车了。

智元发布以上两项更新前, 宇树科技 的人形机器人刚刚在春晚舞台以及宇树的社交账号上大秀舞蹈能力,展现运动控制上的性能。而硅谷人形机器人初创公司Figure AI也于2月20日发布其自研的机器人模型Helix,其创始人称,Figure已实现「完全端到端、完全自主」的机器人AI突破。取得这项突破后,Figure随即宣布终止与OpenAI的合作。此前,两家公司曾合作为Figure的机器人定制AI模型。

去年机器人大会在北京举办期间,「新皮层」获得的不少声音还认为,由于家庭场景的复杂性,人形机器人在很长时间内只能在工业场景下使用,后者对动作的要求更单一。 然而从Figure到智元的产品更新反映出,人形机器人进入家庭场景的速度可能更快——这一切都是AI带来的。

姚卯青在智元发布GO-1后的媒体采访中称,机器人走入家庭可能只需要5年。并且,他声称,只投入机器人本体(即硬件)的开发没有未来,因为只开发本体,不投入AI,机器人就只能做有限任务,只是个昂贵的大号玩具。他告诉媒体,智元在AI方面是P0级的投入。


GO-1:MoE架构,能从互联网视频中学习人类动作

早在2023年首次召开发布会,介绍智元的机器人产品远征A1及其控制系统时,彭稚辉就表示,「机器人的任务编排不只需要ChatGPT,还需要WorkGPT」。不过提出「WorkGPT」这一概念后,智元就没有再详细解释过它是如何构建这一「动作大模型」的。

GO-1是智元首次正式发布的机器人基座大模型。智元具身研究中心常务主任任广辉在介绍该模型时称,机器人领域的基座模型已经过了至少两代变革:第一代机器人模型是基于规则的控制算法,第二代机器人模型普遍采用VLA(Vision-Language-Action,视觉-语言-动作)架构。

VLA架构是Google DeepMind于2023年7月发布RT-2机器人模型时提出的新架构 ,它在VLM视觉语言模型的基础上增加了Action的环节,旨在实现从视觉输入(Vision)、语言推理(Language)到动作输出(Action)的完整闭环。作为端到端大模型架构,VLA可以简化通常需要多个独立模块才能完成的任务流程,在推出后逐渐受到很多智驾公司的认同,元戎启行、理想汽车、Waymo都已经开始尝试这种技术路线。

然而VLA虽然很有潜力,问题也很明显,想要训练一个这样的端到端大模型,往往需要大量的高质量训练样本。对于已经有大量汽车上路,并且汽车还在源源不断提供驾驶数据的车企来说,这个问题还有办法解决,但对于智元这样还处于早期培育市场阶段的机器人公司来说,获取数据依然是个难题。

VLA架构模型的数据采集成本一直居高不下,除了商用的机器人少,原因还在于不同形态的机器人采集的数据难以跨本体(即机器人)地使用——机器人的身高、体型不同,数据就难以通用。 而且,利用互联网上的人类视频数据训练的结果也难以直接应用到规格不同的机器人上。

为了降低数据采集成本,智元曾在2024年建立了一个4000平方米的数据采集工厂,还在2024年12月开源了首个面向机器人的数据集AgiBot World,目的之一就是统一机器人的数据规格,甚至统一机器人的硬件规格。此外,VLA架构的泛化性也并不理想,机器人在一个场景学会的东西到了新场景时操作成功率就会大幅下降。如果要将学习能力扩展到新任务,需要重新采集大量新数据,落地成本也会因此上涨。

于是在GO-1上,智元不再采用VLA架构,而是提出了ViLLA(Vision-Language-Latent-Action,视觉-语言-隐式-动作)这个全新架构。 ViLLA是由VLM+混合专家(MoE)组成,MoE中又有两组专家,一组叫「隐式规划专家」(Latent Planner),另一组叫「动作专家」(Action Expert)。ViLLA虽然不是传统的端到端模型,但它通过共享主干网络和联合训练,继承了端到端的数据驱动和联合优化理念。

ViLLA架构可以拆分成视觉模型、规划专家与动作专家。

「隐式规划专家」是ViLLA架构中最关键的部分,它在训练时关注建模视觉信号当前帧和历史帧之间的隐式(latent)变化,然后在做动作规划时预测出相应的隐式动作。「隐式规划专家」的加入使得GO-1能够将连续视觉变化离散化为「抓取-移动-放置」等更宏观的动作标记。 比如在「补充饮料」任务中,隐式专家会生成「定位货架、识别空位、计算抓取路径」等宏观规划链(Chain of Planning,CoP),每个指令可对应数十个底层的微观动作。

智元称,通过引入「隐式规划专家」,模型就能更好利用跨机器人本体的数据,以及来自互联网的人类视频数据,并且,从这种混合数据中学习的能力能更好被泛化。智元提供的数据称,ViLLA架构能将任务操作的「平均成功率提升12%」。而且训练成本更低,任广辉提供的数据称,比如擦拭污渍,只需要150条数据就可以训练机器人学会,这种数据量一个采集员采集一天就能完成;倒水需要的数据在1000条左右;如果用没有隐式专家的旧VLA架构学习,单数据采集的成本就需要增加1至2个数量级。







请到「今天看啥」查看全文