英伟达对机器人下手了

远川科技评论 · 公众号 · · 2025-03-20 20:30

正文

春节前夕，黄仁勋照例开启年会巡演，北京站成为各路CEO追星现场。大合照中，坐在黄仁勋左边的是宇树科技的王兴兴，第一排最右是银河通用的王鹤。

三人曾在年初的CES展上有过一次“非正式会谈”，当时黄仁勋演讲到尾声，人形机器人军团压轴登场，其中就包括宇树在春晚转手绢的H1、银河通用的Galbot G1。

英伟达年会与2025年CES展

发布会现场，14台人形机器人一字排开，有波士顿动力这种老牌选手，有宇树这样的行业新贵，还有跨界玩家小鹏，唯独缺席了一边买黄总的芯片一边悄悄搞自研的特斯拉。

在机器人军团压轴登场前，黄仁勋公布了一系列大模型组成的机器人训练平台 Cosmos 。

Cosmos的作用可以简单理解为在虚拟世界模拟真实的物理环境，瞄准的是当前人形机器人产业的真空带、也是英伟达围绕人形机器人布局的最后一环—— 仿真数据 。

三个月后的英伟达GTC，机器人再度成为压轴节目。除了Cosmos再度刷脸，英伟达还发布了一个人形机器人基础模型Isaac GR00T N1，仿真物理模型Newton，并由小机器人Blue完成收尾。

机器人Blue（右）

如果把人形机器人视为人工智能领域一条正在疯狂施工的高速公路，那么英伟达正在做的事情，就是提前把收费站先修好。

从年初的CES到前两天的GTC，英伟达真正的关键词是“物理AI”。

按照黄仁勋的说法，AI的新一波浪潮是物理AI，其关键环节是让AI理解物理定律，人形机器人则是当下最重要的载体。

传统的工业机器人大多基于特定的规划执行特定的操作，比如运输和分拣，与其说机器人，倒不如说是一种“自动化设备”。

但人形机器人在理想状态下，可以理解物理世界各种物体、语言和文字的含义，并自主规划和决策。

2023年7月，《纽约时报》探班谷歌实验室，记录了一个基于RT-2模型的机器人智能闪现的瞬间：桌子上放着恐龙、鲸鱼、狮子三个塑料玩具，工程师让机器人“捡起灭绝的动物”，机器人拿起了恐龙。

这个案例很好的说明了人形机器人最大的变革： 机器人不仅能识别三种动物，也能理解“灭绝的动物”的含义，还可以完成具体的操作。

基于RT-2模型的机器人

也就是说，两者的核心区别在“智能”。判断机器人的智能化程度，不是看它会不会前后空翻大劈叉，而是能不能像人一样思考。

和大模型训练一样，让机器人拥有思考能力的过程，同样是对数据的消耗——换句话说就是刷题。

人工智能泰斗级人物李飞飞曾对算法的训练过程有一个形象的解释：让算法不断观察包含猫和其他动物的图片，在每张图片背后写下正确答案。计算机每看一次图片，就和背面的答案核对一次。只要次数够多，算法就能学会辨别猫。

但问题是，写好答案的图片并不是现成的。

和GPT等大模型爬取互联网数据不同，机器人会和真实世界产生交互，因此需要遵循物理规则的真实数据来训练算法。但如果用真人动作捕捉来训练，不仅成本高，也容易坐实“AI奴役人类”的地狱笑话。

之中的数据空白，就成为了仿真数据的实践空间。所谓仿真数据，可以简单理解为在虚拟空间构建遵循真实世界物理规则的场景，并输出为可以被用来训练的数据。

马斯克就是仿真数据的铁杆粉丝，2021年的特斯拉AI Day，马斯克曾公开过自家数据仿真技术，当时生成并投入训练的仿真数据规模就已经达到了37.1亿张图片和4.8亿标注[2]。xAi最新发布的Grok 3，也投喂了大量仿真数据用于训练。

自动驾驶尚且可以搜集车主真实的行驶数据用于训练，机器人尚未大规模投入应用，对仿真数据的需求更为迫切。

真实数据和仿真数据就像“五年高考”和“三年模拟”，一个是真题，一个是模拟题。真题的参考价值更高，但数量有限，模拟题量大管饱，但参考价值要看它与真题的相似程度。

至此，英伟达凑齐了人形机器人开发“三大件”——超级计算机DGX（训练算力）、融合了Cosmos的仿真平台Omniverse（训练数据）、终端芯片Jetson Thor（推理算力）。

除了没下场造机器人，能干的活基本全干了。

在虚拟世界构建物理规则这件事上，英伟达的积累恐怕比大部分人想象的深厚。

一项技术的应用并不取决于技术本身，而是能否绑定一个高商业价值的场景，实现自我造血的良性循环。在机器人和自动驾驶大规模产业化之前，最匹配这项技术的英伟达的老本行：游戏。

大多数游戏都是对现实世界的模拟，但虚拟世界并不遵循现实世界的物理规则，小到游戏世界草木树叶飘动的方向、服装布料的褶皱，大到刀剑挥砍的力度和反馈效果，都会影响游戏的“沉浸感”。

一种改进思路由此产生： 为什么不用物理公式计算物体的实时运动状态、设计运动轨迹呢？