中国
联想集团副总裁,联想创投集团合伙人王光熙。受访者供图
作者丨安然
编辑丨
王伟凯
“AI的下一波浪潮是物理AI,机器人将日益融入我们的日常生活,一切都将机器人化。”6月2日晚间,英伟达CEO黄仁勋在一次演讲中提到。
这一言论再次引发外界对人形机器人的关注。事实上,人形机器人并非新鲜事,早在1972年,日本早稻田大学就研发了世界上首款全尺寸人形机器人 WABOT-1。不过,与此前人形机器人不同的是,这一波人形机器人的重点是生成式AI。
大语言模型和深度学习等技术的提升,为人形机器人的发展提供了新的方法和方向。
“ChatGPT点燃大语言模型浪潮后,行业就意识到人形机器人蕴藏巨大潜力。生成式AI可以让机器进一步理解图片、视频甚至空间。理论上,行业已经看到了大语言模型赋能机器人的工程化路径。”联想集团副总裁,联想创投集团合伙人王光熙对《AI光年》表示。
在上述演讲中,黄仁勋断言“机器人时代已经到来”,并提出了一个畅想——有朝一日,移动的物体都将实现自主运行。
问题是,如何理解自主运行?在王光熙看来,人形机器人自主运行的基础是智能泛化和场景泛化,即机器人不需要根据预制的路径去完成指令。
“之前的工业机器人和服务机器人,本质上是在可控环境内自主移动,人形机器人则要在可控环境之外,实现机器人智能泛化的能力和价值。高度智能化迟早发生在物理世界,这是我们的底层信仰。”王光熙说。
以下是《AI光年》对王光熙的专访,他系统地阐述了人形机器人火热的起点、投融资节奏、行业竞争、未来方向等问题(在不改变受访者原意的情况下有删节)。
“老兵”们很难做好人形机器人
《AI光年》:与工业机器人及服务机器人相比,此次人形机器人热潮的投融资是否相同?
王光熙:
行业也将人形机器人称为“具身智能”,或有AI能力的复杂形态机器人。本质上,这一波机器人浪潮受AI和智能主导。从投资人和创业者角度看,这次有大量和智能、视觉、软件的跨界人才参与到这一波浪潮里,整体和前十年的投资风格、节奏、打法都不同。
《AI光年》:不同点在哪几方面?
王光熙:
机械化、自动化不是新概念,从蒸汽机的发明到现在,已经有100年的历史了,是个相对成熟的赛道。这波的重点是生成式AI。神经网络研究和应用、深度学习等也有十几年的历史,现在大模型的智能涌现能力让行业看到模型商业落地的希望,智能泛化的能力也许能解锁更多新应用场景。而人形机器人则为生成式AI勾勒出可商业化落地的应用前景,所以整个赛道的想象空间比较大。
《AI光年》:你们投资的星动纪元、逐际动力,他们的创始人都有机器人学术背景,且公司本身都比较年轻化,考量的因素是什么?
王光熙:
第一,这和技术底层相关,背后有新技术变量。要把过去存在了一百年的机械化、自动化,用软件和AI变成一个更智能泛化且能替代人类劳动的机器人,这件事情本身就有不少技术难关,这对年轻学者来说是机会。
第二,“具身智能”涉及的技术元素和领域比较综合。过去机器人创业者可能是做控制、自动化或机械出身的。但现在做具身智能,需要有软件、视觉、AI,硬件、产品相关背景的人才以及懂行业和应用的跨界人才。传统机器人赛道的“老兵”想把具身智能做好,会很难。
第三、在具身智能这个赛道,全球的学术界和企业处于同一个起跑线,这是一个无人区,大家都不知道后面应该怎么做,处在摸着石头过河的状态,从这点上来讲,年轻人更有优势。
智能涌现不能靠堆算力完成
《AI光年》:这波人形机器人大火的触发点是什么?
王光熙:
我认为真正触发人形机器人爆发的是大语言大模型的出现。
早在2000年,本田曾发布全球最早具备人类双足行走能力的类人型机器人,但没有火起来,核心原因是彼时行业认为机器人和人的智能交互是完全不存在的。
大约十年之后,行业才把神经网络这件事情通过算力应用在视觉上;近几年,行业才开始说transformer和Scaling Laws(规模定律),才有现在的大语言理解、多模态能力。在这个基础上才有做具身智能的能力。
在ChatGPT点燃大语言模型浪潮后,行业就意识到人形机器人蕴藏巨大潜力。生成式AI可以让机器进一步理解图片、视频甚至是空间。理论上,行业已经看到了LLM(大语言模型)赋能机器人的工程化路径。
《AI光年》:人形机器人工程化路径的基础还是算力,但高端GPU其实还是被英伟达等国外厂商掌控,国内做人形机器人是不是要解决芯片等难题?
王光熙:
具身机器人的智能泛化还处于早期和快速迭代状态,远没到应用落地和优化的阶段。
行业前期热衷于算力军备赛、堆算力,把千亿模型、万亿模型参数往上堆。一是因为芯片制程所限,二是地缘政治让全球竞争割裂。大家认为,现在工程上的突破主要来自于Scaling Laws及基于某种算法搭建的计算网络,都希望在Scaling的过程中,能产生智能涌现。
本质上,智能涌现不能靠粗放的堆砌算力模式完成,所以一些互联网大厂开始做模型优化。智能涌现达到一定程度,行业会从模型裁剪、算法优化、数据收敛等方面考虑商业化落地。
未来,行业用万卡集群堆砌出来的AI的能力,会被降维到可用、可操作、可落地的成本规划和模型上。down scaling(模型轻量化)会比大家想象的快。
还未进入大厂射程范围
《AI光年》:从算力优势看,有万卡集群的多是互联网大厂,但为什么在人形机器人领域,最先跑出来的是创业公司?
王光熙:
互联网大厂一般是谋定而后发,常见的路径是,学术界、创业公司先去折腾,大厂觉得靠谱再跳进来。新能源汽车就是最典型例子,大厂什么时候入局都不觉得晚,这也是一种策略。
从竞争的策略看,互联网大厂的优势主要来自于AI,有云计算和软件能力,但在硬件、场景方面和制造业有差距。此外,互联网大厂在消费级、商用服务场景会有优势,但大家普遍认为人形机器人的场景实现难度更大,周期更长。
从行业规律看,具身智能的技术路线还不清晰,处于非共识阶段,所以互联网大厂下场做具身智能的少。因为大语言模型本身还处在焦灼的竞争状态,多模态竞争才开始,空间计算还处于探索阶段,具身智能尚未进入大厂射程范围内。
《AI光年》:在这波人形机器人浪潮中,小鹏、小米为何都在推自己的人形机器人?
王光熙:
过去车企是机械化、自动化领域最大的用户。车企有广泛的应用场景,又擅长做大规模机械装置,无论是生产,还是把工业化场景开放出来,在做机器人方面都有得天独厚的优势。
《AI光年》:现在还没有行业壁垒一说?
王光熙:
只能说,行业对人形机器人的数据壁垒、商业落地壁垒还处于非共识状态,在机器人的动作控制、感知端实现方式等方面也都没有共识。
上个月,我去日本横滨参加了ICRA(电气工程、控制和机器人技术国际会议)。大会有几十个分论坛,分别讲运动规划、肢体协调等主题,探讨谁能以低成本、高可靠性来解决每一部分的技术细节问题,这些主题在学术界也没有形成共识。
翻跟头和在陌生场景翻跟头,完全两回事
《AI光年》:如何定义你一直强调的智能泛化和场景泛化能力?
王光熙:
所谓泛化,就是这个产品能够快速进入到一个场景里,开箱即用。如果机器人能做到,就能替代很多人工环节。
比如,以ICT行业为例,在传统的生产装配线上自动化比较低,约70%需要人工干预,但主板、SMT(表面贴装技术)等自动化程度高,约占80%,这是因为整个芯片行业流程相对标准化、机械化、自动化,且在封闭的环境中实现。
而装配线是开放环境,每天装配的屏幕及显示器大小不同,所以需要人工检查。如果有一个高度智能泛化的人形机器人在那里,这些问题就可以解决了。
《AI光年》:要让机器人具备智能泛化能力,现在有哪些实现条件?还存在哪些困难?
王光熙:
现在大模型发展很快,给模型看一张图或者一段视频,他们能准确理解,并分拆成不同的步骤和任务。从这个角度看,智能泛化已经解决了一部分难题。挑战在于怎么在空间里感知信息和做运动,并通过一个模型把其链接和驱动起来。
具身智能是通过图片、视频等理解和分解任务,然后识别物理周边的环境,例如识别台阶、抽屉等物理环境,只有这些问题得到解决,行业才认可具身智能这件事。
《AI光年》:人形机器人跑步、上台阶这些事情,机器狗也能做到,区别在哪?
王光熙:
关键点在于能否动态地、泛化地去完成任务。比如,让机器狗翻一个跟斗和把它放在一个开放和陌生的场景去翻跟斗,完全是两码事儿。前者是机械和控制问题,波士顿动力早就解决了;后者需要自己设计路径、适应了路上发生的各种突发情况,最后完成翻跟头这个动作,这个才是最大的难度。
《AI光年》:这是它自己的学习能力?
王光熙:
是泛化能力。预制的路径能很好完成,但遇到突发情况就歇菜了,这就没有泛化能力。为什么现在生产环节上机器替代不了人,是因为人有泛化能力,而机器只能根据既定的训练完成指令。
《AI光年》:按照让人形机器人有智能泛化能力这个标准,现在没有任何一家机器人公司有突破?