由于 high-level 层面进展迅速,且随着 LLM 的 scaling law 被验证,机器人科研界开始尝试用数据解决 low-level 层面的问题,包括机器人数据、多模态数据、仿真数据,不同技术路线对各类数据的需求和配比不同。
在 2023 年上半年,学术界和产业界普遍对通用机器人的 ChatGPT 时刻抱有较大期待,2023 年 7 月 Google RT-2 发布更是引爆通用机器人浪潮。2023 年第三季度是一个有意思的时间节点,对于产业界和资本市场而言这是大浪起来的一个重要“拐点”,无论是中国还是美国该领域许多创业公司拿到大额融资,也陆陆续续有新的创业公司出现,此前对硬件不感兴趣的美国投资人也开始关注这一领域。但对于一些较早在该领域探索的公司和 researcher 而言却更像是遇到了瓶颈。
从 2023 年 Q3 开始,硅谷很多核心 researcher 和产业界最核心的公司和团队对 low-level 问题逐渐持冷静和保守态度,之前以为沿着 scaling law、利用大量的互联网数据如视频数据能很快迎来 tipping point,但从实验结果看效果并不理想,实验的可靠性和稳定性较差。有部分 researcher 表示要成功做出机器人的 foundation model 仍需要非常大量的现实世界机器人数据,而非大量互联网数据加上少量现实世界的机器人数据即可实现,目前世界上所有的机器人数据并不多,收集数据需要更长的时间和更高的成本。还有 researcher 表示机器人的 foundation model 需要新的架构,需要更底层的算法突破,在现有架构下对数据进行大量投资未必能看到技术突破。
许多顶尖研究机构和头部公司的专家均表示,从时间维度看,通用机器人可能是个短期内无法实现的事,从软件层面看,过去一年技术进步虽快,但距离一开始期望的在家庭场景或工厂场景做到完全通用这一目标仍十分遥远。我们今天看到的很多很惊艳的、能做很多事情的机器人 demo 实际上是在一个相对结构化的环境中演示,实际的操纵能力并没有达到所谓“泛化”,比如将现场灯光调暗,或将机器人需要拾起的物品换一种颜色、换一个摆放位置,机器人大概率就无法完成指定任务。
通用机器人软件层面最领先的是 Google,软硬件综合能力最强的目前看来是 Tesla,两家公司对于如何走向通用机器人路径也不太一致。
Google 信仰的路径是一个机器人 foundation model 可以适配所有形态的硬件,能够在任何场景下做到通用性、泛化性,也就是上文提到的机器人 Foundation Model 的定义。而 Tesla 则倾向于一个 foundation model 难以适配所有硬件,即使可以适配,稳定性也不会太好,不会达到可实际落地、可大规模部署的水平,因此更可行的路线是先定义好硬件和产品形态,再针对特定硬件调整算法加入 AI 能力,软硬件同步迭代。
重要问题
除了技术路线和 timing,关于通用机器人还有几个重要问题:
1. 场景
没有成熟、刚需的场景是通用机器人面临的最大问题之一。从技术角度看,训练通用机器人的基础模型需要大量数据,收集大量数据最好的方法是有大规模的机器人被部署和应用在实际场景中,而想要大规模部署机器人又需要找到一个能充分体现和发挥机器人价值的场景,这样客户才会大规模采购,大规模采购和应用才能收集大规模数据,这个飞轮才能转起来。自动驾驶也是通过这样的路径逐步实现泛化,但汽车出行本身就是一个非常成熟且刚需的场景,车也不是一个全新的东西,需求和产品形态都已经非常稳定。但今天的通用机器人没有这样自然且刚需的场景,也没有稳定的产品形态。
目前大家在尝试的场景包括:安防巡检;工厂作业;家庭清洁;酒店清洁;超市零售拣货补货;药房捡药等等。大多数公司选择先从 2B 场景切入。也有公司认为场景未必由机器人公司 figure out,当前最重要是把产品定义好,把机器人智能能力提升至一定水平,把成本降低,把机器人卖出去,也许用户就能自己找到有意义的场景。
2. 机器人数据
机器人数据不足也是通用机器人面临的一大问题。这里的机器人数据指机器人与现实世界交互的数据。除了真正将机器人部署至实际生产环境中、实际使用之外,机器人数据收集方式还包括以下几种:
•
人类 teleoperate 机器人做任务:
可以是远程也可以在现场。机器人获取 camera、马达,以及 action 三类数据。这种方法收集的数据最全,因此效果也最好,但也是最贵的。这个方向的经典案例是今年很火的开源项目 ALOHA。
•
通用操控接口(UMI):
UMI 通过手持夹具和精心设计的接口实现数据收集,通过算法反推机器人应该如何做相同的任务,不需要机器人看数据。这种方法成本更低。
•
纯视觉收集数据:
通过戴眼镜或者类似的方式收集数据,但在学术界看来,这样收集的数据有用但也有较大局限性。
3. 多模态对机器人的影响
多模态对机器人研究的影响主要体现在多模态理解上,多模态生成目前没有对机器人研究产生直接影响。而多模态理解对机器人的影响又主要体现在视频数据理解上,即机器人通过理解视频数据学习知识和动作。Google、Tesla 都在此路径上进行探索:大量的视频数据 + 少量现实世界数据去训练机器人的 foundation model。如果该路径能跑通,则多模态理解对机器人的 foundation model 有很大帮助。
投资思考
以上是从技术和产业视角进行分析,从投资视角看,我们对机器人重要细分赛道的投资机会判断如下:
1. 通用机器人:
目前通用机器人公司有三类:1)软硬件均涉及的公司,比如 Tesla、1X、Figure;2)只做 Robotics Foundation Model 或更强调软件实力的公司,例如 Physical Intelligence;3)更强调硬件实力的公司。
•
软硬一体公司:
这类公司的目标是做出具有通用能力、能完成多项任务的机器人,通常是自己开发硬件+AI,或者在现有硬件基础上加上AI。硬件以人形机器人为主,也有部分公司选择轮式或四足+双臂+灵巧手的形态。需要团队具备软硬件综合能力。商业模式是向 B 端或 C 端销售带有智能能力的完整的机器人。
从投资角度看,此类公司商业价值最高,但实现难度大,目前仍处在 research 阶段,research 中的 low-level 问题何时能解决是个未知数,即使解决,从 research 走到大规模商业化还要经过漫长的产品定义、场景定义、量产、降成本、GTM 等阶段。因此,从投资角度看,在 research 阶段进入可能带来较多不确定性和资本效率较低的问题。
对于团队而言,除了基本的产品定义能力、AI 能力、供应链能力、销售能力外,融资能力在这个漫长的周期下也显得尤为重要。
•
纯软件公司:
这类公司将大部分或全部精力放在研究机器人的 foundation model 上,商业模式是向硬件厂商或综合型厂商提供 API,或通过项目制与它们合作。团队通常来自顶级 Embodied AI 实验室,如 Google DeepMind 的机器人团队或 Stanford、Berkeley 等顶级院校。此类公司同样会面临上文提到的所有的科研问题,但他们也是最有实力解决这些问题的团队。
与 Google、Tesla、Nvidia 等大公司相比,这类创业公司的资源和 infra 可能是短板,因此也需要团队有较强的融资能力,同时注意补齐工程和 infra 能力。从投资角度看,此类公司在美国有较大投资价值,核心 thesis 是人才。
由于全球顶级 Embodied AI researchers 不多,而美国的收并购环境又较好,当越来越多大企业或传统企业关注 Embodied AI,收购的机会就越来越大,可参考自动驾驶和 LLM 的收购现象。
•
纯硬件公司:
这一领域最有竞争力的玩家多为中国公司,最 PMF 的市场是科研市场。受益于中国的供应链和制造能力,不少中国公司能够在短时间内制作出性能好同时成本低的机器人硬件,卖给全球顶尖机器人、AI 实验室。
从投资角度看,能够把硬件做到极致的公司有一定投资价值,但从 upside 看,需要开拓更多场景,找到更多商业化路径。
一方面科研市场规模有限,随着进入的玩家变多,每一个玩家能分到的市场份额变小。同时,受国际关系影响,部分高价值地区未来进入难度变大,这部分市场规模在萎缩。因此,许多原本更强调硬件实力的公司也纷纷向软硬一体、综合型公司转型。
2. 特定场景下的非通用机器人
通用是一个思路,垂直场景也是一个思路。相比于通用,垂直场景的机器人确定性更高,价值也未必更低。过去被充分验证的手术机器人、仓储机器人、扫地机器人等属于垂直场景的非通用机器人。它不要求机器人在所有场景下都有泛化能力,也不要求机器人的产品形态能够完成很多动作,而是在特定场景解决特定需求、特定问题即可。今天加了 AI、LLM、多模态等能力后,哪些原有场景价值有明显地提升,又有哪些新场景被挖掘出来,也是很值得关注的一个方向。
3. 机器人领域的 Scale AI
上文提到机器人的 foundation model 目前的主要瓶颈在于缺少机器人数据。随着机器人关注越来越高,越来越多公司参与到机器人的研发中,对机器人数据的需求在极速上升,因此机器人领域也有诞生新的 “Scale AI” 的机会。关于主流的几种数据收集方式我们在上文也已经提到。
从团队角度看,机器人领域的 Scale AI 的理想的团队画像需要具备以下能力:
•
有懂运营的人才。因为收集数据、处理数据、搭建整套数据处理体系、人才管理等都需要有成熟的 operate 能力;
•
有了解通用机器人的 researcher,了解工业界、学术界的需求,并能持续跟进需求。