专栏名称: 36氪Pro

「36氪Pro」是36氪推出的全新品牌，旨在为优秀的创新者，提供优质内容及深度服务。

大脑发达，小脑缺失？「人形机器人」还有多久才能带回家？

36氪Pro · 公众号 · · 2024-11-15 18:13

正文

这些看着就猎奇的科幻电影画面，真的会很快发生吗？

文｜ 张钰铮

编辑｜方婷

来源｜ 氪星研究所

封面来源｜ Pexels

做家务（Figure 01）、后空翻（宇树）、现场热舞（Optimus）……为什么今年机器人的视频会病毒式地传播？

用我们人类的标准看，这些事可以说平平无奇，但一放到机器人身上，就会引发“地球迟早被这些机器人占领”的暴论。

这两年炒得热火朝天的具身智能（Embodied intelligence），和机器人（Robot）到底有什么区别？ 这些看着就猎奇的科幻电影画面，真的会很快发生吗？

今天，我们来聊一聊， 什么是具身智能。

请观看36氪原创视频

👇🏻也欢迎关注36氪视频号👇🏻

这一波AI浪潮怎么作用在机器人身上？

首先，具身智能这个概念不是个新词儿，1950年图灵的经典论文里就有涉及。

图：图灵论文

早在70年前，具身智能就被看做是通往AGI（通用人工智能）的路径之一。只是碍于那个时候各项技术尚不成熟，一直起起伏伏。很显然，当下这波具身智能的热潮，得益于第三次AI浪潮的驱动。

这波具身智能和以往大家聊的机器人的根本区别，就在于智能化程度。

比如这两年被马斯克大吹特吹的机器人进厂打工，早在几十年前就实现了。原理就是通过给机器人设定一个程序，让它们在已知环境里，完成规定动作。

不光智能水平不高，而且还是被动智能。它无论如何也不可能知道，什么叫该出手时就出手。

然而到了神经网络时代，真正的具身智能得主动，就像电影里一样，通过感知获取关于世界的信息，接着把感知到的信息，转换成机器可以处理的形式。

比如把图像转换成像素值，把文本转换成词向量，在这个基础上机器自己做出决定，和世界完成交互。

今年年初，Figure AI发布了01的演示Demo，观看量200万，是Figure所有演示视频中播放量最高的。

实际上，01去年就发布了，那个时候Ta看上去就是流水线上的螺丝钉，缺点儿心眼。但这一次，Ta不但听得懂人话，有自己的规划，还完成了动作，向通用的交互场景前进了一大步。

同时也意味着，机器人的市场定位，很可能会从工业场景，转向我们日常的生活场景，这才是具身智能市场火热的关键要素。

这一点，业内人士显然更早意识到。

杭州云深处科技有限公司CTO李超说过： “就像我们现在这个机器人，它有专业人才能去用，我最好希望老年人也能用，那最简单的就是我告诉它去干什么事，它就用 AI 都解决掉了。”

根据官方的图，我们可以看到，01的构造是大脑+小脑+身体。

ChatGPT充当了机器人的大脑，给了它灵魂，让机器人读懂语言指令含义，同时根据视觉画面进行推理，确认任务对象是谁，接下来该怎么做。接着开始调用小脑函数。

Figure AI提供的就是小脑+身体部分，根据大脑的指示开始运行算法，规划操作步骤，最后由身体控制执行具体的动作。

听起来，这个过程是不是相当简单，有一种apple pen的拼凑感，当时就有媒体说，GPT加持了13天就这个程度了， 通用机器人的落地好像指日可待。

接下来，我们只要坐等大模型发展成熟，然后直接上接口，具身智能还不往前大跃进式发展？

但是真就这么简单吗？

大脑和身体我们都好理解，机器人的小脑，又是怎么运作的？

诺贝尔经济学奖获得者丹尼尔·卡尼曼曾经写过一本著名的畅销书，名叫《思考，快与慢》，他认为人类的大脑分两个系统：系统1偏直觉，能快速解决问题；系统2偏理性，可以进行深度思考。

但在生活中，我们95%的时间用的都是系统1，只有极少数复杂任务才要调用系统2。就像只要我们学会了走路，之后凭直觉就能迈出步伐，并不用每次都去控制肌肉的用力方向。

而这个系统1，就是小脑。放在机器人身上，小脑，就是连接虚拟和真实物理世界的一个层级。

它会存放各种让器人能动起来的子任务，把大脑看到，决定要做的事儿，交给本体去执行。

在真实的人类世界里，这种子任务不计其数， 但对机器人来说，每一样都是关关难过关关过。

比如早期的机器人，知道怎么把瓶子放一张桌子的左上角，但要让它把瓶子放在右下角，又是另一个不同的任务，需要重新理解一遍。如果针对任何一个细小的子任务都设置一个模型，那么机器人需要处理的参数体积，就会异常庞大。

而小脑的用处就是尽可能简化模型，然后再调用，以此提升工作效率。

在这一波基于深度学习的AI浪潮来临后，基于学习的控制，也成为小脑训练中被热议的话题。

比如写毛笔字的机器人，它的顿笔、力道都师从大家，不需要十年苦练，一出手就是大师手笔，稳准狠。只要观察和学习专家或者样本数据，通过映射就能实现技能学习，这是基于模仿的学习，简单直接。

但问题是模仿学习知其然，不知其所以然，Ta不会写其他字，更别说应对生活场景中更复杂的任务，这就是AI领域常说的：泛化能力差。

另一种是强化学习 ，相当于把不会游泳的人直接扔进水里，自己去学。

杭州云深处科技有限公司 CTO李超说过： “强化学习，粗浅来说就是大力出奇迹。早期的基于规则，我们去写（机器)狗也是这样，如果坠入到楼梯之后怎么处理？遇到斜坡怎么处理？

现在神经网络强化学习之后，泛化能力就好了，没有这么多的规则了。如果说它摔倒了，我就惩罚它一下，走得好了，我就奖励它一下，它慢慢就收敛到比较好的一个行走方式。”

感觉上和大模型的训练方式如出一辙，问题是强化学习的缺点也显而易见，奖励函数的设置还需要伴随任务升级不断迭代，难度一路水涨船高。

实际上，目前应用最广泛的还不是模仿学习或者强化学习，而是从二三十年前就开始使用的基于模型的控制（model base control），这种传统基于物理和数学模型训练出来的机器人，不光执行速度快，稳定性也高。

所以现在主流的做法 不是一股脑儿都转向学习控制，而是二者合力。

本末科技机器人技术总监廖铉泓说过：“机器人，他们底层一定都会有一个基于模型的传统控制器在里面，那个才是他们的根基。我们都会尝试怎么样去把这种基于模型的控制和强化学习、模仿学习结合起来用。他们各自肯定都有各自的优劣，但如何把这些方法融合起来才是未来的一个趋势。”

不过，这条路上也有另辟蹊径，走得特别猛的。

AI教母李飞飞，作为ImageNet的主导者，她在ChatGPT横空出世后，直接潇洒转身，继续寻找可以穷尽一生追求的北极星问题。

空间智能，这是AI领域下一个前沿且难以攻克的挑战。李飞飞直接开了家公司，名叫“World Labs”，想开发一种“世界模型”。

在这个世界模型里，具身智能不仅要能看到，还要预测事物未来发展、理解因果关系，推理和学习新技能。换句话说，就是在李飞飞的理想状态下，不需要教机器人具体的技能，它遇到难题了，自己就会尝试解决。

原理很简单，李飞飞依然延续了图像识别时代，做数据集的思路，构建了一个3D模拟世界，帮助模型采集数据和理解世界。

当年ImageNet真正发挥奇效，也用了十多年时间，所以高质量3D数据集的构建，目前来看仍然任重道远。

她的团队也在同步尝试零样本的可能性，比如去年发布的VoxPoser演示。

机器人在接收口头指令后，语言大模型和视觉大模型一起工作，生成了3D指示地图，地图中既包含了在哪里行动，也包含了如何行动，只要把3D地图作为目标函数，用动作规划器合成操作轨迹，VoxPoser就能在完全陌生的环境里完成任务。这个零样本路径，目前来看倒是未来可期。

从神经网络架构、学习法则到环境样本，深度学习浪潮下的具身智能还在克服重重难关，智能的问题尚待解决，那身体的部分足够成熟了吗？

具身智能硬件进度拉齐了吗？

在这一波具身智能热潮中，关于硬件部分，讨论热度最高的就是人形机器人。

说着挺容易，但针对自由度越来越高的人形机器人，软硬件的挑战同样不小。

先来说自由度，这是个关键指标：工业机械臂一般是4-6个自由度，而特斯拉的Optimus一代有40个自由度。

所谓自由度，就是机器人可以活动的轴数。以灵巧手为例，Optimus一只手有6个主动自由度，分别是5个手指的弯曲+大拇指的平移，自由度越高，灵活程度就越高。

自由度的数量，落实到硬件上，就基本等同于关节中驱动模组的个数，主要就是旋转和直线关节，

别看都叫旋转，人形机器人身上不同部位的功能不同，旋转要求也不一样。特斯拉的14个旋转关节分布在身体的不同部位，其中腰部和腿部的关节需要更高扭矩和负载，而手臂要求灵活程度高，可以快速响应。

光有关节还不够，在各家的机器人演示中，看到Ta轻巧地拿起鸡蛋，总会引发弹幕一片欢呼，因为这个动作代表机器人已经能自己控制，用多小的力拿起易碎的东西。

这里用到的主要部件就是力矩传感器，它能把力的量值转换成电信号。根据力的方向维度，力矩传感器可以分为一至六维，一维力传感器很像一杆秤，只能测量一个方向上的力。

而六维力矩传感器，在笛卡尔坐标系中，可以同时测量三个方向上的轴向力和三个轴向力矩。光看这些专业名词也很容易猜到，这种传感器性能最优，当然技术壁垒也最高，可以说是内部传感器的天花板。

这样听起来，机器人的硬件已经发展到了一定阶段，那为什么工厂的机械臂干起活来又精准又丝滑，轮到人形机器人，总是一副看上去不大聪明的样子。

除了硬件设计，这里还涉及到一个关键问题： 和软件算法的配合度。

我们人类花了上万年的时间才能行动自如，机器人也需要时间去学习，如何控制全身的躯干和关节。

本末科技机器人技术总监廖铉泓说过：“比如说运行得不顺滑，或者说是不连续、动作做得不够好、不够快速，那这里面实际上就是受了硬件本身的限制，对于研发者来说，他经常需要判断到底是我的硬件做得不够好导致的，还是我算法做得不够好导致的，那这中间就是其实一来二去就会花很多的时间。”

各位也可以对比一下自动驾驶的发展脉络，从上世纪初提出设想，到去年特斯拉的FSD V12测试，走了近百年，自动驾驶才来到了准L4阶段，大范围落地还是问题。

最最关键的问题是价格。我们可以把硬件和软件加起来算一笔总账。造一台Optimus，要花多少钱？

一套旋转关节6000，一套线性关节3000，一只灵巧手5万，加上其他的芯片、传感器、电池、骨架、FSD系统……最后光成本都要30多万人民币，而老马在发布会上说，未来一台Optimus的售价是2万美金（14万人民币），现在来看，成本下降的空间还很充裕。

大脑发达，小脑缺失？「人形机器人」还有多久才能带回家？

正文

这一波AI浪潮怎么作用在机器人身上？

具身智能硬件进度拉齐了吗？

请到「今天看啥」查看全文