专栏名称: 36氪Pro
「36氪Pro」是36氪推出的全新品牌,旨在为优秀的创新者,提供优质内容及深度服务。
目录
相关文章推荐
史事挖掘机  ·  1949年运钞机坠毁山野间, ... ·  昨天  
中国舞台美术学会  ·  通知丨文化和旅游部艺术司关于征集戏曲创作优秀 ... ·  5 天前  
51好读  ›  专栏  ›  36氪Pro

大脑发达,小脑缺失?「人形机器人」还有多久才能带回家?

36氪Pro  · 公众号  ·  · 2024-11-15 18:13

正文

这些看着就猎奇的科幻电影画面,真的会很快发生吗?


张钰铮
编辑 方婷
来源 氪星研究所

封面来源 Pexels

做家务(Figure 01)、后空翻(宇树)、现场热舞(Optimus)……为什么今年机器人的视频会病毒式地传播?
用我们人类的标准看,这些事可以说平平无奇,但一放到机器人身上,就会引发“地球迟早被这些机器人占领”的暴论。
这两年炒得热火朝天的具身智能(Embodied intelligence),和机器人(Robot)到底有什么区别? 这些看着就猎奇的科幻电影画面,真的会很快发生吗?
今天,我们来聊一聊, 什么是具身智能。

请观看36氪原创视频

👇🏻也欢迎关注36氪视频号👇🏻

这一波AI浪潮怎么作用在机器人身上?

首先,具身智能这个概念不是个新词儿,1950年图灵的经典论文里就有涉及。

图:图灵论文

早在70年前,具身智能就被看做是通往AGI(通用人工智能)的路径之一。只是碍于那个时候各项技术尚不成熟,一直起起伏伏。很显然,当下这波具身智能的热潮,得益于第三次AI浪潮的驱动。

这波具身智能和以往大家聊的机器人的根本区别,就在于智能化程度。

比如这两年被马斯克大吹特吹的机器人进厂打工,早在几十年前就实现了。原理就是通过给机器人设定一个程序,让它们在已知环境里,完成规定动作。
不光智能水平不高,而且还是被动智能。它无论如何也不可能知道,什么叫该出手时就出手。
然而到了神经网络时代,真正的具身智能得主动,就像电影里一样,通过感知获取关于世界的信息,接着把感知到的信息,转换成机器可以处理的形式。
比如把图像转换成像素值,把文本转换成词向量,在这个基础上机器自己做出决定,和世界完成交互。
今年年初,Figure AI发布了01的演示Demo,观看量200万,是Figure所有演示视频中播放量最高的。
实际上,01去年就发布了, 那个时候Ta看上去就是流水线上的螺丝钉,缺点儿心眼。但这一次,Ta不但听得懂人话,有自己的规划,还完成了动作,向通用的交互场景前进了一大步。
同时也意味着,机器人的市场定位,很可能会从工业场景,转向我们日常的生活场景,这才是具身智能市场火热的关键要素。
这一点,业内人士显然更早意识到。
杭州云深处科技有限公司CTO李超说过: “就像我们现在这个机器人,它有专业人才能去用,我最好希望老年人也能用,那最简单的就是我告诉它去干什么事,它就用 AI 都解决掉了。”
根据官方的图,我们可以看到,01的构造是大脑+小脑+身体。
ChatGPT充当了机器人的大脑,给了它灵魂,让机器人读懂语言指令含义,同时根据视觉画面进行推理,确认任务对象是谁,接下来该怎么做。接着开始调用小脑函数。
Figure AI提供的就是小脑+身体部分,根据大脑的指示开始运行算法,规划操作步骤,最后由身体控制执行具体的动作。
听起来,这个过程是不是相当简单,有一种apple pen的拼凑感,当时就有媒体说,GPT加持了13天就这个程度了, 通用机器人的落地好像指日可待。
接下来,我们只要坐等大模型发展成熟,然后直接上接口,具身智能还不往前大跃进式发展?
但是真就这么简单吗?
大脑和身体我们都好理解,机器人的小脑,又是怎么运作的?
诺贝尔经济学奖获得者丹尼尔·卡尼曼曾经写过一本著名的畅销书,名叫《思考,快与慢》,他认为人类的大脑分两个系统:系统1偏直觉,能快速解决问题;系统2偏理性,可以进行深度思考。
但在生活中,我们95%的时间用的都是系统1,只有极少数复杂任务才要调用系统2。就像只要我们学会了走路,之后凭直觉就能迈出步伐,并不用每次都去控制肌肉的用力方向。
而这个系统1,就是小脑。放在机器人身上, 小脑,就是连接虚拟和真实物理世界的一个层级。
它会存放各种让器人能动起来的子任务,把大脑看到,决定要做的事儿,交给本体去执行。
在真实的人类世界里,这种子任务不计其数, 但对机器人来说,每一样都是关关难过关关过。
比如早期的机器人,知道怎么把瓶子放一张桌子的左上角,但要让它把瓶子放在右下角,又是另一个不同的任务,需要重新理解一遍。如果针对任何一个细小的子任务都设置一个模型,那么机器人需要处理的参数体积,就会异常庞大。
而小脑的用处就是尽可能简化模型,然后再调用,以此提升工作效率。
在这一波基于深度学习的AI浪潮来临后,基于学习的控制,也成为小脑训练中被热议的话题。

比如写毛笔字的机器人,它的顿笔、力道都师从大家,不需要十年苦练,一出手就是大师手笔,稳准狠。只要观察和学习专家或者样本数据,通过映射就能实现技能学习,这是基于模仿的学习,简单直接。
但问题是模仿学习知其然,不知其所以然,Ta不会写其他字,更别说应对生活场景中更复杂的任务,这就是AI领域常说的:泛化能力差。
另一种是强化学习 ,相当于把不会游泳的人直接扔进水里,自己去学。
杭州云深处科技有限公司 CTO李超说过: “强化学习,粗浅来说就是大力出奇迹。早期的基于规则,我们去写(机器)狗也是这样,如果坠入到楼梯之后怎么处理?遇到斜坡怎么处理?
现在神经网络强化学习之后,泛化能力就好了,没有这么多的规则了。如果说它摔倒了,我就惩罚它一下,走得好了,我就奖励它一下,它慢慢就收敛到比较好的一个行走方式。”
感觉上和大模型的训练方式如出一辙,问题是强化学习的缺点也显而易见,奖励函数的设置还需要伴随任务升级不断迭代,难度一路水涨船高。
实际上,目前应用最广泛的还不是模仿学习或者强化学习, 而是从二三十年前就开始使用的基于模型的控制(model base control),这种传统基于物理和数学模型训练出来的机器人,不光执行速度快,稳定性也高。
所以现在主流的做法 不是一股脑儿都转向学习控制,而是二者合力。
本末科技机器人技术总监廖铉泓说过:“机器人,他们底层一定都会有一个基于模型的传统控制器在里面,那个才是他们的根基。我们都会尝试怎么样去把这种基于模型的控制和强化学习、模仿学习结合起来用。他们各自肯定都有各自的优劣,但如何把这些方法融合起来才是未来的一个趋势。”
不过,这条路上也有另辟蹊径,走得特别猛的。
AI教母李飞飞,作为ImageNet的主导者,她在ChatGPT横空出世后,直接潇洒转身,继续寻找可以穷尽一生追求的北极星问题。
空间智能,这是AI领域下一个前沿且难以攻克的挑战。李飞飞直接开了家公司,名叫“World Labs”,想开发一种“世界模型”。
在这个世界模型里,具身智能不仅要能看到,还要预测事物未来发展、理解因果关系,推理和学习新技能。换句话说,就是在李飞飞的理想状态下,不需要教机器人具体的技能,它遇到难题了,自己就会尝试解决。
原理很简单,李飞飞依然延续了图像识别时代,做数据集的思路,构建了一个3D模拟世界,帮助模型采集数据和理解世界。
当年ImageNet真正发挥奇效,也用了十多年时间,所以高质量3D数据集的构建,目前来看仍然任重道远。
她的团队也在同步尝试零样本的可能性,比如去年发布的VoxPoser演示。

机器人在接收口头指令后,语言大模型和视觉大模型一起工作,生成了3D指示地图,地图中既包含了在哪里行动,也包含了如何行动,只要把3D地图作为目标函数,用动作规划器合成操作轨迹,VoxPoser就能在完全陌生的环境里完成任务。这个零样本路径,目前来看倒是未来可期。

从神经网络架构、学习法则到环境样本,深度学习浪潮下的具身智能还在克服重重难关,智能的问题尚待解决,那身体的部分足够成熟了吗?

具身智能硬件进度拉齐了吗?

在这一波具身智能热潮中,关于硬件部分,讨论热度最高的就是人形机器人。
说着挺容易,但针对自由度越来越高的人形机器人,软硬件的挑战同样不小。
先来说自由度,这是个关键指标:工业机械臂一般是4-6个自由度,而特斯拉的Optimus一代有40个自由度。
所谓自由度,就是机器人可以活动的轴数。以灵巧手为例,Optimus一只手有6个主动自由度,分别是5个手指的弯曲+大拇指的平移,自由度越高,灵活程度就越高。
自由度的数量,落实到硬件上,就基本等同于关节中驱动模组的个数,主要就是旋转和直线关节,
别看都叫旋转,人形机器人身上不同部位的功能不同,旋转要求也不一样。特斯拉的14个旋转关节分布在身体的不同部位,其中腰部和腿部的关节需要更高扭矩和负载,而手臂要求灵活程度高,可以快速响应。
光有关节还不够,在各家的机器人演示中,看到Ta轻巧地拿起鸡蛋,总会引发弹幕一片欢呼,因为这个动作代表机器人已经能自己控制,用多小的力拿起易碎的东西。
这里用到的主要部件就是力矩传感器,它能把力的量值转换成电信号。根据力的方向维度,力矩传感器可以分为一至六维,一维力传感器很像一杆秤,只能测量一个方向上的力。
而六维力矩传感器,在笛卡尔坐标系中,可以同时测量三个方向上的轴向力和三个轴向力矩。光看这些专业名词也很容易猜到,这种传感器性能最优,当然技术壁垒也最高,可以说是内部传感器的天花板。
这样听起来,机器人的硬件已经发展到了一定阶段,那为什么工厂的机械臂干起活来又精准又丝滑,轮到人形机器人,总是一副看上去不大聪明的样子。
除了硬件设计,这里还涉及到一个关键问题: 和软件算法的配合度。
我们人类花了上万年的时间才能行动自如,机器人也需要时间去学习,如何控制全身的躯干和关节。
本末科技机器人技术总监廖铉泓说过:“比如说运行得不顺滑,或者说是不连续、动作做得不够好、不够快速,那这里面实际上就是受了硬件本身的限制,对于研发者来说,他经常需要判断到底是我的硬件做得不够好导致的,还是我算法做得不够好导致的,那这中间就是其实一来二去就会花很多的时间。”
各位也可以对比一下自动驾驶的发展脉络,从上世纪初提出设想,到去年特斯拉的FSD V12测试,走了近百年,自动驾驶才来到了准L4阶段,大范围落地还是问题。
最最关键的问题是价格。我们可以把硬件和软件加起来算一笔总账。造一台Optimus,要花多少钱?

一套旋转关节6000,一套线性关节3000,一只灵巧手5万,加上其他的芯片、传感器、电池、骨架、FSD系统……最后光成本都要30多万人民币,而老马在发布会上说,未来一台Optimus的售价是2万美金(14万人民币),现在来看,成本下降的空间还很充裕。







请到「今天看啥」查看全文