专栏名称: 脑极体
你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。
目录
相关文章推荐
中科院物理所  ·  蛇毒为何如此令人敬畏? ·  昨天  
中科院物理所  ·  哪吒电影里的岩浆海真的存在吗? ·  2 天前  
中科院物理所  ·  物理学中真有“魔法”,它代表一类量子资源 ·  3 天前  
中科院物理所  ·  橡皮能不能黏住尺子?小学生都知道DeepSe ... ·  3 天前  
51好读  ›  专栏  ›  脑极体

人形机器人的理想与现实

脑极体  · 公众号  ·  · 2024-07-10 19:49

正文


李开复曾提到过一个AI界流传的“骗子又来了曲线”。 人会不断给机器进行“是否具有人类智能”的鉴定,而这个过程,总是从被人工智能在某些领域的惊艳表现震撼,到逐渐认识到当时的人工智能还有各种局限,以至于产生巨大心理落差。


近来,人形具身智能机器人在WAIC世界人工智能大会上密集亮相,我们在现场所感受到的就是“人类要毁灭了”与“骗子又来了”,两种声音同时存在的复杂现象。



具体来说,认为“人类要毁灭了”,大多是不明觉厉的普通观众,而冷静甚至不看好人形机器人的多为AI、机器人领域的业内人士。


比如猎豹移动董事长兼CEO、猎户星空董事长傅盛就表示,“机器人在今年的展厅里是爆发了,但在日常生活当中,我们并没有看到它在哪个地方被大规模用起来。机器人行业的产业爆发还远远没有到来……对人形机器人的不看好一定会被时间证明”。


这两种心态,究竟哪一种才代表人形机器人产业的真相呢?


其实并没有什么真相。不同的心态,是由不同的判定标准而产生的。大众、从业者和技术专家,都有一张“我心中的人形机器人”打分表,评价尺度各不相同。


而关于人形机器人的期待,在人形、大模型、具身三个标准上,大众的预期、媒体的宣传、产业的实际进展等都有比较大的分野。这构成了当前,人形机器人的理想与现实。



“变形金刚”的理想与现实


“他们怎么不动啊,不表演有什么必要插电源?”


“插电亮着好看。”


本届WAIC最吸睛的,就是中央展厅的“十八金刚”了。18个人形机器人同台而立,几乎每个参观者都聚集在展台前打卡拍照,在展台旁边,我听到了这段对话。


大众理想中,人形机器人就是变形金刚、机甲战士那样,走路又稳又快,行动灵活,随意移动,无论是工厂上班、护理老人还是投递包裹,都手拿把掐。



但产业现实中,WAIC上的人形机器人大多数时间都待在展台上,在特定时间表演一些拿苹果、端杯子之类的手部动作,特斯拉的机器人甚至始终待在玻璃展柜中一动不动。和全场溜达的机器狗相比,人形机器人显得“内向”很多。


由此可见,到底需不需要“双足行走”,成了目前公众和从业者对人形机器人,最大的认知差异。


总的来说,双足人形机器人是“机器人的皇冠”,是终极方向,才是大众期待的“变形金刚”。


但至少要走过三步:双足行走、执行复杂任务、规模商用。


而目前,仅仅是第一步“双足行走”,在技术和商业上都并不是最佳状态。


一方面,稳定的行走,需要系统拥有极高的鲁棒性。


机器人在面临各种异常情况和输入时,仍然能快速通过运动控制模块调整姿态,保持正常运行。


要提升系统的鲁棒性(或者说稳健性),依赖于机器人与人类、物理世界的真实交互,来积累高质量数据。如果遇到训练环境中没有出现过的问题,机器人就可能出现异常或“死机”,系统研发效率是比较低的。



另外,商业上“双足行走”也并不是刚需。


比如特斯拉、Figure等都宣布要让人形机器人“进厂打工”,从事电池分拣等工作。但实际上,制造环节80%以上生产作业动作,其实很少用到下肢,用到躯干,主要是靠手来完成的。这种上肢为主的简单系统,可以减少控制难度,降低投入成本,并且更容易规模化量产,因为只需要将最重要的一部分功能(手部)进行复制。一旦加上四肢、躯干,控制难度、续航、成本都会大幅提升。


所以,目前能够规模化应用的机器人形态,都是以机器狗、机械手等单一、极简形态。满足大众期待的“变形金刚”,要在迈过很多步之后,才能带来极大产业效应。


几年之内,我们应该都会更常在展台和展柜中看见人形机器人,而非零距离互动。



大模型的理想与现实


“现场机器人好多,我都感觉主题有点跑偏了”,一位计算领域的从业者对我说道。


智能机器人在人工智能大会上遍地开花,根本逻辑是—— 大模型为具身智能开启了新的解决方案的大门


传统的人工智能系统,受限于缺乏先验知识,理解力与泛化能力捉襟见肘,导致机器人难以像人类一样拥有基本的常识判断能力,这严重制约了高级别具身智能的发展。机器人执行任务时,往往需要人类工程师将复杂指令拆解为一系列简化的、程序化的步骤,再由机器人(如机械臂)逐一执行。显然,这种“智能水平”并不算很高,还需要人来做大量的代码和开发工作。



理想中,大模型会为人形机器人的“智能水平”,带来颠覆性的变革。


大模型相较于传统机器学习方法,拥有更加强大的泛化能力,可以为人形机器人的大量任务,比如复杂任务解析、流畅连续对话、零样本推理等,提供全新的解决方案。


举个例子,告诉人形机器人“我饿了”,它会自动分析这句话背后的需求,并拆解为可执行的具体动作,通过观察物理环境,从冰箱里拿出一个苹果给你吃,不需要人来拆分指令。


但现实中,大模型给人形机器人带来的变革,仍然停留在初级的“自然语言交互”。


目前绝大多数人形机器人,更多是拥有了类ChatGPT的“嘴”。这种结合,虽然能提供更自然生动的交互体验,但只是将现有的语音交互进行了升级,并非“端到端”任务执行能力的颠覆式突破。



无需人工参与的高度自动化,为什么有了大模型也没能快速实现呢?


究其根本,机器人是一个非常复杂的学科,涉及精密机械、自动控制、电气电子、计算科学,最后呈现出一个非常复杂智能机电一体化系统。


从有监督机器学习到大语言模型,是计算领域的技术突破,可以在交互、规划、决策等环节发挥作用。然而,从机械化到高度自动化,人形机器人的再进化,还需要感知技术、驱动与传动技术、万兆网络等的技术和资源支持。








请到「今天看啥」查看全文