专栏名称: 枢密院十号
挖掘解密全球最新军武动态
目录
相关文章推荐
有书  ·  人到中年,千万不要入戏太深 ·  3 小时前  
简单心理  ·  结婚10年依然深爱,看看这20%的人做对了什么 ·  13 小时前  
武志红  ·  你内心深处,有什么未解开的心结 ·  2 天前  
壹心理  ·  为什么你一和父母说话,戾气就很重? ·  2 天前  
51好读  ›  专栏  ›  枢密院十号

非得是“人形”?故事才刚刚开始......

枢密院十号  · 公众号  ·  · 2024-04-22 23:57

正文



关注瞭望智库视频号






Figure 01,你现在看到了什么?

“我看到桌子中间的盘子里有一个红苹果。还有一个沥水篮,里面装着杯子和盘子。而你站在桌子旁边,手放在桌子上。”


这是一段看似十分简单的日常交流,不同寻常的却是对话的双方:桌案两侧,一边是来自美国人工智能机器人公司Figure的测试人员,另一边则站立着一具有相当身形的人形机器人:Figure 01。

Figure 01拥有泛着淡淡光泽的银色金属外壳,犹如人类光滑的肌肤。躯干、四肢和关节之间穿插着的黑色管线则仿佛人筋骨的外化。尽管Figure 01的面部并没有具象的五官,但显示屏上不断跃动的光标却在向人类宣告, 它的体内也有一个类似人脑的神经网络,正在进行着感知、认知、学习、推理和决策等思维活动。

所以,当测试人员提出“想吃点儿东西”时,Figure 01只“思考”了几秒钟,就拾起了桌上的苹果并递送到对方手中。而当被问及这样做的原因时,Figure 01一边把桌上的塑料袋放进垃圾筐,一边解释道:苹果是桌子上唯一能食用的东西。

这项由Figure公司和ChatGPT的开发者OpenAI公司合作研发的人形机器人最新成果被认为是人形机器人领域的大突破——能对话、能思考、能决策,人类似乎真的创造出了一个从外形到智能都和自身高度相似的智能体,尽管目前它能力有限,但一个崭新的机器人时代已然到来。

站在这场科技风暴的前端,我们不禁要思考:人类为什么非要造出具备“人形”的机器人?

文 | 王乙雯  胡笑源(实习生)

本文为瞭望智库原创文章,如需转载请在文前注明来源瞭望智库(zhczyj)及作者信息,否则将严格追究法律责任。

1

为何非得是“人形”?


长久以来,人类似乎就对造出一个跟自己高度相似的替身有种宗教般的执念。我国春秋战国时期的典籍《列子 ·汤问》中记载了一则偃师造人的传说,相传巧匠偃师向周穆王进献了一个能说话、会跳舞的“机器人”,它不仅拥有和人一模一样的外表,甚至还有用皮革、木头等材料做成的内脏。

而在几乎同时期的古希腊神话中,也有一个由锻造之神赫菲斯托斯打造的青铜巨人塔罗斯,它拥有人的身体构造和远超于人的神力,日夜守卫着克里特岛。有人认为这种对类人形创造物的想象来源于直觉,在劳动和创造实践中,人类总是会不可避免地将自身作为参照物,这也与早期人类对造物主的想象不谋而合。

伴随着人类文明的进步和生产力的不断跃迁,人类又开始幻想着制造出一种可供人类驱使和奴役的“工具人”。 1920年,捷克斯洛伐克作家卡雷尔·恰佩克在科幻戏剧《罗梭的万能机器人》中首次创造出“Robot”(机器人)一词,它由捷克语“Robota”(奴隶)一词变体而来,并一直沿用到20世纪中叶的科幻作品中。从当年的画刊和电视节目中不难发现,人们对于“机器人”的想象仍是以人体结构为参照的“仿人机器人”(humanoid robot)。

2023年8月16日,观众在2023世界机器人大会现场参观。新华社记者 徐嘉懿 摄


直到1959年,世界上第一台工业机器人Unimate被发明出来,它由底座和一只机械臂组成,其中大机械臂可绕轴在基座上转动,在此基础上伸出的小机械臂,可以相对大臂伸出或缩回,与人类手臂的功能相似。尽管Unimate并不具备完全的人形,但当它被用于辅助汽车的生产,其精确度可达1/10000英寸。人们发现,机器人并非一定要有和人完全相同的身体,甚至没有人形反而更能提高机器的工作效率。

自此,人们对机器人的认知有了根本性的改变:机器人不一定非得是“人”, 更为关键的是其作为一个自动化、专门化器械的实用价值。 随着材料科学和自动化技术的发展,各式各样并不具备人形的工业机器人、医疗机器人、家用扫地机器人等自动化器械广泛走进人类的生产和生活场景。

人类真的还需要一个具备人形的机器人吗? 答案未知,不过人类却始终未曾停下制造真正机器“人”的脚步。

图表:人形机器人“阿特拉斯(Atlas)”。新华社记者 王永卓 编制


1978年,日本早稻田大学研制出世界上第一个人形机器人WABOT-1,尽管它只能小步缓慢行走,但这一真正能像人一样行走的机器人还是震惊了世界。1986年,日本本田公司推出的人形机器人ASIMO不仅能实现连续动态行走,还能完成小跑、单足跳、上下楼梯和踢足球等复杂运动。2013年,美国波士顿动力公司Atlas原型机正式公开,这时的人形机器人已经能完成快速小跑、三级跳、后空翻等一系列高难度动作。2022年,特斯拉人形机器人擎天柱(Optimus 原型机正式亮相,展示视频显示其已经可以应用于在汽车工厂进行搬运、浇水植物、移动金属棒等场景。

从蹒跚学步到活动自如,几十年间人形机器人自身机能的进化让人们看到了真正意义上的机器人走进人类生产生活的可能。与此同时,伴随着人口老龄化带来的劳动力减少,人类越来越意识到需要一个真正的助手来将自己从枯燥、艰难、危险的活动中解脱出来。面对这样的需求, 只能在专门化场景中完成特定操作的自动化器械似乎已经难以胜任。

让我们设想一个场景,当一位行动不便的独居老人需要出门取快递时,怎样的机器人才能帮助其完成这一任务呢?首先它必须要能听懂老人的指令,找到快递站点,选择和拿取正确的快递,同时,它可能还需要完成开门关门、上下楼梯、行走与避障等动作。

这个日常的生活任务对于人类来说再简单不过,但对于一个机器来说却充满挑战,人类并不总是生活在某个特定的场景中,我们的日常活动也不总是单一固定的,因此,机器人必须具备通用性。 而人类社会的所有场景都是为人自身设计的,要想机器能在最大程度上代替人完成操作,具备人形的机器人是最适配、最具通用性的选择。

可以说,近几十年的人形机器人研发之路是技术探索和需求召唤相互刺激的结果,人形机器人技术的不断发展让人们对其应用场景有了更多想象,而近年来人工智能的飞速发展则给人形机器人带来了质的跃升,人形机器人开启了“具身智能”的新时代。

2

并非人工智能与机器人的简单相加


在很长一段时间里,人形机器人虽然在运动机能上不断进化,变得越来越灵活,能完成一些诸如运输、分拣等特定场景里的任务,但本质上来说,它并不具备感知、理解和决策等自主能力,因此更像是一个依附于人类操控的 “提线木偶”。

譬如人们可以设置好一个程序,让人形机器人拿起桌子上的一杯水,但它并不能理解什么是“水”。而当桌子上同时摆放了水、咖啡和果汁,人类下达同样的指令时,机器人并不能分辨出哪杯是水,更无法决策如何拿取。因此,要想让人形机器人不只是人形玩具,关键是要为其装上一个可感知、会思考、能决策的智慧大脑。那么, 真的能产生会思考的机器吗?

2023年8月16日,观众在2023世界机器人大会现场与一款仿生四足机器人互动。新华社记者 任超 摄

1950年,英国计算机科学家图灵在论文中设想了两种机器智能,一种是如同人类智能一样的机器智能,着重模仿人类的感知、记忆推理和学习能力,另一种则是和人类完全相同的智能,不仅要有如人类一般的大脑,还有和人类一样的身体外形,而且大脑可以支配身体,身体也能快速响应大脑做出的决策。后来,前者被总结为“人工智能”(Artificial Intelligence),也就是我们常说的AI,后者则衍生出 “具身智能” (Embodied AI) 的概念,也可以理解为 人工智能和机器人的结合体。

近年来,伴随着人工智能的飞速进步,具身智能的时代已然到来。以人形机器人为例,它可以被拆解为大脑、小脑和肢体几个部分。其中,机器肢体最直接与物理世界产生交互,是人形机器人能最终执行人类指令的物理基础。小脑控制机器人的平衡,指导机器人完成全身协同精细作业。 大脑则最为关键,它使机器人能够在动态开放环境下完成环境感知和行为控制,实现感知-决策-控制一体化。 同时,机器人的大脑也是其能听懂人类指令、和人对话、实现真正意义上人机交互的关键。而使得人形机器人实现技术跃迁的,也正是有关其“大脑”人工智能领域的几次突破性进展。

首先,人工神经网络的构建和深度学习算法的突破使机器人有了感知和自主学习的能力。 人工神经网络是模仿人类大脑构建的一种运算模型。人脑内部存在着大量的神经细胞(神经元),它们相互连接成网,当我们学习时,不同的神经元会对接收到的信息进行加工和处理,并通过一种名为“突触”的结构相互交换信息。与此同时,面对不同的信息,只有相关的神经元会被激活,它们之间的突触强度得到增强。随着学习的深入,这些连接变得更加稳固和高效,人脑由此获得了知识和记忆。当我们再次接触到相关信息时,大脑就能快速调取正确的通路。

基于对此工作原理的模仿,科学家们希望机器也能获得这种感知和自主学习能力,而不是仅仅完成人类规定好的算法规则,于是人工神经网络被构建出来。在人工神经网络中的人工神经元之间,科学家设定随机的权重来模仿突触强度,通过改变权重来构建能给出正确答案的网络。

举例来说,在传统算法中,如果想让机器识别出一张图片是否是猫的图案,必须先对猫的特征进行详细的定义,然后转化为函数输入计算机,这样计算机通过分解给定图片的元素,与既有规则进行比对,才能做出判断。而利用神经网络的机器则不需要预先给定猫的定义,只需要向计算机展示大量猫的图片并令其识别。不同神经网络通路给出的结果中,正确答案的权重会增加。这样一来,只要做足够多的尝试,机器就能根据正确的通路准确识别出猫的图片。

单个的神经元只能解决简单的问题,而 增加神经网络的层数则能将输入的复杂数据逐层抽象和简化,让机器获得深度学习的能力,这也就是深度神经网络。 2012年,被用于计算机视觉领域的深度神经网络卷积神经网络(AlexNet 横空出世,在ImageNet图像识别大赛上以84%的识别准确率夺得冠军。在此基础上,人工智能领域迎来突破性进展,图像识别、机器翻译、自动驾驶等场景迅速落地。机器学习的速度被大大优化,感知能力也更加接近人类。

如果说以人工神经网络为核心的深度学习让人工智能对世界有了感知,那么 大模型则让人工智能有了自主生成的决策能力,而“多模态”技术则可以让机器人多线程处理信息,实现感知-决策-执行的全流程。

大模型是指包含超大规模参数(通常在10亿个以上)的神经网络模型,具有巨大的规模、多任务学习、强大的计算资源和丰富的数据等特征。近两年爆火的GPT就是一种用于理解人类语言(自然语言)的大语言模型。相较于传统语言模型,GPT通过应用大规模神经网络和大量学习数据的深度学习,极大提高了语言处理的精准度。而当GPT被应用于机器人,我们将能直观地感受到它能更好地理解人类说的话,并像一个真正的人一样给出更加准确的反馈。

【注:大模型的参数指的是在机器学习模型,特别是深度神经网络模型中,需要学习和调整的权重等变量。一般来说,增加参数数量可以提高模型的复杂性和表达能力,使其更好地拟合训练数据,但也可能面临过拟合的风险,导致模型泛化能力下降。在大语言模型GPT-3中参数数量达到了1750亿个,而GPT-4的具体参数数量虽未公布,但估计可能超过1万亿。】

人形机器人不仅要能和人对话,还需要有视觉、听觉、触觉,并根据对环境的综合感知做出决策,相较于单模态的大语言模型,多模态感知技术能使机器人进行更高效的决策。科技部副部长吴朝晖就曾指出,自然语言大模型并不是大模型的最终形态,比它更高级的是多模态的具身智能。

此外值得注意的是,正如人体的大脑、小脑和躯干是一个有机整体,在人形机器人的实际研发中,大模型的应用远比我们想象的更深入和复杂,具身智能也并非是人工智能与机器人的简单相加。正如清华交叉信息研究院助理教授、星动纪元创始人陈建宇在采访中提到的, 人形机器人的最终局不能只是植入大模型,而是要造一个在机器人领域更具通用性、泛化性的大模型。

“人形机器人第一股”优必选副总裁、研究院副院长庞建新也在一次专访中指出,在将大模型应用于人形机器人时,会采用基于语言的大模型、基于视觉的小模型、语音的小模型、多模态的大模型等多个模型的集成应用,此外还包括通过强化学习等方式学习到的动作规划,以及控制策略方面的大模型等。 “在大模型技术落地时,我们需要解决如何将大脑与小脑结合,以及如何通过小脑驱动躯体的问题。”

3

故事才刚刚开始


技术的进步最终指向应用的落地。2024开年仅一个月,斯坦福、谷歌、Figure、特斯拉就接连发布至少六项有关人形机器人的新进展。据报道,美国Figure公司的Figure 01、优必选的工业版人形机器人Walker S已先后“进厂打工”,人形机器人在实验室掀起的浪潮已迅速导向风起云涌的市场。有观点认为,人形机器人已经发展到了它的“iPhone时刻”,2024年或将成为人形机器人商业化落地的元年。

据悉,在机器人研发领域,日本和美国曾长期占据领先地位,前者擅长机器人物理特性的开发,而后者则更擅长机器人的思维开发。不过,从2000年国防科技大学研制出中国第一台人形机器人“先行者”,到2023年5月31日,中国人形机器人专利申请数量和有效专利数量均为全球第一, 中国虽入局较晚,成果却毫不逊色。

2024年1月31日, 中国科学院自动化研究所 人形机器人攻关团队科研人员在多模态人工智能系统全国重点实验室调试机器人。新华社记者 金立旺

与此同时,中国企业也在不断发力,推动人形机器人商业化落地。去年2月,曾经的华为天才少年、250万粉丝B站UP主稚晖君(本名彭志辉)创办智元机器人,同年8月就推出了面向工业智造领域的人形机器人远征 A1。相较于波士顿动力Atlas和特斯拉Optimus人形机器人全身拥有28个自由度,远征 A1有超过49个自由度,这正是基于机器人应用于汽车生产过程时整理线束、拧螺丝、总装等任务设定的。据财联社报道,该公司已计划在上海建设第一座人形机器人量产工厂。







请到「今天看啥」查看全文