专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
软件定义世界(SDX)  ·  美国IT岗位雪崩式下降,5年最低!AI相关技 ... ·  2 天前  
数据派THU  ·  SmolLM2:多阶段训练策略优化和高质量数 ... ·  4 天前  
数据派THU  ·  2025年清华大学大数据研究中心 | ... ·  5 天前  
CDA数据分析师  ·  【案例】小米、中国电信的用户画像分析案例 ·  4 天前  
51好读  ›  专栏  ›  大数据文摘

两会重磅定调,Manus一夜蹿红,什么是具身智能?

大数据文摘  · 公众号  · 大数据  · 2025-03-14 18:30

正文

本文摘编自《具身智能:人工智能的下一个浪潮》
刘云浩

从今年人形机器人在春晚舞台上“扭秧歌”,到通用AI智能体Manus强势闯入大众视野。“具身智能”作为人工智能一个重要分支,正以迅雷不及掩耳之势,牢牢抓住科技圈的目光。

今年两会的政府工作报告中,“具身智能”这个新名词首次亮相。报告明确指出,要“因地制宜发展新质生产力。建立未来产业投入增长机制,培育生物制造、量子科技、具身智能、6G等未来产业。”这一官宣,让具身智能从科技圈的热议话题,一跃成为关乎国家产业布局的重要方向。

那么,到底什么是“具身智能”?有人简单将其等同于人形机器人,认为它是对传统人工智能,特别是符号主义人工智能的有力补充与拓展。在中信出版的《具身智能:人工智能的下一个浪潮》一书中,清华大学全球创新学院院长、自动化系教授兼博导刘云浩详细拆解了具身智能的前世今生、具身智能从何而来,又该如何实现?

接下来,让我们一同走进书中,探寻具身智能的奥秘。

具身智能究竟是什么?

2010年前后,由于ImageNet等一系列学术亮点的出现,人工智能在学术界逐渐进入炽热期。2016年谷歌人工智能程序AlphaGo战胜围棋世界冠军李世石,2022年OpenAI(美国开放人工智能研究中心)发布一款名为ChatGPT的聊天机器人,终于把这份火热传递给了大众。当生命用40多亿年的进化所形成的最高智慧大脑皮质被人工神经网络快速逼近,当几十亿人用50多年缔造的互联网数据被大语言模型用不到100天的时间吞噬(GPT—4的训练时间估算为90~100天),当我们生活中的电子产品都被冠以AI之名,如AI个人计算机、AI手机、AI汽车……我们正在进入一个新的时代,一个被人工智能“生命”(“硅基生命”)包围的时代。

炽热往往又伴随着寒意。2023年,如日中天的OpenAI爆发了震惊世界的“宫斗”大戏,首席执行官萨姆·奥尔特曼被解雇了。人们猜测其中原因可能有人类尚未准备好迎接通用人工智能的到来。

通用人工智能是什么样子?一个可以对话的机器目前来看远远不是人工智能的终点。所谓的强人工智能,要多强才算强?随着不同科技大佬的发声,具身智能的概念浮出了水面。这种智能体不仅拥有物理形态,还能与物理世界互动。有人干脆说,具身智能就是人形机器人!具身智能究竟是什么?它是一种方法论还是一个发展阶段?具身智能会带来什么不同吗?

其实,早在70多年前,“人工智能之父”艾伦·麦席森·图灵就提出“机器能思考吗”这一问题,开启了人工智能的伟大征程。1956年,达特茅斯会议开始正式使用“人工智能”这个词。近70年间,人工智能历经了多次起落,但是人类探索通用机器智能的热情从来没有冷却。

图灵预见机器智能的发展分为两个阶段:离身智能和具身智能。1986年,美国麻省理工学院计算机科学与人工智能实验室(MITCSAIL)前主任罗德尼·布鲁克斯提出:“智能是具身化和情境化的,是在与真实环境的交互作用中表现出来的,而不是依赖于预先设定的知识和目标。”

近年来,随着神经网络、大模型、感知等相关技术的突破,“具身智能”这一概念也再次火了起来。如果说离身智能是将机器困于人类经验和数据的藩篱当中,那么,具身智能则使得人工智能真正接触到物理世界。从离身到具身是智能发展的必然趋势,只有真正进入物理世界,机器智能才可能重复人类从纯粹理性到实践理性的提升过程。

我们尝试着讨论人工智能发展的不同范式和阶段。从早期的符号主义到行为主义,从联结主义的神经网络到深度学习,以及以ChatGPT为代表的大语言模型,人工智能经历了一个从离身到具身、从特定到通用的演进过程。感知、认知、决策、行动、进化,是构建完整智能体系的核心要素。机器视觉让计算机看懂世界,模仿学习让系统从数据和经验中不断进化,强化学习让智能体学会主动探索和优化目标。这些要素的加持,赋予机器更全面的智能。

机器的智能从何而来?

说到机器更全面的智能,我们可以先看看“智能”本身的定义。在人工智能发展的过程中,不同学派对“真正的智能”有着不同的定义,这种定义的模糊和变化让研究者时而兴奋,时而沮丧。早期的科学家对人工智能的快速发展抱有乐观态度,部分原因是当时的智能程序已经能够解决复杂的代数问题,证明几何定理,并且能够像专业棋手一样下国际象棋。对普通人来说,无论是解决复杂的数学问题还是展现高超的棋艺,都是极具挑战性的任务,因此这些能力被视为智能的象征。

与此同时,像识别一张桌子和一束花,或者用腿自由行走这样的行为,被归类为“常识”或“本能”,看似无须动用智能。因此,人们推测,如果机器能轻松解决数学推理等难题,那么处理更简单的任务自然不在话下。这种思想在古典人工智能时期非常流行,在长时间内影响着人工智能的发展方向,研究者都在致力于通过让机器解决一系列技术难题来证明人工智能的智能程度在不断提升。

这些研究方向逐渐被证明是有缺陷的。尽管现代人工智能能够轻松击败世界顶尖的棋手,表现出出色的图像识别和逻辑推理等技能,我们依然必须面对一个事实:

现有的人工智能并不代表真正的“智能”,它们依赖人类提供的数据、设定的模型、编写的程序和构建的架构,并且只能在特定的领域和规则下发挥作用。在这些限制下,人工智能展示的行为并非自我思考的结果,而是对预设程序的机械执行。它们缺乏自我判断能力,更不用说具备直觉、感知、意识和情感等人类独有的复杂属性了。这说明,古典人工智能主义在理解智能的本质时存在根本的误区。

具身一定是“人形”吗?

让我们再回到1950年,看看图灵是怎么说的。他在经典论文《计算机与智能》的结尾处,展望了两条人工智能可能的发展道路:一条道路是聚焦抽象活动,例如下国际象棋,我们将其称为离身智能;另一条道路则是赋予机器真正的身体感官,并且用类似教导一个孩童的方式来训练智能体,也就是我们所说的具身智能。

“具身”的含义并非指字面上的“身体”,而是指通过身体的感知来实现的智能。你可能会问:那“具身智能”是不是就是给最强大脑型的大模型装上“新身体”?如果真的这么简单就好了。感觉和意识还源于与世界的多维度互动。以“好吃”的感觉为例,这不仅是味蕾上的感觉,还包括食物带来的视觉影响和嗅觉体验。这种感觉不仅是生理上的,还是我们与客观事物互动的直接结果。这种综合性的感知被内化为大脑中的意识,并作为行动的先验标准。

因此,人类与外部环境的互动需要通过“躯体”这一媒介来完成。人工智能缺乏实体“躯体”,只能与预设的数据进行互动,无法从与环境的真实互动中获得“常识”,也就不可能形成真正的自我感觉和意识。反之,我们如果想让人工智能具备真正的意识,就必须首先赋予它能自主控制的躯体,并让它像普通个体一样融入物理世界和人类社会。

这样的“躯体”需要什么要素呢?让我们还是以最熟悉的参考物—人作为蓝本。按照“模仿游戏”的逻辑,如果我们期望具身智能体在人类世界中不仅生存,还要能与物理环境互动并与人自然交流,那么这些智能体首先需要的就是感知环境的能力。对人类而言,这一问题能够通过感官得到解决:眼睛提供视觉信息,耳朵负责听觉,皮肤感受触觉,等等。如果没有感官,人就可能变成聋人、盲人,显然无法正常地生活。

看到、听到之后,人类接下来就会进行思考,这一过程由大脑掌管。举例来说,一个小孩看到一台精密加工机床可能毫无头绪,而一个经验丰富的工程师则能迅速判断如何使用这台设备制造金属零件。这表明了认知能力在理解世界和做出反应中的重要性。

具身智能体在接收到信息后,需要进行适当的反应或决策。例如,一个想喝水的智能体观察到周围有水壶和杯子,基于水壶里有水、杯子能装水的认知,就会制订一个行动计划:走向水壶,拿起杯子,倒水,最终喝水。

这一系列动作不仅需要身体的协调性,还依赖于中枢神经系统的精确控制,展现了人类身体精细的控制能力,这种行动能力是经过数百万年进化而形成的。

执行完行动后,智能体需要再次感知以了解环境的变化,这就形成一个“感知—认知—决策—行动—感知”的循环,它也成为具身智能体与外界交互的基础。







请到「今天看啥」查看全文