专栏名称: 中科院物理所

物理所科研动态和综合新闻；物理学前沿和科学传播。

科技热词“具身智能”到底是什么？

中科院物理所 · 公众号 · 物理 · 2025-03-13 13:42

主要观点总结

本文主要介绍了具身智能的概念、历史发展、世界模型的作用、与其他学科的关系以及其在人工智能和机器人领域的应用和前景。具身智能强调智能行为需要通过身体与环境的交互来实现，而不仅仅是依赖大脑的运算。文章还讨论了具身智能与传统人工智能的区别，以及它在实践中的应用和挑战。

关键观点总结

关键观点1: 具身智能的概念

强调智能行为需要通过身体与环境的交互来实现，而不仅仅是依赖大脑的运算。

关键观点2: 具身智能的历史发展

从哲学家的提出到认知科学的发展，逐渐形成了具身智能的理论体系。

关键观点3: 世界模型的作用

世界模型是具身实践的结晶，是连接具身和智能的桥梁，使我们在复杂多变的环境中生存和发展。

关键观点4: 具身智能与传统人工智能的区别

传统人工智能主要基于符号主义，而具身智能则强调身体在智能中的重要作用。

关键观点5: 具身智能在机器人领域的应用和挑战

具身智能为机器人的设计和研发提供了新的思路和方法，但在实践过程中仍需要突破技术难关和观念障碍。

正文

到底什么是具身智能呢？简单地说， 具身智能就是强调智能行为需要通过身体与环境的交互来实现，而不仅仅依赖“大脑”的运算。

这其实很好理解，就像我们人类，刚出生的小宝宝要想认识世界，肯定不是通过大脑来思考的，是用眼睛去看、用耳朵去听、用手去触摸，通过与外部环境的互动来获取信息，从而产生智能行为。正如著名哲学家梅洛庞蒂所说： “身体是我们拥有世界的方式。” 在具身智能看来，身体不是心智的外壳，而是智能的本源。

“具身智能理论强调认知过程的物理基础，认为心智、思维和知觉并非脱离身体的抽象过程，而是深深根植于生物体与环境的动态交互之中。智能并不单纯存在于大脑之中，而是整个身体与环境相互作用的结果。”

—— E. Thompson, M. Rosch, & D. L. Schaller

具身智能的研究对于人工智能的发展有着重要意义。虽然当前的人工智能系统在某些任务上的表现已经超过了人类，比如下围棋、识别图像等，但它们在灵活性、适应性、创造力等方面还远不及人类。这就像是高考状元和三岁小孩的区别，前者擅长应试，后者却拥有惊人的学习能力。为什么会这样呢？这就要从人工智能发展的历史说起了。

传统的人工智能主要基于“符号主义”思想，也就是认为知识可以用符号来表示，智能就是对符号的运算。这种方法在一些特定领域取得了成功，比如国际象棋，在处理现实世界的复杂问题时却捉襟见肘。因为现实世界充满了不确定性，很多知识难以用符号准确描述。此外，符号主义忽视了感知、运动等因素在智能中的作用。

20 世纪 80 年代，一些学者开始反思符号主义的局限，提出了“连接主义”思想。他们认为，智能源自大量神经元的连接，而不是抽象的符号运算。这催生了人工神经网络和后来深度学习的发展，使得人工智能在感知、模式识别等任务上取得了长足进步。但是，连接主义仍然把智能视为头脑的产物，忽视了身体在智能中的重要作用。

进入 21 世纪，随着认知科学的发展，越来越多的证据表明， 人类的智能是大脑、身体和环境相互作用的结果，具有鲜明的身体性。 这就是具身智能的核心思想。

比如，发展心理学家皮亚杰通过大量实验发现，婴儿是通过手脚的运动来认识世界的，从而逐步建立起物体永恒性等基本概念。又如语言学家莱考夫指出，我们对很多抽象概念的理解，都借助了身体隐喻，比如“理解是抓住（grasp）”“高兴是向上（up）”等。可见，我们的思维方式深深植根于身体经验之中。

受此启发，人工智能和机器人学家们开始探索具身智能的实现路径。一些学者设计了拟人化的机器人，让它们像人一样用手、眼去感知环境、操纵物体，通过不断地尝试来学习各类技能。

这就像小宝宝学走路一样，从跌倒到蹒跚，再到熟练行走， 机器人在实践中积累了丰富的“身体经验”，形成了属于自己的“世界模型”，这为它们应对复杂多变的现实世界打下了基础。

什么是“世界模型”呢？我们人类之所以能够在复杂多变的环境中生存和发展，一个重要原因就是我们头脑中有一个对世界的整体认知，这就是“世界模型”。

它像是我们头脑中的一张地图，囊括了我们对世界的种种认知，包括空间、时间、事物、规律等各个方面。比如，当你走进一个房间，即使你从没来过这里，你也知道桌子可以用来放东西，椅子可以用来坐，门可以打开和关闭。

之所以如此，就是因为你头脑里的世界模型告诉你，桌子、椅子、门等物体有各自的属性和功能。世界模型使我们能在头脑中预演各种行为的后果，从而做出明智的决策。

世界模型和具身智能密切相关。具身智能理论认为，世界模型不是天生就有的，也不是单纯用符号编码的，而是主体通过自己的感知和运动，在与环境的互动过程中逐步建构起来的。

婴儿刚出生时对世界几乎一无所知，但她是会不断用手触摸周围的物体，用眼追踪移动的事物，通过这些感知运动的经验，逐渐认识到世界的种种规律，形成了自己的世界模型。

可以说， 世界模型是具身实践的结晶，是身体铭刻在心智中的烙印。 反过来，成熟的世界模型又能指导具身实践，让我们的行为更加智能和高效。由此可见，世界模型是连接具身和智能的桥梁，是具身智能的基石。

“具身智能”这个概念，可以追溯到 20 世纪中叶。它最早由哲学家海德格尔、梅洛庞蒂等人提出，他们强调人的存在本质上就是“在世存在”，身体在其中扮演了重要角色。

后来，认知语言学家莱考夫进一步指出，人类的概念系统主要来源于身体经验，高度依赖身体隐喻。发展心理学家皮亚杰、吉布森等也通过大量实证研究，揭示了感知运动在认知发展中的重要作用。

进入 21 世纪，随着神经科学的发展，身体、大脑、环境互动的复杂动态过程逐渐被阐明，催生了体化认知、扩展心智、涌现主义等流派，共同塑造了具身智能的理论体系。可以说，“具身智能”是多学科交叉融合的结晶，为解开“智能本质”这一终极问题提供了新的视角和思路。

另一些学者则从进化的角度来思考智能的本质。他们发现，不同物种的智能水平与它们的身体结构和生存环境紧密相关。

比如章鱼，它们的大脑构造与人类大不相同，触手上分布着大量神经元，使得它们拥有惊人的空间感知力和操控能力，能够灵活地解决问题。再比如蜜蜂，单个蜜蜂的智力并不高，但由于每只蜜蜂的感知运动系统与群体分工完美契合，整个蜂群表现出了超强的集体智慧，能够高效地完成授粉、酿蜜等复杂任务。

由此可见， 智能是生物在长期进化中对环境的适应，是身体、大脑、环境共同塑造的“神迹”。

具身智能和我们所熟悉的机器人有什么区别呢？具身智能是一种智能理论和范式，强调智能行为依赖于身体和环境的互动，具有鲜明的身体性和情境性。而机器人则是这一理论在工程实践中的载体和试验田。

传统的机器人大多采用模块化设计，感知、规划、控制等功能相对独立，更多强调计算而非互动。但随着具身智能理念的兴起，越来越多的研究者开始探索新型机器人，让其拥有更加灵活、鲁棒、适应性强的身体结构，更加注重感知运动的作用，更加强调与环境的实时互动。

软体机器人、类人机器人、发展型机器人等就是这方面的尝试。总的来说，具身智能为机器人的设计和研发提供了新的思路和方法，而机器人的发展反过来也在检验和完善具身智能理论。两者相辅相成，共同推动着人工智能的进步。

那么，具身智能会给人工智能和机器人带来哪些变革呢？首先， 它有望突破传统人工智能的局限，让机器具备更强的环境适应能力。

通过视觉、触觉等多通道感知，机器人可以全面地理解周围世界，并根据环境的变化灵活调整自己的行为。这对于在复杂环境下作业的机器人，如深海探测器、火星探测器等，具有重要意义。其次，具身智能强调人机交互，让机器人拥有更自然、更高效的交互方式。