在 2025 年 3 月 5 日在第十四届全国人民代表大会第三次会议上的政府工作报告中,特别提到了“具身智能”。
图片截自中华人民共和国中央人民政府网站 www.gov.cn
那么具身智能到底是什么呢?
回想我们看过的科幻电影,经典的机器人角色有很多——从冷酷强悍的杀手,到矫健的拳击运动员,从稳重冷静的维修工,到神烦碎嘴的礼仪官……不过,这些作品中的想象很美好,但实现起来真的很难——甚至光是让机器人像人那样迈开两条腿走路,都历尽坎坷。
反观我们人类的小宝宝,成长过程中也没有人给他们编什么程序,经过多次尝试和摔倒之后,他们自己就学会了爬和走,很快就能跑得飞快并躲开障碍。而“具身智能”技术,就参考了这个过程——
这项技术能让机器人像人那样,用身体感知世界,在互动学习中成长。
具身智能,英文全称是“Embodied Artificial Intelligence”,从这个全称我们可以看出,其实具身智能这个词中的“智能”就是“ AI ”
(人工智能)
的意思。而说到 AI ,大家早都不陌生了,从 ChatGpt 到 DeepSeek ,都是 AI
的一种
。它们就像没有身体的“大脑”,虽然能从外部接收数据并解决问题,
但它们作为没有身体的软件系统,缺乏通过身体与环境交互的能力和反馈机制。
举个例子,下围棋的 AlphaGo ,就必须有一位工作人员在场上帮它落子,因为 AlphaGo 是个纯算法系统,尽管能在服务器上快速训练成千上万场棋局,甚至能够战胜世界冠军,但它自己甚至根本不具备在真实世界中拿起一枚棋子的能力。
而具身智能机器人,则能通过摄像头、触觉及其他传感器等“感官”收集环境信息,并用肢体与环境互动,进而形成“感知-行动”的闭环。
了解了上面的信息,再解释具身智能相关的概念就比较容易理解了,所谓“具身智能”是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。总结一下,
具身智能就是“能够感知、推理并与物理世界互动的智能系统”
。而具身智能机器人,可以视为具身智能系统的载体。
那么,“具身智能机器人”可以简单理解为“给 AI 套了一具身体”或“给机器人装上了一个 AI ”吗?这种认识也是不全面的。举个例子,现在有一些机器人产品,能够做一些简单的动作,也连上了 AI ,甚至可以跟人聊得有来有回,但它们仍然不能算是具身智能。
这是因为它缺少了至关重要的一环,也就是“具身智能”中的“具身性”
(Embodiment)
。
而具身性的核心在于,智能必须通过物理身体与环境的实时交互和动态反馈来生成,而非依赖预设程序或离线数据,
要靠深度融合人工智能与机器人两大前沿技术才能实现这个目标,简单“拼”在一起是不行的。
其实现在已经有很多机器人在帮助人类劳动了,但很多机器人工作的时候依赖预先编好的程序,我们经常能看到工厂生产线中的机械臂
(也是机器人的一种)
,它们高效默契地运行,能有条不紊地进行搬运、焊接等工作。这类机械臂通常高度依赖编程行动,虽然可以分毫不差地运行,也集成了一些基本的传感器以便了解工作状态,但遇到突发情况却仍然“不懂”避让行人(
在无需工人的生产线上通常也没有必要)
。
这也是为什么很多工厂的机械臂操作区都要装上隔离网,标上警戒线。因为这些机械臂工作时“只认程序不认人”,虽然有大量安全相关的措施和规章制度保障,但如果有人疏忽大意踏入它们的工作范围,仍可能发生悲剧——面对严格按程序从 A 点运动到 B 点的机械臂,挡在路上的人体实在太脆弱了。
试想一下,你敢让这样一个一个“只认程序”的机器人,走进你的家中,帮你打理家务,照顾老人小孩吗?当然,
现在很多流水线上用的工业机器人也有了碰撞检测等功能,变得更加安全,但它们仍然是按预设程序执行
,缺乏动态学习能力,更适合执行简单的重复任务。而一旦面临复杂的环境和任务,只靠预设程序是行不通的,因为在复杂环境下,很难穷尽所有的规则。
这里再举个例子,在汽车制造业中,诸如搬运物料、抛光、焊接、喷漆等加工工序,大部分可以用机器人轻松完成。但是到了发动机、底盘、电器等装配工序,大部分工作仍难以用机器人完成,
因为这些工作更加复杂,更需要“随机应变”以及沟通合作,机器人还无法胜任,需要人工。
而具身智能,则更加灵活,具有适应环境解决复杂任务的潜力,要想让机器人实现更加广泛的应用并走进千家万户,需要发展具身智能。
由于具身智能和机器人的技术非常复杂,也有很多不同的技术路线,下面仅以具身智能开源学习项目 LeRobot 为例,简单介绍一下具身智能机器人的基本特点。
假设我们的任务目标是让机械臂捡起黄色的小积木块,再放进盒子里。我们可以编程序直接“命令”机械臂严格按照规定路径和动作运行——很多生产线上的工业机器人正是如此,