1950年,“计算机之父”图灵(Alan Turing)在他的论文中首次提出“具身智能”概念。严格意义上,机器人、工业机器人、拟态机器狗、智能网联车,都是“身”,但人形依然是人类接受度最高的机器人形态。
从硬件条件上看,不少人形机器人已经具备相当高的肢体灵敏度。比如,人形机器人(上海)有限公司自主研发人形机器人“青龙”,身高185cm、体重80kg、全身多达43个主动自由度,手指可以轻拿轻放杯子,即便是柔软的面包,也能在抓起时保证面包外形的完整性。
上海开普勒探索机器人有限公司的通用人形机器人,身高175cm,体重70kg,全身具备40个关节自由度、80多个传感器,具备复杂地形行走、智能规避障碍等多种功能。
国家地方共建人形机器人创新中心总经理许彬一直有一种略带激进的看法:具身智能是通往通用人工智能的必由之路,而且只有人形机器人才能实现通用人工智能,核心逻辑是人类社会存在的所有数据,都是为了让人类更好地生存和发展,所有对世界的理解、认知和情感的数据,都是基于人体产生,而猫或鱼等其它生物本体,不可能感知到人类世界的各个方面。
至少在现阶段,具身智能尚不完全具备对物理世界的认知和交互能力,尤其是目前类GPT模式的大模型,在用于具身智能时,效果并不理想。
一家国产人形机器人创始人透露,之前曾将GPT-4V的图像接口接入机器人,但大模型对物体的空间认知能力非常差,而且“记忆力”只有一秒。全球人工智能顶级科学家李飞飞也认为,大模型不具备知觉,参数再多也不行。
“我们需要构建一种‘知识+数据’驱动的智能模型,”中国工程院院士、同济大学校长郑庆华创新性地提出“知识森林”理论,将大模型中的碎片化知识与人类已有的知识链融合,从而生成具有可解释推理的问题求解机制。
上海人工智能实验室主任、首席科学家周伯文也认为,具身智能绝不仅仅是大模型加机器人的应用,而是大模型接收物理世界的反馈从而进化,“光靠看书或看视频,永远学不会游泳,你得亲身扎到水里才能学会。大模型得通过机器人,扎进现实世界,才能真正理解物理世界。”
世界模型是当前具身智能领域最热门的词语。人工智能实验室构建了“软硬虚实”一体的机器人训练场——浦源·桃源,同时攻关具身智能的“大脑”与“小脑”。“浦源·桃源”是首个城市级具身智能数字训练场,构建了集场景数据、工具链、具身模型评测三位一体的开源具身智能研究平台。作为大模型与机器人的连接层,涵盖89种功能性场景、超10万高质量可交互数据,有望解决领域内数据匮乏、评测困难的问题。
在大脑方面,人工智能实验室通过具身智能体自身状态认知、复杂任务分解分配、底层技能协同控制三方面创新,实现了大模型驱动的无人机、机械臂、机器狗三种异构智能体协同。在小脑方面,通过GPU高性能并行仿真和强化学习,可以高效实现机器人在真实世界里快速学习,并完成高难度动作,现在单卡1小时的训练就能实现真实世界380天的训练效果。
尽管完美匹配智能本体的世界模型还未出现,但具身智能近两年的发展已经远超从业者预期。
不久前,特斯拉CEO马斯克在年度股东大会上表示,特斯拉将于2025年开始“限量生产”Optimus(擎天柱)人形机器人,明年特斯拉将有上千台在运行的Optimus机器人。达闼更是在现场预售起具身智能人形机器人XR4,价格39.9万元起。
宇树科技CEO王兴兴认为,最迟明年年底之前,全球范围内一定会出现比人跑得快的人形机器人,“比如说100米跑进10秒,在体育项目和文艺演出上,人形机器人比做家务应该更得心应手。”
许彬对技术的迭代速度乐观地判断道,未来3~5年,人形机器人可以在一些工厂智能制造产线运行,未来5~10年可以在家庭服务等场景运用。