专栏名称: 混沌巡洋舰
混沌巡洋舰, 给您洞穿未来的视力。我们以跨界为特色, 用理工科大牛的科学思维帮你梳理世界的脉络。
目录
相关文章推荐
科普中国  ·  “中国天眼”到底是怎么实现观测的?原来...... ·  5 小时前  
科普中国  ·  常说这 5 句话的人,真的在爱情里更幸福 ·  昨天  
四川生态环境  ·  生态环境观察感言 | 张海龙:稻城对望余杭! ·  2 天前  
51好读  ›  专栏  ›  混沌巡洋舰

大语言模型“狂飙”,如何与具身智能领域紧密结合?

混沌巡洋舰  · 公众号  · 科学  · 2025-02-12 08:17

正文


本文摘编自《具身智能:人工智能的下一个浪潮》

刘云浩

封面

ChatGPT 以惊艳之姿闯入大众视野, DeepSeek惊艳全球, 人们 不断 惊叹于大语言模型的强大能力;紧接着, 2025 蛇年春晚舞台上,机器人扭秧歌的精彩表演又掀起一阵科技狂潮。从智能对话到灵活起舞,这背后都绕不开一个关键领域 —— 具身智能。在科技飞速迭代的当下,具身智能如何突破发展瓶颈?又将如何重塑我们的未来生活?让我们翻开 清华大学全球创新学院院长、自动化系教授兼博导刘云浩的新书 《具身智能 :人工智能的下一个浪潮 》,探寻其中的奥秘。

大模型如何 “接地”

最近,大语言模型的热潮席卷了整个技术界,也迅速与具身智能领域紧密结合。有人形象地说,引入大模型就像是给机器安装了一个新的大脑,似乎只要将其简单地嵌入,就能赋予机器全新的生命力。

先来说 “加 buff(增益)”的地方。

首先,大语言模型能够帮助智能体与人类以自然语言进行交流。人类能够直接说出任务要求,大模型能够对此进行编码并得到更加方便机器进行处理的语义表示形式。同样,大模型也能够根据智能机器当时的状态生成自然语言,反馈给人类。这正如我们所看到的 Figure 01 机器人与人类用户对话交流并执行任务的过程。

其次,大模型能够提供一些解决问题的 “常识”,或者说高层次的语义指导。例如,如果我们问它:“如何把大象装进冰箱?”大模型可能会输出:“拉开冰箱门,把大象放进去,关上冰箱门。”我们姑且不论这个方案的可行性如何,大模型确实是能够将解决问题的完整过程拆解成多个子步骤并且给出一个执行方案的。因此,大模型具备成为优秀的行动规划器的潜力。

最后,多模态大模型,例如预训练的视觉 —语言模型(Visual-Language Models,VLMs),能够为智能机器进行多模态感知和认知提供更为通用的选择。例如,CLIP 能够将视觉信息和文本映射到统一的表征空间,使得机器能够直接以视觉数据作为输入。3D-VLA 提出了一种新的三维视觉—语言—动作模型,它通过引入一个生成世界模型来无缝连接三维感知、推理和动作。与现有的基于 2D 输入的 VLA 模型不同,3D-VLA 更加贴近现实世界的 3D 物理环境。

当然,除了生成自然语言,大模型在未来也是能够生成可用的代码的。 Code as Policies 通过训练大语言模型来为机器编写策略代码。给定自然语言的指令,大模型生成一段代码,然后这段代码就可以在智能机器上运行,持续接收传感器的输入并输出行动指令。有研究证明,这种生成代码的方式比直接生成行动规划要更好。VoxPoser 也是使用了大模型来生成代码,然后这个代码与前面提到的视觉—语言模型进行交互,为后续的动作规划提供信息。

当前遇到的挑战

接下来我们说说当前遇到的挑战。大模型的一个显著缺陷就是缺乏现实世界中的经验。还是刚才说的,如果我们给大模型一个 “把大象装进冰箱”的任务,它可能会正儿八经地生成一段逻辑上合理的指导,却不会思考这样的步骤是否真的能实现。

为解决这一问题,谷歌的一项研究 SayCan 提出使用预训练技能,为模型提供现实世界的知识基础,这样大语言模型输出的内容就被约束在这些预训练技能对应的范畴内。这种方法有点类似于我们为大模型准备好了很多能够执行的 API(应用程序编程接口),然后大模型通过调用它们完成行动。在这种配置中,智能机器充当模型的“手和眼”,执行具体任务,而大语言模型则负责提供关于任务的高级语义指导。GLiDE 尝试在大模型的语义和智能机器在物理世界的行动轨迹之间建立关联,这个过程使用了人类的演示数据,这样系统就能够将自然语言的任务指令翻译为机器的具体行动序列。

刚才讨论的一些方法很多都是利用其他应用领域预训练好的大模型,因此需要进行额外的 “接地”操作,即从大模型输出的符号(语言、代码等)转换到物理世界的行动。而谷歌的 RT 系列大模型,通过端到端的训练一步到位输出行动序列。在 RT—1 中,谷歌科学家首次提出一个模型类,叫作 Robotics Transformer(RT)。RT—1 的设计思路秉承了大模型“力大砖飞”的理念,也就是说,模型容量大,可以吸收大量的各类数据,也可高效地泛化。

之后的 RT—2 似乎不满足之前的训练力度,于是将基于互联网规模数据训练的一个视觉—语言模型直接整合到端到端机器人控制中,进一步提升模型的泛化能力。

2024 年新推出的 RT—H 开始走分层路线,提出行动层级(action hierarchy)的概念,将复杂任务分解成简单的语言指令,然后将这些指令转化为机器人的行动,以提高任务执行的准确性。

例如,以 “盖上开心果罐的盖子”这一任务和场景图像作为输入,RT—H 会利用视觉—语言模型预测语言动作,如向前移动手臂和向右旋转手臂,然后根据这些语言动作,输出具体的机器行动。这个过程允许人类的干预,人 类的修正也能够帮助机器进行学习。

可以这么说,大模型作为目前人工智能领域的一个方法论,必将成为具身智能发展的重要推动力。我们有理由相信,不久的将来,具身智能体将具备执行通用任务的能力和强大的学习能力,它们将能够更深入地理解我们的世界,并以前所未有的方式参与其中。

至少,在回答 “如何把大象装进冰箱”这一问题时,一个“充满人性”的具身智能体可能会这样回答:“首先,我们需要确认大象是否有意愿被关进冰箱里;其次,考虑到大象的体量,我们可能需要一个特制的大型冰箱;最后,确保在关上冰箱门之后,大象拥有足够的空间和舒适的环境。”

大语言模型赋能智能体 的尝试

2023 年, 斯坦福大学和谷歌的研究者基于大语言模型,构建了一个 由 25 个人工智能体组成的虚拟小镇。这个斯坦福人工智能体虚拟小镇成了当年最激动人心的人工智能体实验之 一。与以往讨论单个大语言模型的能力不同,多个人工智能体的存在使交互变得更加复杂和引人入胜。这项工作的核心在于记忆流(Memory Stream)技术,它使得智能体能够以自然语言的形式保存和检索大量的经历。每个智能体都能够根据自己的记忆流来规划行动,这不仅增强了它们的决策能力,也为它们提供了一种独特的自我表达方式。

研究者为每个智能体设计了详细的背景故事,这些故事用自然语言编织,描述了智能体的职业、人际关系以及它们在虚拟社会中的角色。这些信息构成了智能体的 “种子记忆”,塑造了它们的个性和行为模式。

以林约翰为例,他是柳树市场药店的热心店主,致力于为顾客提供便捷的药品服务。林约翰与他的妻子林梅伊 —一位博学的大学教授,以及他们对音乐理论充满热情的儿子埃迪共同生活。此外,林约翰还与邻居萨姆·穆尔和珍妮弗·穆尔这一对和蔼的老夫妇保持了多年的友好关系。

在这个虚拟世界中,智能体通过一系列行动与环境互动。每一个动作都伴随着描述其当前行为的语言输出,例如 “林约翰正在帮助顾客选择合适的药品”,这些描述随后转化为可以实际影响虚拟世界的具体行动。

智能体还能以自然语言进行交流。当它们感知到周围 有其他智能体时,它们会做出反应并进行互动。例如,伊 莎贝拉和汤姆就小镇即将到来的选举进行了深入讨论。伊莎贝拉说: “我还在考虑选谁,一直在和萨姆·穆尔讨论选举的事情。你对他怎么看?”而汤姆则回答说:“老实说,我不太喜欢萨姆·穆尔。我觉得他与社区脱节,没有真正 把我们的利益放在心上。”

小镇中提供了许多常用设施,如咖啡馆、酒吧、小公园等,每个公共场景都定义了具有功能的子区域和其中的对象。智能体在小镇中自由漫游,与环境互动,从而影响环境状态。例如,它们可以拿光冰箱里面的食材来做一顿早餐,此时冰箱就会变空。

我们可以观察到社会行为的自然涌现,例如,智能体通过互动交换信息,逐渐形成新的关系网。这些社会行为不是预设的脚本,而是动态生成的。比如,在杂货店偶遇时,萨姆和汤姆的一段对话可能会触发一连串的社交活动。在这次对话中,萨姆透露了自己在即将到来的当地选举中的参选意向。很快,萨姆的候选资格成了小镇上的热门话题。

随着时间的推移,小镇的居民之间也建立了新的联系。例如,萨姆在约翰逊公园散步时遇到了拉托娅。他们互相做了自我介绍,拉托娅提到了她正在进行的摄影项目。在后续的交往中,萨姆时常询问这个项目的进展,显示出了对拉托娅的持续关注。

同时,伊莎贝拉作为 Hobbs 咖啡馆的经营者,计划在 2 月 14 日情人节当天下午举办一场派对。她从这个计划的种子想法出发,向遇到的朋友和顾客发出邀请。她的好友玛丽亚也加入了准备工作,并邀请了她暗恋的对象克劳斯一起帮忙布置派对。情人节当天,5 名小镇居民于下午 5 点钟聚集在 Hobbs 咖啡馆,共同享受了这一欢庆活动。

如果说斯坦福虚拟小镇中发生的故事更多是以语言的形式来表达, Minecraft 这款高自由度的沙盒游戏则给了具身智能体真正的发挥空间。例如,由英伟达和加州理工大学等机构的研究人员设计的 VOYAGER 智能体,尝试在Minecraft 世界中进行自我探索和学习。

Minecraft 提供了一个开放的游戏世界,要求玩家探索广阔的三维地形,并利用收集的资源解锁“科技树”(在电脑游戏中,选择发展不同的技术升级方向,会导致不同的结果,通常用树状图表示)。玩家通常从学习基础知识开始,如开采木材和烹饪食物,然后推进到更复杂的任务,如打击怪物和制作钻石工具。

你会发现,一个有效的虚拟智能体拥有着与人类学习进化过程中类似的能力:( 1)能根据其当前的技能水平和世界状态提出合适的任务,例如,它如果发现自己处于沙漠而不是森林中,就会先学习收获沙子和仙人掌;(2)能根据环境反馈来完善技能,并将掌握的技能存入记忆,以便将来在类似情况下重复使用(例如,打击僵尸与打击蜘蛛是类似的任务);(3)不断探索世界,以自我驱动的方式寻找新任务。







请到「今天看啥」查看全文