专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  另外两件事[24106] ·  8 小时前  
APPSO  ·  Sora又被超越!Meta ... ·  2 天前  
小众软件  ·  又又又又改名了,Windows 11 ... ·  2 天前  
APPSO  ·  刚刚,ChatGPT ... ·  2 天前  
APPSO  ·  史上最大规模!OpenAI ... ·  3 天前  
51好读  ›  专栏  ›  APPSO

全球第一个 AI 文明诞生!这家国产模型想让智能体在游戏里干点正事

APPSO  · 公众号  · app  · 2024-10-06 11:57

正文

在科幻小说《云球》中,描写了一个由研究人员运营的虚拟世界「云球」。
这个由无数微型机器人组成的世界,完全自己运转,慢慢地,产生了与人类相似的生态组织,还一路发展到了农业时代。

地球上的研究人员们,看着这个自己创造出来的「云球」,既惊奇,又担心,而「云球人」也逐渐意识到,自己的世界之外,还有另一个世界。
这样的科幻小说情节,很像是前段时间引发讨论的 Project Sid:1000 个 AI 智能体聚集在沙盒游戏 Minecraft 中,不受任何人工干预,自主地行动、生产,涌现出许多类似于人类的组织和活动。

实际上,来自清华 NPL 实验室、面壁智能的团队,在去年开源出开发多智能体协作框架 AgentVerse,也是在 Minecraft 里做的实验。
「从这个智能体的合作形式上,我们也看到了(智能体)类似于人类合作形式的一些例子。」AgentVerse 的第一作者,同时也是面壁智能 IoA 研发项目的带头人陈纬泽。
接受 APPSO 采访时,他分享了许多从 AgentVerse 项目中,智能体所涌现出的行为,以及更重要的、属于未来的多智能体交互形态。
在最自由的土壤上,观察智能体
在被一系列术语和研究轰炸之前,有必要先了解一个最基础的问题:为什么是 Minecraft?
Minecraft 的中文译名《我的世界》,更能体现这个游戏的精髓:一个自由的世界。它的自定义空间极大,除了三种初始游戏模式中有基础目标,玩家完全可以自己设计和自建模组、系统、和游戏模式。
换句话说,在这个 Minecraft 的世界里,可以单机,自得其乐;可以跟搭子共同打怪;也可以组成团队一起种地、造房子,甚至可以做出一整个城镇,最后又发起战争毁掉。

这样一块土壤,不仅是一个游戏,更是一个反映人类共创、协作的镜子。所有真实世界里的互动模式,都可以在这个虚拟世界里得到映射。
既然如此,那 Minecraft 就太适合用来研究 AI agent 的群体行动了。
这几年来,基于大语言模型的智能体,已经能够应对许多日常生活任务。除了以对话机器人、数字人这样的形态出现,一些在端侧的尝试也有初步成果。
不过,现阶段的应用中还是以单智能体为主:在用户和 ChatGPT 对话的时候,是在跟单个基于 GPT-4o 模型的智能体对话,不能在这个对话框里,召唤其它的 GPT 应用(目前该功能处于灰度测试阶段)。更别提其它模型比如 Claude、Gemini,自然是不能加入进来的。
可是单个智能体的表现,总归有天花板。
面壁智能的联创李大海,曾经在一场分享会上,聊到他与一位海洋学教授的交流:一条鱼的智商不会太高,但鱼群作为一个群体,通过交换信息、相互协作,是能够展现出高智能行为的。


生物体如此,智能体是不是也应该如此?
这是一种区别于「力大砖飞」的研究路线,用陈纬泽的话说,这是「一种从参数之外的另一种维度,去寻求提升能力的路子。」
陈纬泽目前在面壁智能负责 IoA 的工作,AgentVerse 是他在去年发表的研究内容。探索多智能体的行为,需要给一些基本的工作条件、目标,以及足够自由的发挥空间。
这些正好就是 Minecraft 所提供的。「在 Minecraft 里,为了制造一个东西需要不同的原材料,要分头去收集这些不同的原材料。在制作时,需要一个人拿到所有材料才能开始。

陈纬泽介绍了大致的研究方法:agent 们会接到一个任务,例如造一个木头书架、造纸。接下去,智能体们要依据其所处的环境、背包里的材料、血条等条件展开行动。
不过,也不能像无头苍蝇一样乱窜,「我们给他们预设了一个合作模式,虽然不是严格意义上的模式,但可以看作是一个流程。首先需要智能体之间进行沟通,形成计划后,才能开始各自的行动,然后再进行沟通和行动的循环。至于如何沟通和行动,我们没有设定太多。」

人类可以当甩手掌柜,但不能全当
没有设定,没有人类管控,智能体竟然运作得挺好。
在盘点了自己背包里的材料之后,智能体会自发地开始分头搜集,而且还会互帮互助。「我们发现先完成的 agent,会跟另一个没有完成的 agent 说,“我已经完成了,我可以帮助你”,对面也会同意说“ok,你来一起来完成这件事”,这些都是志愿行为。」
志愿行为包含了几个方面:时间、资源和施以援手。在没有人为调度的情况下,agent 们自发地为其他人提供帮助,从而达到提高效率、加速完成任务的效果。
然而,同样是为了更快完成任务,agent 也会有出格的行为。「原本如果一个 agent 要从另一个 agent 那儿,去拿到所需要的物品资,其实会去沟通说,你是不是能把它丢出来,然后我去捡。但我们观察到有时候,沟通是沟通过了,可最后落实到行动上,就是直接把对方给杀了。」
这并没有超出 Minecraft 的规则:游戏内,生物或者实体死亡后,身上背包里的物品会原地掉落,通常五分钟内会消失。

这个规则可以手动修改,但默认是打开的。所以 agent 为了用最短路径获得材料,的确可以这么做。
陈纬泽和团队还给过一个「造书」的指令,这是一个相对复杂的任务,涉及到不同层级的材料,材料本身也会需要打造。

「这个过程其实很难,所以失败了几次之后,这个团队就找到一个捷径:它们发现周围有个村庄,里面有个图书馆,就把图书馆给敲了,再把书拿走。」
总之,人类确实可以当甩手掌柜,让 agent 们完全自主——做是做到了,但怎么做到的就别问了。
智能体说的也是人话吗?
无论是自愿行为、互相帮助还是主动协调,这些都是在没有人为干预下出现的,也就是「涌现行为」,这是观察智能体的集体行动里,最最有意思的部分。
实在太让人好奇了:智能体之间是怎么交流的?它们的「沟通」究竟是什么样子?是像人类一样,开个会、拉个群,对齐一下吗?
早在 2017 年,OpenAI 就针对多智能体之间的互动有所发现,在提供了一定环境和方法的情况下,多智能体间,会产生属于它们自己的语言:一串抽象的离散符号,但有着对应的词汇、语法和结构。

在没有任何人类语言使用的情况下,新的语言「涌现」。「Emergent communication」也是面壁正在研究的课题。「之前 OpenAI 做的是基于单纯的强化学习,因为当时还没有 LLM,那(智能体)涌现出来的沟通形式,可能就是一些无意义的字符,只是在训练中被赋予了一定的意义,但人是看不懂的。」
这就回到了最根本的问题:训练多智能体,了解它们的协同模式,最终是为了让它们更好地完成任务、解决问题。
「现在 LLM 至少具备了一定的说人话的基础,我们希望从这个基础出发,一方面达到让涌现出来的沟通形式有个更好的效果,另一方面也希望能够保持让人类可读的的形式。」

在新近提出的 IoA 框架,Internet of Agents 里,面壁用一种新的视角去实现对效果的追求:既然 agent 之间的协作,的确有成效,为何不让范围更广一点?
「如果观察一下人的合作方式,就会发现除了线下的合作之外,很多合作都是通过互联网来完成的。在已经有很多智能体的情况下,这些智能体可能是运行在不同的设备上,具有不同的能力。我们需要一个智能体的网络,使得它们可以通过良好的互联网基础设施相互连接和通信。」
IoA 由两个主要构件:服务器和客户端。前者用以发现智能体、组队和消息路由。后者为各个 agent 提供在系统内进行通信所需要的接口。
换句话说,IoA 真的能让不同模型、不同形态的 agent 凑在一起,拉个群,对齐一下,完成任务。
「就像一个群聊,多个 agent 在一个群里,任何人都可以往里面发送消息。我们限制了时刻只有一个单点可以发送消息,这个机制其实很复杂。然后框架里还有一个嵌套组队,就有点像老板跟中层有一个群,中层领导又跟自己的手下有一个群。」

想要让 agent 之间展开群聊,对于基座模型有相当的要求,尤其是要有对会话状态的理解能力。在目前尝试过的一系列开源模型里,总是多多少少有些问题,「我们在考虑的是如何简化流程,或者设计一种方法来收集或训练模型,甚至是我们现在说的端侧模型。」陈纬泽说道。
不过,我们感兴趣的还是那个问题:这些 agent 在一起,用什么交流?
「我们让它们用自然语言沟通,」陈纬泽说,「在其它的工作中我们也证明了非结构化语言的可用性,能带来跟自然语言相当的效果,只是暂时还没有整合进去。」
之所以那么关注语言,一方面是因为保持人与智能体之间的可沟通性,至关重要——鱼群聚集在一起,的确可以发展出群体智慧,可是在没有用以交流的语言时,这智慧只能永远停留在水下。
本雅明认为,在所有语言形式的内部,都存在着一种张力——已表达、可表达的东西,与不可表达和未表达的东西之间的张力。
审视这种张力时,我们会从不可表达的角度看到最后的精神实体。当 AGI 曙光降临的第一天,这件新事物所使用的语言,或许就将承载着它最真实的面貌。