本文介绍了面壁智能推出的互联网智能体协作框架IoA(Internet of Agents)。IoA是一个受互联网启发的智能体通信和协作通用框架,允许智能体之间互相发现、大规模连接和协作。通过引入四大核心机制,IoA解决了多智能体协作的三重限制,并在多项任务上进行了实验验证。文章还讨论了IoA对未来智能体协作和生活方式的影响,以及可能引发的未知领域的“智慧大爆炸”。
面壁智能从去年开始预见智能体互联网(IoA)的趋势,并且迈出了第一步。IoA的诞生是为了解决多智能体协作的三重限制,即只允许接入框架内部定义的智能体、大多数多智能体系统在一个设备上模拟多个智能体以及沟通和多轮的信息交换的不灵活等问题。
IoA的核心由两个主要组件组成:服务器和客户端。服务器作为中心枢纽,管理智能体注册、发现和消息路由。客户端则作为单个智能体的包装,提供必要的通信功能。IoA的四大核心机制包括智能体注册与发现、自主嵌套团队组建、自主会话流程控制以及任务分配与执行任务。
IoA在GAIA基准测试、开放式指令基准测试、具身智能体任务和检索增强生成等多个任务上进行了实验验证,结果显示IoA在协调智能体协作方面表现卓越。
IoA的远景是创造出一个智能体可以互相发现、自由交互的开放空间,从而引发人类生活方式的全面变革。此外,IoA还可能通向某个未知领域,引发“智慧大爆炸”。
你看过《AGI 技术 50 人》吗?
在面壁智能 CTO 曾国洋的采访中,我们曾介绍了这位把 AGI 当成“玩”的 26 岁清华天才。他在公司内部搞了各种各样的
智能体
(
Agent
)玩耍。比如,为了更高效地读论文,做了个自动推荐论文的智能体;为了避免选择困难症,把公司楼下固定会去的比较下饭的满盆香川菜馆的菜单喂给模型,给了些荤素搭配等的要求,生成今日推荐,解决了「今天吃什么」这个难题。
本文要介绍的不是曾国洋本人,而是和他一样“爱玩”的面壁智能,最近又捣鼓出了一件很酷的事情。
点击图片阅读
采访全文
曾经有一种说法:AI Agent 是大模型落地最有可能的最终形态,它们有不同的能力、运行在不同的设备,Agent 不同于大语言模型(LLMs)这种被动的、一问一答的云端“工具”,它融合了大模型的能力,还能够解决实际的问题。
就像互联网时代刚兴起的建站,Agent 就是落地的一个个承载了不同需求、有用的各类网站。
但问题是,Agent 之间互相发现、自由注册、大规模协作上,一直没有那个承载的基础设施“互联网”。
面壁智能从去年就开始预见,
Internet of Agents (IoA)—— “
智能体互联网
”
的趋势,并且真的迈出了第一步,Agent 之间互相发现,大规模连接、协作,可能不再是障碍。
IoA 论文地址:
https://arxiv.org/abs/2407.07061
IoA 开源地址:
https://github.com/OpenBMB/IoA
融合了大模型能力,具有感知记忆、自主规划、调用工具、执行任务能力的Agent,被称为智能体。这些智能体可能有不同的架构、运行于不同的设备、有不同的能力,同时在数量和功能上飞速演进,但目前单个智能体更多处于“孤岛”的相对隔离状态,智能体之间的互相发现、大规模自由协作,还没有先例。之前,多智能体协作的“工作流”(
workflow
),尽管已经显示了巨大的应用潜力,却依然存在着三重限制:
为了跨过这些障碍,面壁智能联合清华大学 NLP 实验室,正式推出了 LLM 驱动的智能体互联网(Internet of Agents, IoA),这是一个受互联网启发的智能体通信和协作通用框架。简单来说,
IoA 创建了一个可以自由注册、互相发现的 Agent 协作平台
,并且让智能体之间协作再向上构建,对原来 Agent 协作工作流(Work Flow)进行三个方向扩容,跨设备、更多异质 Agent 开放互联、协作组织方式高度灵活,从而
在更高维度上形成智能体互联网 Internet of Agents(IoA)。
IoA 一经发布,也获得了全球范围内开发者的持续关注和讨论。
IoA 属于平台创新:
loA 为异构智能体的协作提供了一个灵活且高效的平台
。loA 本质通过引入一个能够集成不同第三方智能体的协议,以及类似即时通讯应用的框架来促进智能体在平台上发现其他智能体并动态组队。
IoA 的核心由两个主要组件组成:
服务器
和
客户端
。
服务器作为中心枢纽,管理智能体注册、发现和消息路由,确保具备不同能力的智能体能够互相发现并发起通信。
客户端则作为单个智能体的包装,提供必要的通信功能,并适应指定的沟通协议。
loA 对于现有 Agent 智能体协作“工作流”和应用方式有三项重要突破:
大多数多智能体系统在一个设备上模拟多个智能体,这与现实场景相悖。IoA 支持分布在多个设备和位置的智能体通过网络进行协作。
大多数多智能体系统只允许接入框架内部定义的智能体,而 IoA 允许开发者通过为现有智能体实现一个 adapter 接入到 IoA 的客户端中并注册到 IoA 服务端,扩展系统内智能体的能力多样性。
大多数多智能体系统的沟通机制单一,或者需要用户进行指定。IoA 将沟通阶段抽象为 5 个阶段:讨论、同步任务分配、异步任务分配、暂停等待任务完成、总结,通过有限状
态自动机实现了自主会话流程控制机制,允许智能体根据任务需求和进展自适应调整协作策略。
loA 的突破,主要得益于四大核心机制的建立:
机制一,智能体注册与发现
为了实现分布式的异构智能体协作,我们借鉴了即时通信软件中用户可以进行注册并被其他用户通过关键词搜索到的机制,提出了智能体注册与发现机制。
-
智能体注册
:当一个新智能体加入 IoA 时,他所属的客户端需要向服务器发送注册请求。在注册中,我们要求智能体应提供其能力、技能和专长领域的详细描述。这些描述被存储在服务器的数据层中的智能体仓库模块中。
-
智能体发现
:
智能体发现功能利用存储在智能体仓库模块中的信息,使智能体可以为特定任务找到合适的协作者。
当一个智能体需要组建团队或寻求帮助时,它可以使用服务器的智能体查询模块进行搜索。
通过匹配搜索条件和智能体描述,确保相关能力的智能体能够被发现。
机制二,自主嵌套团队组建
自主嵌套团队组建机制实现了根据任务需求动态灵活地组合合适的智能体。该机制允许智能体根据任务需求自适应地组建团队,并为复杂、多方面的任务创建嵌套子团队。
嵌套组队机制
机制三,自主会话流程控制
有效的通信对于成功的协作至关重要。受言语行为理论(Speech Act Theory)启发,我们在 IoA 中引入了自主会话流程控制机制。该机制使智能体能够协调其通信,并保持结构化对话,提升协作的效率和效果。
-
顺序发言机制
:为管理潜在的冲突并确保清晰的沟通,IoA 采用了基本的顺序发言机制。在任何给定时间内,只有一个智能体可以发言,防止混乱并保持通信顺序。尽管简单,但当搭配上下面的有限状态机,仍可以构成灵活但相对可控的自主对话流程。
-
群组聊天状态的有限状态机
:
如下图所示,我们将会话流程形式化为一个有限状态机,每个状态对应协作过程的不同阶段。
通过状态转换,智能体能够根据任务需求和进展灵活调整会话状态。
完成任务过程的有限状态转移示意图
通过实现这些关键机制,IoA 实现了智能体之间的结构化、高效的通信和协作。这种方法允许智能体根据协作需求动态调整,促进在复杂多智能体场景中的更有效的问题解决和决策。
机制四,任务分配与执行
任务分配与执行机制旨在高效地在智能体之间分配工作,并管理简单和复杂任务的执行。该机制与团队组建和会话流程控制机制协同工作,确保协作和任务完成。
通过集成任务分配与执行与团队组建和会话流程控制机制,IoA 提供了一种灵活和高效的方法来管理复杂的多智能体协作。该方法允许动态任务分解、专门智能体分配和协调执行,使系统能够有效地解决各种问题。
IoA 与其他智能体协作“工作流”关键特性对比
为了展示
IoA
在整合异构智能体方面的有效性,
loA
在多种任务上进行了全面的实验。
这些实验旨在展示智能体异质性的不同方面,包括工具多样性、架构多样性、不同的观察和动作空间,以及不同的知识基础。
异构工具:GAIA 基准测试
GAIA 是 Meta AI 提出的一个 Agent 能力基准测评,包含需要推理能力、网页浏览、代码计算等多方面能力的多样化任务。通过仅接入最基础的 4 个 ReAct 智能体(分别配备有网页浏览器、代码解释器、wikidata 查询工具以及 Youtube 字幕下载器),IoA 在 GAIA 基准测试中的表现显著优于现有方法。尽管仅使用了基本的 ReAct 智能体,IoA 在整体性能上仍然达到最高,并在需要高级推理和复杂协作的更高难度级别中表现尤为突出。