专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

AI Lab、港中文提出G-Designer，首个基于GNN的群体智能拓扑设计师

PaperWeekly · 公众号 · 科研 · 2024-10-23 13:17

正文

©PaperWeekly 原创 · 作者 | 张桂彬

单位 | 上海AI Lab & 同济大学

研究方向 | 群体智能

随着基于大型语言模型（LLM）的智能体（agents）的发展，人们越来越意识到单个智能体的局限性。通过将多个 LLM 基础的智能体组合成一个团队，可以展现出类似于人类团队合作的集体智能（collective intelligence），从而在处理复杂任务时超越单个智能体的能力。

这种群体智能的出现，很大程度上是由智能体之间的拓扑结构设计所驱动的，即智能体如何连接、传输、交换信息。

如图 1 所示，尽管现在已经有了许多基于启发式的拓扑结构（如链状、星形、二叉树结构等）和更为复杂的动态可优化结构（如 LLM-Debate [1]、DyLAN [2]、GPTSwarm [3] 等）用于指导基于大语言模型的多智能体系统（LLM-based multi-agent system），实践者往往难以轻松地识别出最适合手头任务的最有效的多智能体拓扑结构。设想以下两个任务：

10 有多少因数？
请你从后端数据库到前端网页全面实现一个类似于 openreview 的审稿平台

很显然，上面两个任务的复杂度天差地别，所需要的多智能体系统也会有显著的区别：前者只消一两个 GPT-3.5 级别的 agent 即可轻松完成，后者则显然需要复杂的分工、检查和迭代优化。问题就出现在这个地方：我们怎么避免冗杂的枚举，快速获得适配当前任务复杂度的通信拓扑结构呢？

为了满足这个目标，上海人工智能实验室联手香港中文大学、中国科学技术大学、同济大学等单位，提出了 G-Designer，它是一个自适应、高效且鲁棒的 LLM 驱动的多智能体通信图设计师，能够动态地为不同领域和任务定制设计通信拓扑。

论文标题：

G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks

论文链接：

https://arxiv.org/pdf/2410.11782

代码链接：

https://github.com/yanweiyue/GDesigner

背景介绍

近年来，基于大型语言模型（LLM）的智能体在多个任务中展现出了卓越的性能，尤其是在推理、代码生成乃至于更复杂的自动驾驶等领域。研究表明，多个 LLM 智能体的协作能力能够显著超越单个智能体的表现，这种现象被称为群体智能。群体智能的形成主要依赖于智能体之间精心设计的通信拓扑结构。

在实际应用中，研究人员和开发者面临着如何选择最“合适”的通信拓扑以满足特定任务的挑战——“合适”可以从两个角度出发：一个是任务完成度，也即系统是否可以良好地完成用户的请求；另一个是经济成本，也即系统的复杂程度应当与任务本身的复杂度匹配，过于复杂的系统用于解决及其简单的问题无疑会造成不必要的通讯成本（token 消耗）。

下面基于 MMLU 数据集的两个子集给出了示例，如图 2 所示：

▲ 图2 在 MMLU benchmark 的两个子集上不同拓扑的 token 消耗以及性能比较

Easy case：在处理 MMLU 的 Highschool Biology 这一简单子集时，链式结构的表现与复杂的 GPTSwarm 结构相当，但前者的通信 token 开销却显著更低，仅为 0.5k，而后者则高达 7.8k。在这样简单的设置中，链式结构是更经济的选择。
Hard case：在 College Mathematics 这一难度较高的任务中，GPTSwarm 更复杂的拓扑优化超越了链式结构，提升了 8.75% 的准确率。

这种现象突显了不同通信拓扑在不同任务中的适用性和有效性。因此，如何为特定任务选择或设计最优的通信拓扑成为一个非平凡，且时常令人困惑的问题。

G-Designer 为这个困惑提供了一个从图神经网络视角出发的优雅进路。G-Designer 通过将多智能体系统建模为多智能体网络，利用变分图自编码器对智能体及任务特定的虚拟节点进行编码，从而解码出任务自适应且高效的通信拓扑。

G-Designer

在本文中，我们提出了一种名为 G-Designer 的新型多智能体通信拓扑设计框架，旨在通过图神经网络动态构建针对特定任务的定制化通信拓扑。G-Designer 的核心思想是将多智能体系统建模为一个多智能体网络，利用变分图自编码器（VGAE）对智能体（节点）及其特定任务信息进行编码和解码，从而生成适应任务需求的通信拓扑。

G-Designer 的整体框架如图 3 所示：

▲ 图3 G-Designer 的设计流程

2.1 多智能体网络背景

我们将多智能体系统表示为一个有向图，其中代表智能体节点集合，代表智能体间的通信边集合。每个智能体由以下四个关键元素组成：

：支持 agent ( v_i ) 的 LLM 实例。
：agent 的预分配角色或功能。
：代表 agent 的累积知识和交互历史。
：agent 可使用的外部工具或插件集合，例如 Web searcher、Code compiler 或者 File reader 等。

每个智能体接收系统提示和用户提示，并生成响应：

其中，

代表包含角色和状态的系统提示，而可能包括给定的任务、来自其他智能体的响应/指令以及外部检索的知识。

2.2 多智能体网络构建

我们首先为每个 agent 节点构建维的节点特征：

并为任务描述的 query 建立一个“虚拟节点” ，其节点特征为：

我们设置一个初始的锚点拓扑，其可以是一个很简单的链式结构，用于注入标准多智能体协作流程的先验知识。考虑了任务虚拟节点的拓扑被记作

，于是我们便获得了一个任务特定的多智能体图结构：

2.3 通信拓扑设计

基于任务特定的多智能体网络，G-Designer 旨在建立更加精细的通信拓扑结构。Designer 采用了变分图自动编码器（VGAE）风格的框架，采用 VGAE 来生成多智能体的交互拓扑，公式如下：

其中是带有参数的编码器-解码器架构，是编码器模块，是解码器模块。编码器将节点嵌入编码为低维隐变量表示，公式如下：

解码器使用隐变量生成多智能体的通信拓扑结构：

最终的通信拓扑由下式给出：

2.4 优化G-Designer

在得到后，多智能体的对话和信息交互便基于的指导进行。经过轮交互，智能体收敛到最终解。优化目标为：

为解决不可微的优化问题，我们采用策略梯度方法进行近似优化：

通过这种方法，G-Designer 能够自适应地为不同的任务和领域设计出高效、鲁棒的通信拓扑，为自组织、自进化的多智能体系统的建立和部署提供了一种全新的解决方案。

实验分析

G-Designer 与其它单智能体方法（如 CoT、ComplexCoT 等）以及多智能体方法（如 DyLAN、GPTSwarm 等）在六个基准数据集上进行了测评，结果如图 4 所示：

▲ 图4 G-Designer 的实验评估

我们还比较了 G-Designer 与其它多智能体协作系统的 token 消耗，结果如图 5 所示。实验证明 G-Designer 可以通过与任务复杂度适配的拓扑结构设计显著地减少 token 使用，可以在各类 benchmark 上以 SOTA 方法 20%~40% 的 token 消耗量超越 SOTA 的性能。

我们还对 G-Designer 在不同 benchmark 上所设计出来的拓扑结构进行了可视化，结果如图 6 所示。可以观察到，由 G-Designer 生成的多智能体拓扑高度依赖于具体任务的上下文及其难度。

在案例a中，尽管有五个 GPT-4 代理可用于设计资源，G-Designer 注意到了设计strlen(string)函数的任务相对简单——它通过移除不必要的 agent（如 “Bug Fixer”和“Test Analyst”）简化了拓扑，仅保留了 “Algorithm Designer → Programmer” 的最小结构来解决问题。

相比之下，在更复杂的案例 c 和案例 e 中，G-Designer 构建了更为复杂的通信图。这些案例突显了 G-Designer 在设计任务感知与任务适应多智能体系统的强大能力。