专栏名称: 夕小瑶的卖萌屋
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
目录
相关文章推荐
51好读  ›  专栏  ›  夕小瑶的卖萌屋

Multi-Agents 系统太难搞了,不要轻易尝试 | UC Berkeley 论文分享

夕小瑶的卖萌屋  · 公众号  ·  · 2025-03-27 22:03

正文

请到「今天看啥」查看全文



这两年,AI 领域最激动人心的进展莫过于大型语言模型(LLM)的崛起,LLM 展现了惊人的理解和生成能力。

在此基础上,一个更宏伟的构想应运而生:构建 多智能体系统(Multi-Agent System, MAS)

想象一下,不再是单个 AI 孤军奋战,而是一个 由多个专门的 AI 智能体组成的“梦之队 ”,它们各自拥有特定技能(如编码、设计、测试、沟通),通过协作来完成复杂的、多步骤的任务,比如开发一款软件、进行科学研究,甚至模拟人类社会行为。

这种 “群体智能 ”的潜力令人遐想:任务分解、并行处理、专才专用、集思广益……

理论上,MAS 应该能解决单个 LLM 难以应对的宏大挑战,实现“1+1 > 2”的效果。然而,现实却有些骨感。

图片

尽管业界对 MAS 热情高涨,但在许多基准测试中,这些“AI 梦之队”的表现相比单个智能体框架,提升效果甚微,有时甚至更差。这不禁让人发问:

为什么这些看似强大的 AI 团队,在实际运作中却常常掉链子?

这篇论文来自 加州大学伯克利分校 (UC Berkeley), 首次对这个问题进行了系统性的、深入的研究。

研究者们并没有简单地将失败归咎于 LLM 本身的能力局限(比如“幻觉”或“对齐”问题),而是将目光投向了 MAS 系统设计和智能体之间交互的复杂性

他们通过对五个流行的 MAS 框架、超过 150 个任务执行过程的详细分析,提出了一个名为 MASFT (Multi-Agent System Failure Taxonomy) 多智能体系统失败分类法 ,系统地揭示了这些系统失败的根源。

图片
  • 论文链接:
    https://arxiv.org/pdf/2503.13657
  • 论文标题:
    Why Do Multi-Agent LLM Systems Fail?
  • 研究团队:
    加州大学伯克利分校 (UC Berkeley)
  • Github 链接:
    https://github.com/multi-agent-systems-failure-taxonomy/MASFT

背景知识:什么是 LLM 智能体和多智能体系统 (MAS)?

在我们深入探讨失败原因之前,先快速了解一下关键概念:

1.大型语言模型 (LLM):

可以将其理解为一个极其强大的“大脑”,通过在海量文本数据上训练,学会了理解和生成人类语言,甚至具备一定的推理、规划能力。

2.LLM 智能体 (LLM-based Agent):

这不仅仅是 LLM 本身。一个 LLM 智能体通常是“ LLM 大脑 + 特定指令/角色设定 + 记忆(对话历史)+ 行动能力(如使用工具、调用 API) ”。

你可以把它想象成一个被赋予了特定身份和工具的智能助手,比如一个“AI 程序员”、“AI 研究员”或“AI 客服”。它能根据任务需求,动态地与环境(如互联网、软件工具)交互,并根据反馈调整行为。

3. 多智能体系统 (MAS):
这是由 多个 LLM 智能体组成的集合。这些智能体被设计成可以相互沟通、协调,共同完成一个更大的目标。设计 MAS 的初衷是为了利用“分工协作”的力量,例如:

  • 任务分解: 将复杂任务拆分成小块,交给专门的智能体处理。
  • 并行处理: 多个智能体同时工作,提高效率。
  • 上下文隔离/专业化: 每个智能体专注于自己的领域,避免信息过载,提升专业度。
  • 多样化推理/讨论: 不同智能体可能提出不同见解,通过讨论或辩论产生更好的解决方案。

论文中研究的 MAS 系统(如 MetaGPT, ChatDev, HyperAgent, AppWorld, AG2)就模拟了软件公司、研究团队等协作模式。例如,ChatDev 模拟一个软件开发公司,包含 CEO、CTO、程序员、测试员等不同角色的 AI 智能体,它们通过对话来完成软件开发任务。

MAS 严重未达预期

先看一组数据:

图片

在一些流行的 MAS 框架和任务上,成功率低得惊人:

  • MetaGPT (软件开发任务): 成功率仅 66.0%
  • ChatDev (软件开发任务): 成功率仅 25.0%
  • HyperAgent (软件工程基准测试): 成功率仅 25.3%
  • AppWorld (跨应用任务): 成功率仅 13.3%
  • AG2 (数学题解答): 成功率 84.8% (相对较高,但仍有 15.2% 失败率)

这意味着,即使使用了强大的底层 LLM(如 GPT-4o, Claude-3),这些精心设计的 AI 团队在很多情况下也无法成功完成任务。这种表现与人们对其“群体智能”的期待形成了巨大反差。

失败归因为 14 种具体的失败模式

为了系统地找出失败原因,研究者们采用了 扎根理论 (Grounded Theory) 的方法。

他们邀请了六位人类专家,仔细审查了来自 5 个不同 MAS 系统的 150 多个任务执行记录(每个记录平均包含超过 15000 行文本,主要是智能体之间的对话和行动日志)。

扎根理论的核心是让理论从数据中自然浮现,而不是预设假说。专家们反复阅读、标记、讨论这些记录中的失败点,不断提炼和归纳,最终形成了一套包含 14 种具体失败模式 的分类法,并将其归纳为三大类。这套分类法被称为 MASFT

图片

为了确保分类法的可靠性,研究者们进行了 注释者间一致性 (Inter-annotator agreement) 测试。

三位专家独立使用 MASFT 对同一批任务记录进行标注,计算他们之间的一致性程度(Cohen's Kappa 系数)。经过多轮迭代优化,最终的 MASFT 达到了 0.88 的 Kappa 分数,这表明该分类法具有很高的可靠性和一致性。

下面,我们详细解读 MASFT 的三大失败类别及其包含的具体模式:

类别一:规范与系统设计失败 (Specification and System Design Failures, 占总失败的 37.17%)

这类失败源于系统设计本身的缺陷、任务指令的不明确、或者智能体未能遵循其角色和职责。就像一个项目团队,如果项目目标模糊、成员职责不清、工作流程混乱,那么失败几乎是注定的。

FM-1.1: 不遵从任务规范 (Disobey task specification, 15.2%) :

智能体未能遵守任务的具体要求或约束。

举个栗子:要求ChatDev开发一个使用标准国际象棋记谱法(如'Ke8', 'Qd4')作为输入的两人象棋游戏,但它最终生成的游戏却要求输入棋子移动前后的坐标 (x1, y1), (x2, y2),完全不符合要求。

FM-1.2: 不遵从角色规范 (Disobey role specification, 1.57%) :

智能体越俎代庖,做了超出其角色定义的事情。

举个栗子:在ChatDev的需求分析阶段,扮演“产品官”(CPO)角色的智能体有时会跳过与“CEO”的讨论,单方面定义产品愿景并做出最终决定,这显然超出了CPO的职责。

FM-1.3: 步骤重复 (Step repetition, 11.5%) :

不必要地重复已经完成的步骤,导致延迟或错误。

举个栗子:HyperAgent中的“导航员”智能体反复提出相同的查找代码的步骤,即使之前已经尝试过或问题已转移。

FM-1.4: 对话历史丢失 (Loss of conversation history, 2.36%) :

系统意外地截断了上下文,导致智能体忘记了最近的交互内容,行为回退到之前的状态。

举个栗子:HyperAgent在解决一个编程bug时,一开始决定用scikit-learn模型替换所需的lightgbm库(因为未安装),但在后续交互中,它似乎忘记了这个决定,又回过头来尝试安装lightgbm。

FM-1.5: 不清楚终止条件 (Unaware of termination conditions, 6.54%) :

智能体不知道或不理解何时应该结束交互,导致不必要的对话持续进行。

举个栗子:在AG2解决一个数学问题时,即使已经给出了正确(或无法解决)的答案,代理仍然反复要求继续进行,不明白任务已经结束。

类别二:智能体间协作失调 (Inter-Agent Misalignment, 占总失败的 31.41%)

这类失败发生在智能体之间的沟通和协作环节。即使每个智能体单独看都很“聪明”,但如果它们之间沟通不畅、目标冲突、互相误解,团队整体表现也会大打折扣。这就像一个团队,成员间缺乏有效的沟通机制,导致信息壁垒、重复劳动、甚至内耗。

FM-2.1: 对话重置 (Conversation reset, 5.50%) :

对话意外或无理由地重新开始,丢失了之前的上下文和进展。

FM-2.2: 未能请求澄清 (Fail to ask for clarification, 2.09%) :

面对模糊或不完整的信息时,智能体没能主动要求更多信息,而是基于猜测行动,导致错误。

举个栗子: AppWorld 中的“主管”智能体指示“电话”智能体使用邮箱地址作为用户名登录,但 API 文档明确需要电话号码。“电话”智能体发现了这一点,却没有向主管澄清,而是直接用错误的邮箱地址尝试登录,导致失败。同时,“主管”智能体在提供指令时也未能检查或询问细节。

图片

FM-2.3: 任务偏离 (Task derailment, 5.50%) :

对话或行动逐渐偏离了最初设定的任务目标,变得无关紧要或效率低下。

举个栗子: AG2在解决一个数学问题时,可能中途被某个计算细节带偏,开始解决一个完全不同的问题,或者在找到正确答案后又继续进行不相关的计算。

FM-2.4: 信息隐瞒 (Information withholding, 6.02%) :

某个智能体掌握了对任务至关重要的信息,但未能与其他智能体分享。

举个栗子:HyperAgent 的“导航员”有时找到了潜在解决方案,但没有将其完整传达给“规划师”,导致后者无法做出正确决策。

FM-2.5: 忽略其他智能体输入 (Ignored other agent's input, 4.71%) :

智能体无视或未能充分考虑其他智能体提供的输入、建议或修正。

举个栗子: 在Multi-Agent Peer Review系统中,一个智能体收到了另一个智能体对其数学解题过程的正确反馈,指出了计算错误。该智能体口头上承认了反馈,但在最终答案中仍然坚持自己最初的错误结果,没有采纳正确的修正。

FM-2.6: 推理-行动不匹配 (Reasoning-action mismatch, 7.59%) :

智能体的内在“思考”(推理过程)与其最终采取的“行动”(如调用工具、生成代码)不一致。

举个栗子: HyperAgent 的“导航员”在分析一个 pylint 的 bug 时,其内部思考过程(Thought)正确地识别了问题所在和需要修改的代码位置,但在最终给“规划师”的“回答”(Final Answer)中,却给出了不同的、甚至是无关的建议。

类别三:任务验证与终止失败 (Task Verification and Termination, 占总失败的 31.41%)

这类失败关乎任务的“收尾”阶段:如何确保最终结果的质量(正确性、完整性、可靠性),以及如何在恰当的时机结束任务。缺乏有效的质量控制和明确的结束机制,可能导致交付低劣成果或资源浪费。

FM-3.1: 过早终止 (Premature termination, 8.64%) :

在所有必要信息交换完毕或目标达成之前,对话、交互或任务就被结束了。

举个栗子:HyperAgent 的“编辑器”智能体声称已经完成了对代码的修改,但实际上并没有执行修改操作,却提前结束了自己的任务环节,导致后续依赖该修改的步骤失败。

FM-3.2: 无验证或验证不完整 (No or incomplete verification, 9.16%) :

系统缺少验证步骤,或者验证步骤未能覆盖所有关键方面,导致错误或不一致被遗漏。

举个栗子: ChatDev 在实现国际象棋游戏时,负责验证的智能体只检查了代码是否能编译通过,却没有实际运行游戏、检查是否符合所有象棋规则(如特殊移动、吃子规则等),也没有验证输入输出是否符合任务要求。这导致即使代码能运行,游戏本身也可能漏洞百出或无法正常玩。AG2 在数学题中可能算对了总花费,但在需要计算剩余金额时却没有进行减法验证,或者数错了题目中给出的数字个数。

FM-3.3: 验证不正确 (Incorrect verification, 13.61%) :

存在验证步骤,但验证本身是错误的或无效的,未能发现实际存在的问题。

举个栗子: MetaGPT 在实现棋类游戏时,单元测试可能只覆盖了最基本的情况(如兵的移动),没有覆盖非兵棋子的复杂移动规则,却错误地认为验证通过。Multi-Agent Peer Review 中,智能体在评审同伴的解答时,可能自己也犯了同样的错误,或者未能识别出明显的逻辑漏洞,给出了错误的“验证通过”结论。

这些失败意味着什么?不仅仅是技术问题

MASFT 揭示的失败模式多种多样,并且在不同的 MAS 系统中分布也不同,这说明 MAS 的失败不是由单一原因主导的,而是系统性、多样性的问题。

图片

更有趣的是,论文作者将这些 AI 系统的失败模式与 高可靠性组织 (High-Reliability Organizations, HROs) 的研究联系起来

HROs 是指那些在极其复杂和高风险环境下(如核电站、航母)却能保持极低事故率的组织。

研究发现,HROs 通常具备一些关键特征,如极端的层级分化、尊重专业知识、对失败保持警惕等。而 MASFT 中的许多失败模式,恰恰 违反 了这些 HRO 的成功原则:

  • "不遵从角色规范" (FM-1.2) 违反了 "极端层级分化"。
  • "未能请求澄清" (FM-2.2) 违反了 "尊重专业知识" (Deference to Expertise)。

这表明,构建一个成功的 MAS,不仅仅是提升底层 LLM 的智能那么简单,它更像是在构建一个 组织 。如果组织结构、沟通协议、权责分配、质量控制流程设计不当,即使每个成员(智能体)都很“聪明”,整个系统也可能像一个管理混乱的公司一样,效率低下、错误频出,甚至彻底崩溃。

论文开头的两句引言恰如其分:

图片

“幸福的家庭都是相似的;不幸的家庭各有各的不幸。” (托尔斯泰, 1878)

所以, 成功的系统都是相似的;失败的系统各有各的问题。

能修复这些问题吗?

既然发现了问题所在,自然要寻找解决方案。论文探讨了两类策略:

1.战术性方法 :

这些是相对直接、针对特定失败模式的“小修小补”。例如:

  • 改进提示 (Prompt Engineering): 给出更清晰的任务指令和角色定义
  • 优化智能体拓扑/沟通模式: 改变智能体之间的连接方式和对话规则 (如从线性流程变为循环反馈,或加入专门的协调者)。
  • 加入自我验证/重试机制: 让智能体在完成任务后自查,或在遇到不一致时尝试重新沟通 (Appendix E.5)。
  • 多数投票/重采样: 多次运行或让多个智能体给出答案,选择最一致的结果。

研究者们在两个案例(AG2-MathChat 和 ChatDev, Sec 6)中尝试了这些战术方法。结果显示:

这些方法 确实能带来一些改进 (例如,改进后的 ChatDev 在 ProgramDev 任务上的准确率从 25% 提升到 40.6%),但 效果有限且不稳定

对于 AG2,改进提示在 GPT-4 上效果显著,但在 GPT-4o 上,新拓扑结构反而效果不佳。这说明这些“头痛医头,脚痛医脚”的方法,并不能根治所有问题。

2.结构性方法:

这些是更根本、更系统性的变革,旨在从基础架构层面提升 MAS 的鲁棒性和可靠性。这通常需要更深入的研究和更复杂的实现。

  • 强大的验证机制: 设计通用的、跨领域的验证框架(不仅仅是代码测试,可能涉及逻辑验证、事实核查、QA 标准等)。论文特别强调了验证的重要性,认为它是抵御失败的“最后一道防线”,但构建通用验证机制极具挑战。
  • 标准化沟通协议: 定义清晰的、结构化的智能体间通信语言和格式,减少歧义,实现类似计算机网络协议那样的可靠交互。
  • 不确定性量化: 让智能体能够评估并表达自己对信息或结论的“置信度”,在低置信度时主动寻求更多信息或采取更保守的行动。
  • 增强的记忆和状态管理: 改进智能体记录、检索和利用长期/短期记忆的方式,确保上下文连贯性。
  • 基于强化学习的协作训练: 通过奖励期望的行为(如有效沟通、遵守角色、成功协作)和惩罚不良行为,来“训练”智能体学会更好地团队合作。

这些结构性方法被认为是未来解决 MAS 失败问题的关键,但它们也带来了新的研究挑战。

图片

借助 AI 翻译成了中文表格:

图片

道阻且长,行则将至

这项研究,为我们理解 为什么基于 LLM 的多智能体系统频频失败 提供了第一个系统性的框架——MASFT。

这篇论文清晰地揭示了,这些失败不仅仅是底层 AI 模型的问题,更多是源于系统设计、智能体间交互以及验证机制的深层缺陷,这些缺陷与复杂人类组织的运作困境惊人地相似。

其次,研究结果也提醒我们,期望通过简单的提示工程或微调就能让“AI 梦之队”发挥全部潜力是不现实的。

未来需要更深入、更根本的 结构性变革 ,包括设计更鲁棒的验证系统、更可靠的通信协议、以及更有效的协作机制。才能有望逐步构建出真正可靠、高效、能够应对复杂现实世界挑战的多智能体系统。

前路充满挑战,但这篇论文无疑为推动“群体智能”提供了一张失败地图。
图片

图片
图片







请到「今天看啥」查看全文