论文标题:Mixture-of-Agents Enhances Large Language Model Capabilities
论文链接:
https://arxiv.org/pdf/2406.04692
随着LLMs数量的增加,如何利用多个LLMs的集体专业知识成为一个令人兴奋的开放方向。
为此,论文提出了一种新方法,通过混合agent(Mixture-of-Agents, MoA)方法论来利用多个LLMs的集体优势。在论文的方法中,论文构建了一个分层的MoA架构,其中每一层包含多个LLMagent。每个agent将前一层所有agent的输出作为辅助信息来生成其响应。
MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上达到了最先进的性能,超越了GPT-4 Omni。例如,论文仅使用开源LLMs的MoA在AlpacaEval 2.0上以显著差距领先,得分为65.1%,相比之下GPT-4 Omni为57.5%。此外,论文提供了关于改进MoA设计的见解;系统优化MoA架构是未来工作的一个有趣方向。
论文提出的方法需要迭代聚合模型响应,这意味着模型在到达最后一个MoA层之前无法决定第一个token。这可能导致高Time to First Token(TTFT),从而可能对用户体验产生负面影响。为缓解此问题,论文可以限制MoA层的数量,因为第一次响应聚合对生成质量的提升最为显著。
尽管当前存在众多LLMs及其令人印象深刻的成就,它们仍面临模型大小和训练数据方面的固有限制。进一步扩大这些模型的规模成本极高,通常需要对数万亿个token进行广泛的重训练。
与此同时,不同的语言模型(LLMs)各自拥有独特的优势,并在各种任务方面展现出专业性。例如,有些模型在遵循复杂指令方面表现出色,而其他模型可能在代码生成方面更为擅长。不同语言模型间技能的多样性引发了一个有趣的问题:论文能否整合多个语言模型的集体专长,打造一个更为强大和稳健的模型?
论文对这一问题的回答是肯定的。论文发现了一个论文称之为语言模型合作性的内在现象——即当一个语言模型接收到其他模型的输出时,即使这些其他模型本身能力较弱,该模型也能生成更优质的回复。图1展示了6种流行语言模型在AlpacaEval 2.0基准测试上的合作胜率。
图2:混合agent结构示意图。本例展示了4个MoA层,每层包含3个agent。这些agent可以共享同一模型
当这些模型被提供由这些模型独立生成的答案时,它们的LC胜率显著提高。这表明了协作现象在大型语言模型中是普遍存在的。值得注意的是,即使由其他模型提供的辅助响应质量低于单个大型语言模型能够独立生成的质量,这种改进仍然存在。
基于这一发现,本文介绍了一种混合agent(MoA)方法论,利用多个大型语言模型来迭代提高生成质量。图2说明了MoA的结构。最初,第一层中的agent独立生成对给定提示的响应。然后,这些响应被提供给下一层的agent(可以重用第一层中的模型)以进一步完善。这个迭代完善过程持续进行几个周期,直到获得更加健壮和全面的响应。
图1:AlpacaEval 2.0 LC胜率在提供其他模型的响应时有所提高
这里论文将介绍论文提出的利用多个模型以实现性能提升的方法论。论文首先展示了大语言模型(LLMs)具有协作性,因此可以根据其他模型的输出改进其响应。随后,论文引入混合agent方法论并讨论其设计含义。
论文首先展示大语言模型的协作性,特别是它们在能够参考其他模型的输出时生成更高质量响应的能力。正如论文在引言和图1中所展示的,当今许多可用的大语言模型都表现出这种协作能力。
从多个大语言模型的协作中提取最大效益的一个重要途径是,了解不同模型在协作的各个方面擅长什么。在协作过程中,论文可以将大语言模型分为两个不同的角色:
提议者
(Proposers)擅长为其他模型生成有用的参考响应。一个好的提议者可能不一定能自行产生高分响应,但它应该提供更多背景和多样化的视角,最终在使用聚合器时为更好的最终响应做出贡献。
聚合器
(Aggregators)是擅长将其他模型的响应综合成单一高质量输出的模型。一个有效的聚合器即使在整合质量低于自身的输入时,也应保持或增强输出质量。
具体而言,论文展示了众多大型语言模型(LLMs)同时具备作为聚合者和提议者的能力,而某些模型则在特定角色上表现出专业技能。GPT-4o、Qwen1.5、LLaMA-3作为多才多艺的模型,在协助和聚合任务中均表现出色。相比之下,WizardLM在作为提议者模型时表现卓越,但在聚合其他模型的响应方面则显得力不从心。
鉴于聚合者能够通过借鉴其他模型的输出产生更高质量的响应,论文提议通过引入额外的聚合者来进一步增强这种协作潜力。一个直观的想法是复制这一练习,使用多个聚合者——首先由几个聚合者汇聚更佳答案,然后再次聚合这些已聚合的答案。通过在过程中融入更多聚合者,论文可以迭代地综合和提炼响应,利用多个模型的优势以产生更优的结果。这导致了论文提出的混合agent(Mixture-of-Agents)的设计。
2.2.2 混合agent(Mixture-of-Agents)
MoA的结构如图2所示。它具有l层,每层i包含n个LLMs。值得注意的是,LLMs可以在同一层内或跨不同层重复使用。当一层中许多LLMs相同时,这种配置导致了一种特殊结构,对应于一个模型生成多个可能不同的输出(由于温度采样的随机性)。论文将此设置称为单一提议者,其中只有稀疏子集的模型被激活。
在此,每个LLM处理输入文本并生成其延续。论文的方法无需任何微调,仅利用LLMs的提示和生成接口。
实际上,论文无需连接提示和所有模型响应,因此在最后一层仅需使用一个LLM。因此,论文使用第1层LM的输出作为最终输出,并据此评估指标。
表1:Aggregate-and-Synthesize提示,用于整合来自其他模型的响应
2.2.3 与专家混合模型(Mixture-of-Experts)的类比
专家混合模型(MoE)是机器学习中一种突出且成熟的技巧,其中多个专家网络专长于不同的技能集。MoE方法已在各种应用中显示出显著的成功,因其能够利用多样化的模型能力解决复杂问题。论文的MoA方法受此方法论启发。
典型的MoE(Mixture of Experts)设计包含一系列被称为MoE层的堆叠层。每个层包含一组n个专家网络以及一个门控网络,并包括残差连接以增强梯度流动。
从高层视角看,论文提出的MoA(Mixture of Aritists)框架通过在模型级别而非激活级别操作,将MoE概念扩展到模型级别。具体而言,论文的MoA方法利用大型语言模型(LLMs),完全通过提示接口运作,而不需要对内部激活或权重进行修改。这意味着,与MoE中在一个模型内拥有专门的子网络不同,论文跨不同层使用多个完全成熟的LLMs。需要注意的是,在论文的方法中,论文利用LLM整合了门控网络和专家网络的角色,因为LLMs的内在能力允许它们通过解释提示并生成连贯的输出来有效地规范输入,无需外部协调机制。
此外,由于这种方法仅依赖于现成模型固有的提示能力:(1) 它消除了与微调相关的计算开销;(2) 它提供了灵活性和可扩展性:论文的方法可以应用于最新的LLMs,无论其大小或架构如何。
1.论文在AlpacaEval 2.0、MT-Bench和FLASK基准测试上取得了显著的改进。值得注意的是,仅使用开源模型,论文的方法在AlpacaEval 2.0和FLASK上超越了GPT-4o。
2.论文进行了广泛的实验,以更好地理解MoA的内部机制。
3.通过详细的预算分析,几种MoA的实现能够在性能上与GPT-4 Turbo相媲美,同时成本效益高出2倍。
表2:AlpacaEval 2.0和MT-Bench的结果。对于AlpacaEval 2.0,MoA和MoA-Lite分别对应6提议者中的3层和2层。MoA w/ GPT-4o表示在MoA中使用GPT-4o作为最终聚合器。论文的实验重复了三次,并报告了平均分数及标准差。表示论文对AlpacaEval结果的复制。论文自己运行了所有MT-Bench分数以获得基于回合的分数
基准测试
论文主要在AlpacaEval 2.0(Dubois et al., 2024)上评估模型,这是一个评估大型语言模型(LLMs)与人类偏好对齐的领先基准。它包含805个代表实际用例的指令。每个模型的响应直接与GPT-4(gpt-4-1106-preview)的响应进行比较,使用基于GPT-4的评估器来确定更倾向于评估模型的响应的可能性。为确保公平性,评估采用长度控制(LC)胜率,有效中止长度偏差。
此外,论文还在MT-Bench和FLASK上进行评估。MT-Bench使用GPT-4对模型的答案进行评分和评分。另一方面,FLASK提供了更细致的评估,具有12个特定技能的分数。
模型
在本研究中,论文构建了默认的模型架构(MoA),仅使用开源模型以实现竞争性性能。所包含的模型有:Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、WizardLM-8x22B、LLaMA-3-70B-Instruct、Mixtral-8x22B-v0.1、dbrx-instruct。
论文构建了3层MoA,并在每一层MoA中使用相同的一组模型。在最后一层中,论文使用Qwen1.5-110B-Chat作为聚合器。论文还开发了一个变体,称为MoA w/ GPT-4o,该变体通过在最终MoA层中使用GPT-4o作为聚合器,优先考虑高质量输出。另一个变体,MoA-Lite,强调成本效益。它使用与提案者相同的模型集,但仅包含2层MoA,并采用Qwen1.5-72B-Chat作为聚合器。这使得它在比GPT-4o更具成本效益的同时,在AlpacaEval 2.0上的质量提高了1.8%。论文严格遵守本研究中使用的所有模型的许可条款。对于开源模型,所有推理均通过Together Inference Endpoint运行。
这里论文展示了在三个标准基准测试上的评估结果:AlpacaEval 2.0、MT-Bench和FLASK。选择这些基准测试是为了全面评估论文的方法性能,并与最先进的LLMs进行比较。
AlpacaEval 2.0
论文与领先的模型如GPT-4及其他最先进的开源模型进行了比较。详细结果展示在表2a中,论文的MoA方法在AlpacaEval 2.0排行榜上取得了顶尖位置,
相较于之前的顶级模型GPT-4o,实现了惊人的8.2%绝对提升
。
值得注意的是,论文的模型
仅使用开源模型就超越了GPT-4o,从57.5%(GPT-4o)提升至65.1%(MoA),实现了7.6%的绝对改进
。论文的MoA-Lite配置使用更少的层,更具成本效益。
即便采用这种更轻量的方法,论文仍然超越了最佳模型1.8%,从57.5%(GPT-4o)提升至59.3%(MoA-Lite)
。这进一步凸显了论文方法在充分利用不同计算预算下开源模型潜力的有效性。
MT-Bench
尽管在MT-Bench上对单个模型的改进相对较小,但考虑到当前模型在该基准上已经表现出色,这是可以理解的,因为单个模型本身就能获得超过9/10的分数。尽管改进微小,论文的方法仍然在排行榜上占据首位。这表明,即使在已经高度优化的基准上,论文的方法也能进一步推动边界,保持领先地位。
FLASK
FLASK提供了对模型的细粒度评估。在这些指标中,MoA在几个关键方面表现出色。具体而言,与聚合器Qwen-110B-Chat的单模型分数相比,论文的方法在稳健性、正确性、效率、事实性、常识、洞察力和完整性方面显示出显著的改进。此外,MoA在正确性、事实性、洞察力、完整性和元认知方面也优于GPT-4 Omni。MoA表现不太好的一个指标是简洁性;模型生成的输出略显冗长。
图 3:在 FLASK 上的结果,论文采用 6 提议者 MoA 设置,Qwen1.5-110B-Chat 作为聚合器
这里论文进行实验,以更好地理解混合agent模型内部机制。论文总结了以下关键见解。
MoA倾向于整合最佳提议的答案
。论文还通过类似BLEU的相似度分数比较了聚合器的响应与提议者的响应,该分数反映了n-gram重叠。在每个样本中,给定由提议者提出的
个答案,论文计算
个相似度分数与由基于GPT-4的评估器确定的