24年6月来自Georgia Tech、MIT-IBM lab、MIT、UCSD和MBZUAI的论文“Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts”。
Self-MoE是一种将单独 LLM 转换为自专业化专家的复合模块化系统方法,称为 MiXSE(混合自专业化专家)。利用自专业化,用自生成的合成数据构建专家模块,每个模块都配备共享的基础 LLM 并结合自优化的路由。这允许对各种目标任务进行动态和特定能力的处理,从而增强整体能力,而无需大量人工标记的数据和添加的参数。实证结果表明,专业化 LLM 可能会在非专业任务上表现出潜在的性能权衡。另一方面,Self-MoE 在知识、推理、数学和编码等各种基准上都比基础 LLM 有显着的改进。它还始终优于其他方法,包括实例合并和权重合并,同时通过语义专家和路由的设计提供更好的灵活性和可解释性。
大语言模型 (LLM) 的显著成功很大程度上归功于其通用性,使其能够执行各种各样的任务 (Brown,2020;Touvron,2023;Jiang,2023;Team,2024)。这些模型主要设计为单独架构,广泛依赖大规模数据来在庞大的参数空间中嵌入通用语言功能。这种整体式架构虽然有效,但其本身存在重大缺陷,例如扩展效率低下(Zhang,2024;Wan,2024)、在适应专门任务时容易忘记以前学过的信息(Kotha,2024;Huang,2024),以及缺乏透明度导致黑箱性质(Zhao,2023)。
与此同时,处理特定领域或专家级任务的需求不断增长,凸显了 LLM 专业化的必要性(Cheng,2024;Ling,2023;Feng,2024)。然而,有效的调整通常依赖于高质量的人工注释数据,而这些数据成本高昂且难以扩展(Kang,2023b),尤其是在专业知识稀缺且有价值的专业领域(Wu,2023)。自我专业化(Kang,2023a)提供了一种有前途的替代方案,即将模型与自生成的合成数据对齐。虽然这种技术已被证明在目标专家领域内跨任务泛化中是有效的,但它可能会影响目标域之外领域的性能。
如图所示展示Self-MoE 的概念,说明了从单独 LLM 到组合系统 MiXSE 的转变,无需大量资源和添加重要参数。结果展示了 MiXSE 在所有域的能力都比基础 LLM(例如 Gemma-7B)有所提高,而不像知识专业化的 LLM 那样会损害其他能力。
Self-MoE 框架,旨在构建一个组合模型,其中专业化专家模块和路由组件以自训练的方式进行学习,可以有效协作。从高层次上讲,Self-MoE 将基础 LLM 的一个单独结构分解为自专业单元的动态混合,每个单元都配备了不同的目标功能。如图所示是Self-MoE 的整体流程和架构,其中包括各个目标专家模块的自专业化及其集成,形成组合系统 MiXSE(混合自专业化专家):
在自专业化阶段(左侧),基础 LLM 与每个目标专业化的自生成合成数据对齐,生成轻量级专家模块。右侧显示 MiXSE,其中每个自专业化的专家,都根据自优化路由器的决策,动态地参与推理。
自专业化涉及生成针对每个目标域 Ti 量身定制的合成指令响应数据 Di = {(inst(1), resp(1)), (inst(2), resp(2)), ...}。这里确保数据既多样化又与每个模块将要解决的专业任务/领域高度相关。包括三步:种子构建、指令脑洞风暴和响应生成。