LLM-BLENDER：使用成对排名和生成式融合来集成大语言模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-12 00:04

正文

23年6月来自A2I、USC和浙江大学的论文“LLM-BLENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion”。

LLM-BLENDER是一个集成框架，旨在利用多个开源大语言模型 (LLM) 的不同优势来实现始终如一的卓越性能。框架由两个模块组成：PAIRRANKER 和 GENFUSER，其说明了不同示例的最佳 LLM 可能存在显著差异。PAIRRANKER 采用专门的成对比较方法来区分候选输出之间的细微差异。它联合编码输入文本和一对候选，使用交叉注意编码器来确定更优的那个。结果表明，PAIRRANKER 与基于 ChatGPT 的排名表现出最高的相关性。然后，GENFUSER 旨在合并排名靠前的候选，利用优势并减轻弱点，产生改进的输出。为了促进大规模评估，引入了一个基准数据集 MixInstruct，一个多指令数据集的混合，其具有 oracle 成对比较。

由于数据、架构和超参的不同，开源 LLM 表现出不同的优势和劣势，使它们相互补充。如图说明收集的 5,000 条指令上最佳 LLM 的分布情况。虽然 Vicuna 的百分比最高，但它仅在 21.22% 的例子中排名第一。此外，这个饼图表明，不同示例的最佳 LLM 可能会有很大差异，并且没有一个开源 LLM 可以主导竞争。因此，动态地集成这些 LLM 以为每个输入生成始终更好的响应非常重要。考虑到 LLM 的不同优势和劣势，开发一种能够利用它们互补潜力的集成方法至关重要，从而提高鲁棒性、泛化能力和准确性。通过结合各自独特的贡献，可以减轻个别 LLM 中的偏见、错误和不确定性，从而产生更符合人类偏好的输出。

引入一个数据集 MixInstruct，用于对 LLM 在指令跟随任务中的集成模型进行基准测试。主要从四个来源收集一组大规模的指令示例，如表所示。

如图所示提出一个排序和融合流水线框架 LLM-BLENDER，用于集成 LLM。该框架由两个主要组件组成：成对排序模块 PAIRRANKER和融合模块 GENFUSER。PAIRRANKER 模块学习比较每个输入的所有候选对，然后对候选列表进行排序。然后，选择排名前 K = 3 的候选，将它们与输入 x 连接起来，并构建 GENFUSER 模块的输入序列。GENFUSER 模块是一个 seq2seq 语言模型，最后生成最终的输出以服务于用户。