专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
武汉大学学生会  ·  灯火可亲,团圆有时 ·  23 小时前  
四川大学本科招生  ·  灯映春宵,团圆正好丨川大与你共赴锦绣前程 ·  昨天  
四川大学本科招生  ·  灯映春宵,团圆正好丨川大与你共赴锦绣前程 ·  昨天  
浙江大学  ·  浙大病理AI助手,3秒锁定癌症病灶 ·  3 天前  
浙江大学  ·  浙大入选又一国家级中心! ·  2 天前  
兰州大学萃英在线  ·  年味变淡?我们何去何从 ·  4 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

LLM-BLENDER:使用成对排名和生成式融合来集成大语言模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-12 00:04

正文

23年6月来自A2I、USC和浙江大学的论文“LLM-BLENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion”。

LLM-BLENDER是一个集成框架,旨在利用多个开源大语言模型 (LLM) 的不同优势来实现始终如一的卓越性能。框架由两个模块组成:PAIRRANKER 和 GENFUSER,其说明了不同示例的最佳 LLM 可能存在显著差异。PAIRRANKER 采用专门的成对比较方法来区分候选输出之间的细微差异。它联合编码输入文本和一对候选,使用交叉注意编码器来确定更优的那个。结果表明,PAIRRANKER 与基于 ChatGPT 的排名表现出最高的相关性。然后,GENFUSER 旨在合并排名靠前的候选,利用优势并减轻弱点,产生改进的输出。为了促进大规模评估,引入了一个基准数据集 MixInstruct,一个多指令数据集的混合,其具有 oracle 成对比较。


由于数据、架构和超参的不同,开源 LLM 表现出不同的优势和劣势,使它们相互补充。如图说明收集的 5,000 条指令上最佳 LLM 的分布情况。虽然 Vicuna 的百分比最高,但它仅在 21.22% 的例子中排名第一。此外,这个饼图表明,不同示例的最佳 LLM 可能会有很大差异,并且没有一个开源 LLM 可以主导竞争。因此,动态地集成这些 LLM 以为每个输入生成始终更好的响应非常重要。考虑到 LLM 的不同优势和劣势,开发一种能够利用它们互补潜力的集成方法至关重要,从而提高鲁棒性、泛化能力和准确性。通过结合各自独特的贡献,可以减轻个别 LLM 中的偏见、错误和不确定性,从而产生更符合人类偏好的输出。

集成 LLM 有两种主要方法: 基于选择的方法和基于生成的方法。 基于选择的方法比较候选者,选择排名靠前的候选者作为最终输出。 由于选择的固有性质和有限的解决方案空间,基于选择的方法的性能受到正在考虑的 N 个候选者的限制。 相反,基于生成的方法专注于融合 K 个候选者(1 < K ≤ N)产生一个未见的响应作为最终输出。

引入一个数据集 MixInstruct,用于对 LLM 在指令跟随任务中的集成模型进行基准测试。主要从四个来源收集一组大规模的指令示例,如表所示。

在整理和处理这些开源数据后,抽取 10 万个示例用于训练,5000 个用于验证,5000 个用于测试。 然后,在这 11 万个示例上运行 N = 11 个流行的开源 LLM,包括 Vicuna、OpenAssistant、Alpaca、MPT 等(参见下表)。

为了获得候选者的oracle排名,为 ChatGPT 设计比较提示,评估所有候选对。 具体来说,对于每个示例,准备 55 对候选(11 × 10/2)。 对于每一对,要求 ChatGPT 判断更好的候选(或宣布平局)。 对于训练集和验证集,根据 BERTScore、BLEURT 和 BARTScore 等传统指标提供结果。 在这种情况下,使用函数 Q(yi, y) 根据候选 yi 与基本事实 y 的相似性来估计其质量。


如图所示提出一个排序和融合流水线框架 LLM-BLENDER,用于集成 LLM。该框架由两个主要组件组成:成对排序模块 PAIRRANKER和融合模块 GENFUSER。PAIRRANKER 模块学习比较每个输入的所有候选对,然后对候选列表进行排序。然后,选择排名前 K = 3 的候选,将它们与输入 x 连接起来,并构建 GENFUSER 模块的输入序列。GENFUSER 模块是一个 seq2seq 语言模型,最后生成最终的输出以服务于用户。


以前的重新排序方法主要侧重于为每个候选 yi 独立计算得分 si = fφ(x, yi),其中 si 仅由 yi 决定。 值得注意的是,GPT-3.5 指令调整中的奖励模型(Ouyang,2022)也属于这一类。 如图说明这些基线方法: x 是输入,yi 是某个候选,其得分为 si; 1)MLM-Scoring 是一种无监督方法,它使用外部掩码 LM 对候选进行评分;







请到「今天看啥」查看全文


推荐文章
武汉大学学生会  ·  灯火可亲,团圆有时
23 小时前
四川大学本科招生  ·  灯映春宵,团圆正好丨川大与你共赴锦绣前程
昨天
四川大学本科招生  ·  灯映春宵,团圆正好丨川大与你共赴锦绣前程
昨天
浙江大学  ·  浙大病理AI助手,3秒锁定癌症病灶
3 天前
浙江大学  ·  浙大入选又一国家级中心!
2 天前
兰州大学萃英在线  ·  年味变淡?我们何去何从
4 天前
心情聊伤话  ·  男人被分手后是什么感受?
7 年前
单向街书店  ·  【灵感手帐】有了你,谁还需要完美?
7 年前