集成 LLM 有两种主要方法:
基于选择的方法和基于生成的方法。
基于选择的方法比较候选者,选择排名靠前的候选者作为最终输出。
由于选择的固有性质和有限的解决方案空间,基于选择的方法的性能受到正在考虑的 N 个候选者的限制。
相反,基于生成的方法专注于融合 K 个候选者(1 < K ≤ N)产生一个未见的响应作为最终输出。
如图所示提出一个排序和融合流水线框架 LLM-BLENDER,用于集成 LLM。该框架由两个主要组件组成:成对排序模块 PAIRRANKER和融合模块 GENFUSER。PAIRRANKER 模块学习比较每个输入的所有候选对,然后对候选列表进行排序。然后,选择排名前 K = 3 的候选,将它们与输入 x 连接起来,并构建 GENFUSER 模块的输入序列。GENFUSER 模块是一个 seq2seq 语言模型,最后生成最终的输出以服务于用户。
以前的重新排序方法主要侧重于为每个候选 yi 独立计算得分 si = fφ(x, yi),其中 si 仅由 yi 决定。
值得注意的是,GPT-3.5 指令调整中的奖励模型(Ouyang,2022)也属于这一类。
如图说明这些基线方法:
x 是输入,yi 是某个候选,其得分为 si;
1)MLM-Scoring 是一种无监督方法,它使用外部掩码 LM 对候选进行评分;