发表在ICLR‘24来自George Mason大学、微软和Virginia Tech的论文“Large Language Model Cascades with Mixture of Thought Representations for Cost- Efficient Reasoning”。
大语言模型(例如 GPT-4)在各种任务中都表现出色,但这种强大的性能往往伴随着使用付费 API 服务的高昂成本。本文致力于研究构建 LLM 级联节省使用 LLM 的成本,尤其是执行推理(例如数学、因果)任务时。级联流水线来自以下的直觉:较简单的问题可以通过较弱但更实惠的 LLM 来解决,而只有挑战性的问题才需要更强大且更昂贵的 LLM。为了实现这种决策,将较弱 LLM 的“答案一致性”视为问题难度的信号,并提出几种答案抽样和一致性检查的方法,包括一种利用两种思维表征的混合方法,即思维链(Wei,2022)和思维程序(Chen,2022;Gao,2023)。在六个推理基准数据集上的实验,其中 GPT-3.5-turbo 和 GPT-4 分别是较弱和较强的 LLM,提出的 LLM 级联可以实现与单独使用较强的 LLM 相当的性能,但只需要其 40% 的成本。
代码开源
GitHub - MurongYue/LLM_MoT_cascade
LLM 级联
利用 LLM 级联来节省上下文 LLM 推理的成本,如图所示。具体来说,假设有两个 LLM。较弱的 LLM(表示为 LLMw)产生相对较差的性能但成本较低,而较强的 LLM(表示为 LLMs)享有更好的任务性能但成本较高。给定一个问题 Q,LLM 级联首先使用较弱的 LLM 来获得初始答案 A 。这个答案,连同较弱的 LLM 生成的其他元数据,将被输入到级联决策器(decision maker),以决定是否可以接受该答案作为最终答案。如果答案被拒绝,则应调用较强的 LLM 来提供更可靠的答案 A 。
因此,回答问题的总成本变为
其中 Cw 和 Cs 分别表示调用较弱和较强的 LLM 的成本,Cd 表示 LLM 级联决策过程中涉及的任何成本,并且当且仅当决策者拒绝答案时,1 reject = 1 才成立。
这两个 LLM 都通过少样本上下文学习(ICL)来解决问题,例如,对于较弱的 LLM,答案 Aw 由从 PLLMw (Aw| E1||E2||...||EM|| Q) 采样产生,其中 E1||E2||...||EM||Q 表示 M 个任务演示和输入问题 Q 的串联,形成 LLM 的“提示输入”(Brown,2020)。由于使用 M 个任务示例来演示任务,因此它表示 LLM 的“M 样本上下文学习”。对于推理任务,在实践中,LLM通常会被要求通过“思维表征”来阐述其推理过程,例如思维链(Wei,2022,CoT)和思维程序(Chen,2022;Gao,2023,PoT),其中推理过程分别通过自然语言和编程语言逐步描述。然后答案(例如,数学计算的数值结果)可以从文本中提取(对于 CoT)或通过执行代码(对于 PoT)获得。
基于答案一致性的级联决策
LLM 级联的核心是决策器,它接收较弱的 LLM 的输出,然后决定是否路由到较强的 LLM。理想的级联决策器应该只在较弱的 LLM 的答案错误时才调用较强的 LLM,这样就可以最小化总成本 C 而不会降低整体任务性能(与一直使用较强的 LLM 相比)。为此,提出两种基于较弱 LLM “答案一致性”的方法。
答案一致性被发现有助于提高 LLM 在推理任务中的表现(Wang,2023)。(Wang 2023)不是贪婪地为每个问题解码一个答案,而是对一组不同的推理路径(或思维过程)进行采样,然后通过边际化采样路径来选择最一致的答案。借鉴前人研究成果,做出以下假设:当较弱的 LLM 对给定问题采样高度一致的答案时,它会显示出对解决该问题的较高“信心”,并且其最一致的答案很可能是正确的;在这种情况下,因此无需调用较强的 LLM。
三种采样一致性:分布内采样、不同上下文演示的采样和不同思维表征的采样。
两种答案样本的一致性检查方法:
1. 基于选票的决策
第一种方法通过投票来计算较弱的 LLM 答案样本的一致性。正式地,对于单个提示,将较弱的 LLM 针对每个问题 Q 产生的答案集合表示为 (Aw1 ,Aw2 ,...,AwK),其中 K 是预定义的样本数。当从两个不同的提示中采样时,将 (Aw11, Aw12, ..., Aw1K1 ) 和 (Aw21, Aw22, ..., Aw2K2 ) 表示它们各自产生的答案样本,其中 K1 和 K2 分别表示每个提示设置的预定义样本大小。请注意,对于这种方法,不区分从单个提示或多个提示中采样的答案(例如,来自不同提示的样本在投票时具有完全相同的权重)。然后可以选择最一致的答案作为大多数样本都同意的答案,并且该答案也将被较弱的 LLM 视为最终答案 Aw。决策者通过一致性得分来衡量较弱的 LLM 的一致性:
s 越大,较弱的 LLM 答案样本越一致。
结合预定义的阈值 τ,决策器在 s ≥ τ 时接受较弱的 LLM 最一致的答案 Aw,否则拒绝。
因此,回答问题的总成本(1)可能因阈值而异。
2.
基于验证的决策
对于从两个不同的提示设置(即不同的演示或思维表征)中生成样本的情况,提出第二种方法,即比较每个提示产生的最一致答案作为答案验证。如前所述,可以从不同的提示中获得两组答案:(Aw11,Aw12,...,Aw1K1)和(Aw21,Aw22,...,Aw2K2)。然后,验证每个提示中最一致的答案,分别表示为 Aw′ 和 Aw′,如下所示:
只有当s等于1,即两个答案相同时,较弱的LLM的答案才会被决策器接受。
在这种情况下,较弱的LLM的最终答案将与两个最一致的答案相同,即 A = A1 = A2。
相比之下,这两种方法有不同的适用场景。基于投票的方法非常适合具有预定义成本约束的场景。在这种情况下,可以灵活地调整阈值以确保它与约束一致。另一方面,基于验证的方法虽然缺乏灵活性,但能够产生相对最优的结果而不需要阈值调整。
推理任务的 LLM 级联