大语言模型与混合思维表征的级联实现成本高效的推理

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-23 00:32

正文

发表在ICLR‘24来自George Mason大学、微软和Virginia Tech的论文“Large Language Model Cascades with Mixture of Thought Representations for Cost- Efficient Reasoning”。

大语言模型（例如 GPT-4）在各种任务中都表现出色，但这种强大的性能往往伴随着使用付费 API 服务的高昂成本。本文致力于研究构建 LLM 级联节省使用 LLM 的成本，尤其是执行推理（例如数学、因果）任务时。级联流水线来自以下的直觉：较简单的问题可以通过较弱但更实惠的 LLM 来解决，而只有挑战性的问题才需要更强大且更昂贵的 LLM。为了实现这种决策，将较弱 LLM 的“答案一致性”视为问题难度的信号，并提出几种答案抽样和一致性检查的方法，包括一种利用两种思维表征的混合方法，即思维链（Wei，2022）和思维程序（Chen，2022；Gao，2023）。在六个推理基准数据集上的实验，其中 GPT-3.5-turbo 和 GPT-4 分别是较弱和较强的 LLM，提出的 LLM 级联可以实现与单独使用较强的 LLM 相当的性能，但只需要其 40% 的成本。

代码开源 GitHub - MurongYue/LLM_MoT_cascade

LLM 级联

利用 LLM 级联来节省上下文 LLM 推理的成本，如图所示。具体来说，假设有两个 LLM。较弱的 LLM（表示为 LLMw）产生相对较差的性能但成本较低，而较强的 LLM（表示为 LLMs）享有更好的任务性能但成本较高。给定一个问题 Q，LLM 级联首先使用较弱的 LLM 来获得初始答案 A 。这个答案，连同较弱的 LLM 生成的其他元数据，将被输入到级联决策器（decision maker），以决定是否可以接受该答案作为最终答案。如果答案被拒绝，则应调用较强的 LLM 来提供更可靠的答案 A 。

这两个 LLM 都通过少样本上下文学习（ICL）来解决问题，例如，对于较弱的 LLM，答案 Aw 由从 PLLMw (Aw| E1||E2||...||EM|| Q) 采样产生，其中 E1||E2||...||EM||Q 表示 M 个任务演示和输入问题 Q 的串联，形成 LLM 的“提示输入”(Brown，2020)。由于使用 M 个任务示例来演示任务，因此它表示 LLM 的“M 样本上下文学习”。对于推理任务，在实践中，LLM通常会被要求通过“思维表征”来阐述其推理过程，例如思维链（Wei，2022，CoT）和思维程序（Chen，2022；Gao，2023，PoT），其中推理过程分别通过自然语言和编程语言逐步描述。然后答案（例如，数学计算的数值结果）可以从文本中提取（对于 CoT）或通过执行代码（对于 PoT）获得。

基于答案一致性的级联决策

LLM 级联的核心是决策器，它接收较弱的 LLM 的输出，然后决定是否路由到较强的 LLM。理想的级联决策器应该只在较弱的 LLM 的答案错误时才调用较强的 LLM，这样就可以最小化总成本 C 而不会降低整体任务性能（与一直使用较强的 LLM 相比）。为此，提出两种基于较弱 LLM “答案一致性”的方法。

答案一致性被发现有助于提高 LLM 在推理任务中的表现（Wang，2023）。（Wang 2023）不是贪婪地为每个问题解码一个答案，而是对一组不同的推理路径（或思维过程）进行采样，然后通过边际化采样路径来选择最一致的答案。借鉴前人研究成果，做出以下假设：当较弱的 LLM 对给定问题采样高度一致的答案时，它会显示出对解决该问题的较高“信心”，并且其最一致的答案很可能是正确的；在这种情况下，因此无需调用较强的 LLM。

三种采样一致性：分布内采样、不同上下文演示的采样和不同思维表征的采样。

两种答案样本的一致性检查方法：

1. 基于选票的决策

第一种方法通过投票来计算较弱的 LLM 答案样本的一致性。正式地，对于单个提示，将较弱的 LLM 针对每个问题 Q 产生的答案集合表示为 (Aw1 ,Aw2 ,...,AwK)，其中 K 是预定义的样本数。当从两个不同的提示中采样时，将 (Aw11, Aw12, ..., Aw1K1 ) 和 (Aw21, Aw22, ..., Aw2K2 ) 表示它们各自产生的答案样本，其中 K1 和 K2 分别表示每个提示设置的预定义样本大小。请注意，对于这种方法，不区分从单个提示或多个提示中采样的答案（例如，来自不同提示的样本在投票时具有完全相同的权重）。然后可以选择最一致的答案作为大多数样本都同意的答案，并且该答案也将被较弱的 LLM 视为最终答案 Aw。决策者通过一致性得分来衡量较弱的 LLM 的一致性：

2. 基于验证的决策

对于从两个不同的提示设置（即不同的演示或思维表征）中生成样本的情况，提出第二种方法，即比较每个提示产生的最一致答案作为答案验证。如前所述，可以从不同的提示中获得两组答案：（Aw11，Aw12，...，Aw1K1）和（Aw21，Aw22，...，Aw2K2）。然后，验证每个提示中最一致的答案，分别表示为 Aw′ 和 Aw′，如下所示：

相比之下，这两种方法有不同的适用场景。基于投票的方法非常适合具有预定义成本约束的场景。在这种情况下，可以灵活地调整阈值以确保它与约束一致。另一方面，基于验证的方法虽然缺乏灵活性，但能够产生相对最优的结果而不需要阈值调整。

推理任务的 LLM 级联

大语言模型与混合思维表征的级联实现成本高效的推理

正文

请到「今天看啥」查看全文