AutoMix：自动混合语言模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-11-26 00:04

正文

24年6月来自CMU、谷歌、IIT和USC的论文“AutoMix: Automatically Mixing Language Models”。

现在，云 API 提供商提供各种大小和配置的大语言模型 (LLM)。虽然这种多样性提供了广泛的选择，但有效利用这些选项来优化计算成本和性能仍然具有挑战性。这项工作提出 AutoMix，基于从一个较小 LM 输出的近似正确性，将查询策略性地路由到较大 LM。AutoMix 的核心是两个。首先，它有一个少样本自我验证机制，可以估计自身输出的可靠性，而无需大量训练。其次，鉴于自我验证可能会有噪声，它采用基于 POMDP 的路由器，可以根据答案置信度有效地选择适当大小的模型。在五种语言模型和五个具有挑战性的数据集上进行实验，AutoMix 始终超越强基线，在同等性能的情况下将计算成本降低 50% 以上。

如图所示是AutoMix介绍，它包含 3 个步骤：解决方案生成（小模型生成初始答案）、自我验证（相同的小模型评估难度）和选择性路由（根据自我验证的建议路由到更大的模型）。从高层次上讲，这个过程反映了人类解决问题的过程，它本质上遵循一个多步骤的过程：生成解决方案、验证其有效性，并根据验证结果进一步完善它。

如图所示，验证过程被设计为自然语言蕴涵任务，其中模型根据上下文和问题，确定模型生成的答案的有效性。对所有任务都使用通用的少样本提示。

为应对大语言模型中自我校正的挑战 [Madaan et al., 2023, Huang et al., 2023]，AutoMix 采用非 LLM 设置进行路由，并避免幻觉和推理错误等问题升级 [Dziri et al., 2023]。原则上，路由器可以采用各种学习策略，包括监督学习、强化学习和符号推理。

在这种针对双-模型情况 (N = 2) 的简单路由方法中，路由到 LM2 的决定基于 LM1 验证器的概率 v 和阈值 t。如果 v ≥ t，则返回 LM1 的答案，否则将查询路由到 LM2。直观地说，高概率表示验证器对其决定有信心并且可以信任。改变 t 可以帮助探索成本性能权衡。

只有当性能差证明成本与质量权衡是合理的，路由器才应将查询定向到更大的 LM。鉴于系统性能的真实状态固有的不确定性（无法观测），将路由器表述为部分可观察的马尔可夫决策过程 (POMDP) [Åström, 1965]。POMDP 特别适合于观察结果（例如自我验证概率）可能不完全可靠的场景。

POMDP 的特征是 (S, A, T , R, Ω, O)。在应用中，状态 S 表示当前选定的 LMi 和各种 LM 在数据点上的性能指标（例如准确度或 F-分数），表示为 S = ⟨i, PerfLM1, PerfLM2, ..., PerfLMN ⟩。这些动作包括要么保留当前 LM（LMi）的答案，要么路由到其中一个更大的 LM。观测值 Ω 以来自 LMi 的验证器输出 v 形式出现，使 POMDP 能够确定其信念状态 b：一个在 S 上的概率分布。观测概率 P (o|s) 表示在给定状态 s 情况下观测 o（验证输出）的似然，对于定义 POMDP 模型至关重要。例如，高的验证器置信度可能表明当前 LM 的性能 PerfLMi 足够高，从而减少了切换到更昂贵 LM 的必要性。观测概率直接在训练集上估计，计算每个状态的验证概率期望，即