24年6月来自CMU、谷歌、IIT和USC的论文“AutoMix: Automatically Mixing Language Models”。
现在,云 API 提供商提供各种大小和配置的大语言模型 (LLM)。虽然这种多样性提供了广泛的选择,但有效利用这些选项来优化计算成本和性能仍然具有挑战性。这项工作提出 AutoMix,基于从一个较小 LM 输出的近似正确性,将查询策略性地路由到较大 LM。AutoMix 的核心是两个。首先,它有一个少样本自我验证机制,可以估计自身输出的可靠性,而无需大量训练。其次,鉴于自我验证可能会有噪声,它采用基于 POMDP 的路由器,可以根据答案置信度有效地选择适当大小的模型。在五种语言模型和五个具有挑战性的数据集上进行实验,AutoMix 始终超越强基线,在同等性能的情况下将计算成本降低 50% 以上。
如图所示是AutoMix介绍,它包含 3 个步骤:解决方案生成(小模型生成初始答案)、自我验证(相同的小模型评估难度)和选择性路由(根据自我验证的建议路由到更大的模型)。从高层次上讲,这个过程反映了人类解决问题的过程,它本质上遵循一个多步骤的过程:生成解决方案、验证其有效性,并根据验证结果进一步完善它。
如图所示,验证过程被设计为自然语言蕴涵任务,其中模型根据上下文和问题,确定模型生成的答案的有效性。对所有任务都使用通用的少样本提示。
为应对大语言模型中自我校正的挑战 [Madaan et al., 2023, Huang et al., 2023],AutoMix 采用非 LLM 设置进行路由,并避免幻觉和推理错误等问题升级 [Dziri et al., 2023]。原则上,路由器可以采用各种学习策略,包括监督学习、强化学习和符号推理。
在这种针对双-模型情况 (N = 2) 的简单路由方法中,路由到 LM2 的决定基于 LM1 验证器的概率 v 和阈值 t。如果 v ≥ t,则返回 LM1 的答案,否则将查询路由到 LM2。直观地说,高概率表示验证器对其决定有信心并且可以信任。改变 t 可以帮助探索成本性能权衡。
只有当性能差证明成本与质量权衡是合理的,路由器才应将查询定向到更大的 LM。鉴于系统性能的真实状态固有的不确定性(无法观测),将路由器表述为部分可观察的马尔可夫决策过程 (POMDP) [Åström, 1965]。POMDP 特别适合于观察结果(例如自我验证概率)可能不完全可靠的场景。
POMDP 的特征是 (S, A, T , R, Ω, O)。在应用中,状态 S 表示当前选定的 LMi 和各种 LM 在数据点上的性能指标(例如准确度或 F-分数),表示为 S = ⟨i, PerfLM1, PerfLM2, ..., PerfLMN ⟩。这些动作包括要么保留当前 LM(LMi)的答案,要么路由到其中一个更大的 LM。观测值 Ω 以来自 LMi 的验证器输出 v 形式出现,使 POMDP 能够确定其信念状态 b:一个在 S 上的概率分布。观测概率 P (o|s) 表示在给定状态 s 情况下观测 o(验证输出)的似然,对于定义 POMDP 模型至关重要。例如,高的验证器置信度可能表明当前 LM 的性能 PerfLMi 足够高,从而减少了切换到更昂贵 LM 的必要性。观测概率直接在训练集上估计,计算每个状态的验证概率期望,即