基准数据集做大语言模型路由

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-23 00:32

正文

23年9月来自MIT和MIT-IBM实验室的论文“Large Language Model Routing with Benchmark Datasets”。

开源大语言模型 (LLM) 和基准数据集的数量正在迅速增长，可用于LLM性能比较。虽然有些模型在这些基准测试中占据主导地位，但没有一个模型通常能够在所有任务和用例中实现最佳准确率。这项工作的目的是，从一组模型中为新任务选择最佳 LLM。提出了一种新公式，其中基准数据集被重新用于学习 LLM 选择的“路由器”模型，并且该问题可以简化为二元分类任务集。分析从各种基准数据集中学习模型路由器的实用性和局限性，其中不断提高任何单一模型执行所有任务的性能。

选择最佳模型或模型选择，是统计学和机器学习中的经典话题（Bishop & Nasrabadi，2006；Hastie，2009；Raschka，2018）。然而，典型的问题设置却大不相同：交叉验证等经典方法旨在估计在总体分布的样本上训练模型的总体误差。换句话说，目标是找到分布内（ID）测试数据的最佳模型，即从与训练数据相同分布中采样的数据。对于 LLM 来说，“训练”数据的概念相当难以捉摸，因为它们通常在具有数万亿个 token 海量数据集上进行训练，并具有一个简单的下一个 token 预测任务（Radford，2019；Brown，2020）。然而，评估它们的任务通常更具结构性，例如分类和问答，并且特定于训练数据中可能充分或不充分表示的领域。此外，k - fold 交叉验证等技术需要多次训练模型，这对于 LLM 来说是不可行的。

认识到模型选择方法对于分布内（ID）测试数据的局限性（Gulrajani & Lopez-Paz，2021；Koh，2021），最近的研究提出多种方法来选择部署在可能与训练数据不同数据上的模型。这些方法依赖于诸如自举（Xu & Tibshirani，2022）、重加权（Chen，2021b；Maity，2023）、模型一致性或集成（Jiang，2021；Chen，2021a；Ng，2023）或将模型准确率分布与置信度阈值对齐（Guillory，2021；Garg，2022；Yu，2022）等想法。这些方法中的大多数都很难扩展到 LLM 的生成用例；有些需要训练多个模型，有些需要与新任务相关的明确定义的分布内（ID）数据。

先前关于选择 LLM 的工作，主要考虑选择一个能够为给定输入产生最佳生成的 LLM。Liu & Liu (2021)、Ravaut (2022)、Jiang (2023) 训练专用的评分或排名模型，这些模型可应用于模型生成。这些方法需要使用每个候选 LLM 生成输出才能做出决策，如果候选 LLM 数量庞大，则计算量过大。FrugalGPT (Chen，2023) 依次调用 LLM，直到专用的评分模型认为该生成是可接受的。先前的工作需要训练数据，这些数据足以代表每个感兴趣的任务和领域，训练相应的排名和评分模型。

让 {xd1, . . . , xdnd } 成为 D 任务的输入集。每个输入文本 xdi 对应一个参考答案 rid，即对应输入的理想生成。最后，有一个度量 Fd(x,o,r) 可以依赖于任务，并测量输入 x 的响应 o 与参考 r 的对应程度。要在基准上测试 LLMm，m ∈ {1,...,M}，对于每个任务 d = 1, . . . , D，其响应生成 {odim = LLMm (xdi)} 并与相应的参考进行比较以获得性能指标 {fdim = Fd(xdi , odim, rdi )}。此时，大多数基准研究将对性能指标取（加权）平均值，并为每个 LLM 报告一个分数，对它们的性能进行排名。相反，本文重新使用这些评估结果来制定监督学习问题，以便根据各种 LLM 在数据点和任务上的表现更好地了解其优势和劣势。

该文将模型优势的学习视为二元监督学习任务来精确表达这个想法，其中特征是跨任务的样本输入嵌入，标签是模型在相应输入上是否“表现良好”，例如生成正确的类标签、正确回答问题或足够好地遵循输入指令。如图所示：从基准数据集中了解候选 LLM（用相应颜色标记）在各种任务（表情符号：问答、推理、总结等）和域（每个方框内的 4 个部分：金融、法律、常识等）上的优势。为每个 LLM 训练一个二元分类器（图的上半部分）来实现这一点。对于新任务，用这些二元分类器对每个 LLM 进行评分，并为用户推荐一个 LLM（图的下半部分）。

为了完成问题的表述，用 y(x, m) ∈ {0, 1} 表示模型 m 在输入 x 上的“正确性”。正确性的评估方法如下：使用 LLM m 对输入 xdi 生成响应 odim，将其与相应的参考 rdi 进行比较，如果模型的响应足够好，即 fdim > ηd，则输出 1，否则输出 0，其中 ηd 是某个阈值，可以是特定于任务和/或指标的。对于分类或多项选择问答等任务，y(xdi,m) = fdim，而对于摘要和指导跟随任务中使用的各种评估指标（Zhang，2020；Sellam，2020；Yuan，2021），正确性的概念有助于解释流行指标和任务难度级别的异质性。

为训练一个 LLM 正确性的预测器，求解以下优化问题：设 gm 是任何概率分类器，估计P (y(x, m) = 1|x)，而 l 是交叉熵损失

这项工作用一个简单的模型作为正确性预测器：用句子transformer (Reimers & Gurevych, 2019) 嵌入所有输入，并使用 k-最近邻分类器 (Cover & Hart, 1967) 作为 {gm}。kNN 是一个简单的非参数分类器，在多个任务中拟合 LLM 正确性的复杂决策边界，无需进行大量的超参调整。选择这种方法来学习正确性预测器，强调即使使用基本方法也能从基准中学习的实用性，而是专注于问题的特定问题，这个问题在之前的 OOD 泛化工作中尚未被研究过：能否使用不完善的正确性预测器来提高 LLM 路由的质量？

LLM 路由的目标是确定一个 LLM，在给定来自该任务输入 {xd′ }的情况下，在该任务上正确率最高：

然而，这个估计没有考虑到 gm 的潜在“缺陷”，即任务 d‘ 的 OOD 数据准确率较低。为了解决这个问题，对预测 gm 的分布外置信度进行建模：

基准数据集做大语言模型路由

正文

请到「今天看啥」查看全文