元建模方法选择成本-高效的语言模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-17 00:12

正文

23年12月来自瑞士EPFL的论文“Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling”。

生成式语言模型 (LM) 已在数据科学中无处不在。对于各种各样的任务，输入可以表述为 LM 的自然语言提示，然后可以从其输出中提取解决方案。LM 性能一直随模型规模的扩大而提高，但查询越来越大模型的财务成本也在增加。然而，重要的是，并非所有输入都是同样难度：有些输入需要更大的 LM 才能获得令人满意的解决方案，而对于其他输入，较小的 LM 就足够了。基于这一事实，设计一个具有成本效益的语言模型选择框架，称为“苍蝇拍或大炮”（ FORC ）。给定一组输入和一组候选 LM，FORC 会根据所谓的元模型明智地将每个输入分配给预测在输入上表现良好的 LM，旨在以低成本实现高整体性能。用户可以灵活地调整成本-性能权衡。选项包括最大化预期总性能（或处理的输入数量）同时保持在给定的成本预算内，或者最小化处理所有输入的总成本。

最先进的语言模型 (LM) 具有数千亿个参数，因此需要大量的计算能力，从而导致更高的成本。例如，在 8K tokens 上下文中运行 GPT-4 的成本，比在 4K tokens 上下文中对同一查询运行 GPT-3.5 的成本高出 20 倍。尽管 LLM 擅长处理复杂的语言任务，但重要的是要认识到并非每种情况都需要它们的强大功能。较小的 LM 通常擅长处理较简单的语言任务，在不需要完整 LLM 功能的情况下，它们可能是一种更具成本效益的选择。例如，用四种不同语言模型检查 14 个数据集，33% 的数据样本由最大的模型和至少一个较小的模型成功解决，而 11% 的数据样本仅由一个或多个较小的模型解决，而最大的模型无法正确回答。因此，将每个输入分配给能够解决该输入的最便宜的模型，可以节省成本。实现这一点的问题是如何提前预测哪些模型可以正确解决哪些输入——而不是在每个输入上实际运行每个 LM，这将违背目的。Chen [3] 建议级联使用越来越昂贵的 LM，直到获得令人满意的结果。这可能需要对每个输入查询多个 LM，这是需要要避免的。

如图所示FORC 概述，用于成本-高效的 LM 选择框架，包括两个步骤：（1）预测每个候选 LM 对每个输入查询的成本和性能。成本预测使用 API 定价完成。性能预测使用元模型完成，该模型基于现有的 LM 查询和 LM 性能分数对，提前进行训练（未显示）。（2）使用分配策略将每个查询分配给最多一个 LM，低成本实现较高的总体预期性能。注意：这两个步骤不需要与 LM 交互；只有在完成上述步骤后，查询才会被提供给分配的 LM。

有两种类型的策略：

(i) 成本不敏感策略：将成本不敏感策略应用于样本时，不会考虑用户可能设置的预算或性能的任何限制。每个数据样本都以相同的方式处理，独立于整个批次。定义以下成本不敏感策略：

(a) 单一模型策略：此策略意味着将可用 LM 中的单个固定 LM 应用于每个样本。
(b) 性能最大化策略：此策略基于元模型的输出。对于每个样本，选择元模型预测可实现最高性能的 LM。
(c) 阈值策略：此策略也基于元模型的输出。用户必须指定一个可接受的性能阈值来定义任务是否已解决。根据该阈值对输出进行二值化。此策略可能有用的一个具体示例是使用二值指标（例如准确度）评估的任务。该策略的工作原理是选择解决相应数据样本最便宜的 LM。如果没有一个 LM 能够根据元模型解决样本，则研究两种可能性：为该数据样本选择最小（因此通常最便宜）的 LM，或选择最大（因此通常最强大）的 LM。

(ii) 成本敏感策略：与成本不敏感策略相反，在这种情况下，考虑用户为整个数据样本批次设置的约束（例如成本约束）。这样问题转化为优化问题。采用以下成本敏感策略：

(a) 面向成本的 ILP 策略：为每个样本分配一个 LM 的问题表述为整数线性规划 (ILP) 问题。将 𝑀 定义为 LM 集，𝑆 定义为需要分配给 LM 的样本集，𝐶max 定义为处理所有样本的最大总成本。引入一个二元变量 𝑥𝑖𝑗 来描述数据样本 𝑞𝑗 和 LM 𝑙𝑖 之间的分配（或不分配）。如果 𝑥𝑖𝑗 = 1，则样本 𝑞𝑗 被分配给 LM 𝑙𝑖 。样本不一定必须分配给任何 LM。将样本 𝑞𝑗 分配给 LM 𝑙𝑖 与成本 𝑐𝑖𝑗 和值 𝑝𝑖𝑗 相关联，其中成本 𝑐𝑖𝑗 对应于估计成本，值 𝑝𝑖𝑗 对应于使用 LM 𝑙𝑖 解决样本 𝑞𝑗 时的预测性能。目标是在尊重成本约束的同时最大化整个样本集的性能。

元建模方法选择成本-高效的语言模型

正文

请到「今天看啥」查看全文