专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
百姓关注  ·  梵净山紧急通知:暂时封闭! ·  昨天  
百姓关注  ·  多多买菜贵州多地招合伙人 ·  2 天前  
百姓关注  ·  部分景点暂时封闭!贵州知名景区紧急通知 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

FrugalGPT 解锁 LLM 新姿势:如何在保持准确率的同时省钱省力

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-17 07:29

正文

榴莲忘返 2014

编辑:Student Zero

导读

作者提出了一种名为 FrugalGPT 的简单灵活的 LLM 级联方法,帮助用户在降低使用大型语言模型(LLM)成本的同时提高准确性。

随着大型语言模型(LLM)的迅速发展,越来越多的用户需要支付费用来查询它们。流行的 LLM API,如 GPT-4、ChatGPT 和 J1-Jumbo 等,存在不同程度的价格差异,费用相差可高达两个数量级。尤其是在大量查询和文本上使用 LLM 时,费用可能非常昂贵。

为解决这一问题,作者提出了三种降低使用 LLM 推理成本的策略:1) 提示适应 ,2) LLM 近似 ,3) LLM 级联

以 FrugalGPT 为例,这是一种简单而灵活的 LLM 级联实例,可以根据不同的查询选择合适的 LLM 组合以降低成本并提高准确性。

作者的实验表明,FrugalGPT 在降低成本的同时,能够达到最佳单一 LLM(如 GPT-4)的性能,最多可节省 98% 的成本。相同成本下,其准确性比 GPT-4 高出 4%。本文提出的观点和发现为 LLM 的可持续和高效使用奠定了基础。

引言

如今,大型语言模型(LLM)正处于爆炸式发展阶段。随着越来越多的公司(如 OpenAI、AI21 和 CoHere 等)提供 LLM 服务,LLM 在商业、科学和金融等大规模应用中的诱人前景引发了广泛关注。

作者提出了一个灵活的框架——FrugalGPT,利用 LLM API 处理自然语言查询,同时满足预算约束。实验表明,FrugalGPT 在保持与最佳单一 LLM API 相当的下游任务性能的同时,最多可以节省 98%的推理成本。

值得注意的是,LLM API 的输出涵盖了整个自然语言空间,但现有工作需要固定的标签集。提示选择和 LLM API 选择对生成任务的性能产生显著影响,导致优化空间比标准分类任务大得多。

问题陈述

对于许多小企业来说,LLM API 的高昂成本限制了其在各领域的广泛应用,因此需要一种有效策略来降低成本。

LLM API 通常包含三个成本组成部分:与提示长度成比例的部分、与生成答案长度成比例的部分以及每次查询的固定成本。以 GPT-4 为例,输入和响应的成本分别为每千个令牌 0.03 和 0.06 美元。因此,每月的总成本约为 360 × (0.03 × 1800 + 0.03 × 1800 + 0.06 × 80) ≈ $21.2K 。如此高的成本对许多小型企业来说是难以承受的。

值得注意的是,策略的搜索空间非常广阔,涉及诸如使用哪些提示、采用哪些 LLM API 以及如何聚合它们的响应等因素。为了降低成本,需要在这个复杂的搜索空间中找到一种有效的策略。

总之,针对高昂的 LLM API 成本,作者需要探讨一种降低成本的有效策略,以便让更多的小型企业能够在各个领域利用这些模型。

  • 💸 LLM API 成本包括三部分:提示长度、生成答案长度和固定查询成本

  • 📈 GPT-4 的高昂成本不适合许多小企业

  • 🧩 策略搜索空间包括多种因素:提示选择、LLM API 选择和聚合响应方式

解决方案

通过采用 FrugalGPT 框架,作者可以实现在降低 LLM 成本的同时提高准确性,从而实现更加经济、高效地使用 LLM。

为了实现 LLM 的经济、准确使用,可以采用以下方法:

  • 缩小提示以降低成本;当多个用户同时搜索相同或类似的关键词时,通过只调用一次 LLM 完成缓存来回答所有查询;
  • 另一个例子是模型微调。联合提示和 LLM 选择是提示选择和 LLM 级联的组合:对于给定的查询,它会寻找最小的提示和最实惠的 LLM,以实现满意的任务性能。
  • 还可以在现有的 LLM API 和微调模型之间进行搜索。这为研究查询成本、任务性能和计算成本之间的权衡铺平了道路。

LLM 级联可以降低成本并提高准确性。作者对 FrugalGPT LLM 级联进行了实证研究,目标有三个方面:

  • (i)了解 LLM 级联的简单实例学到了什么;
  • (ii)量化 FrugalGPT 在达到最佳单一 LLM API 性能的同时所实现的成本节省;
  • (iii)衡量 FrugalGPT 实现的性能和成本之间的权衡。

FrugalGPT 已经在这些 API 的基础上开发,并在一系列不同任务的数据集上进行了评估,包括 HEADLINES [SK21]、OVERRULING [ZGA+21]和 COQA [RCM19]。

COQA 是一个在对话设置中开发的阅读理解数据集,作者将其改编为直接查询回答任务。如果 J1-L 的答案得分大于 0.37,则接受其作为最终回答;否则,调用 GPT-4 以获得最终答案。

这种方法在许多查询中胜过 GPT-4。对于来自纳斯达克的标题“ Gold off the lows after dismal U.S GDP data ”,FrugalGPT 准确预测价格下跌,而 GPT-4 无法预测。

通过采用 FrugalGPT 框架,作者可以在降低成本的同时提高准确性,为使用 LLM 提供了更为经济、高效的途径。

简而言之:

  • 🔍 降低成本的方法:缩小提示、完成缓存、模型微调

  • 🎯 联合提示和 LLM 选择

  • 📊 FrugalGPT 的实证研究:理解、量化成本节省和性能成本权衡

结果

实验证明,FrugalGPT 在降低成本的同时,保持了最先进 LLM 的性能,为 LLM 用户提供了灵活的选择,有助于节省能源和减少碳排放。

几点发现:

  • 💰 FrugalGPT 在成本降低 98%的情况下,性能与最佳个体 LLM 相当

  • 🎯 准确性提高 4%,成本不变

  • 🌍 节省能源和减少碳排放

实验结果表明,FrugalGPT 在降低成本 98%的情况下,性能与最佳个体 LLM(例如 GPT-4)相当,或者在相同成本下提高 GPT-4 的准确性 4%。

在 OVERRULING 数据集上,与最佳 LLM API GPT-4 相比,FrugalGPT 在减少成本 73%的情况下实现了 1%的准确性提升。作者的实证研究发现,FrugalGPT 在保持最先进 LLM 性能的同时,可以将成本降低高达 98%。

值得注意的是,FrugalGPT 在所有评估数据集上实现了平稳的性能-成本权衡,为 LLM 用户提供了灵活的选择。这不仅有助于 LLM API 供应商节省能源,还有助于减少碳排放。

在 OVERRULING 数据集上,与最佳 LLM API GPT-4 相比,FrugalGPT 在降低成本 73%的情况下实现了 1%的准确性提高。FrugalGPT 接受 GPT-J 的正确答案,避免使用昂贵的 LLM,提高了整体性能。

随着 LLM 及其应用的不断演进,必然会出现新的挑战和机遇,促进这一动态领域的进一步研究和发展。

图表:

图 1 :通过优化不同 LLM API(如 GPT-J,ChatGPT 和 GPT-4)以及提示策略(如 Zero-Shot、Few-Shot 和 CoT)的选择,作者可以实现显著的效率提升。

在提高准确性的同时降低 LLM 成本的愿景

图 2 :提示选择使用一部分上下文示例作为提示以减小提示的大小;查询连接将多个查询合并以共享提示;完成缓存在提出类似查询时存储和重用 LLM API 的响应;模型微调使用昂贵的 LLM 响应来微调便宜的 LLM;LLM 级联为不同查询使用不同的 LLM API。

节省成本策略的示例

图 3 :FrugalGPT 在此数据集上学到了级联策略,总预算为 6.5 美元,是 GPT-4 成本的五分之一。只要 GPT-J 和 J1-L 生成高质量答案,FrugalGPT 就避免查询 GPT-4。作者观察到,与 GPT-4 相比,FrugalGPT 将成本降低了 80%,同时将准确性提高了 1.5%。

在 HEADLINES 数据集上的 FrugalGPT 案例研究

图 4 :作者观察到,便宜的 LLM 很多时候可以补充昂贵的 LLM。例如,在 HEADLINES 数据集上,约 6%的数据中,GPT-4 出错,但 GPJ-J(或 J-L 或 GPT-C)给出了正确答案。

每对 LLM 的最大性能改进(MPI)






请到「今天看啥」查看全文