本文介绍了MAGICORE,这是一种自适应地为更具挑战性的问题分配更多计算资源的方法。
大语言模型(LLM)的推理能力可以通过测试时聚合策略来改进,即为每个问题生成多个样本并对它们进行聚合以找到更好的答案。这些方法往往会达到饱和点,超过这个点后额外的样本不会带来更多收益。精炼(refinement)提供了另一种选择,它使用模型生成的反馈不仅采样更多解决方案,还提高它们的质量。但是精炼引入了三个关键挑战:
(1)过度精炼:对所有实例进行统一精炼可能导致过度校正并降低整体性能。
(2)无法定位和解决错误:LLM自我纠正能力有限,难以以有针对性的方式识别和纠正自己的错误。
(3)精炼不足:确定需要多少轮精炼并非易事,过早停止可能会导致错误未得到解决。
为了解决这些问题,论文提出了MAGICORE,一个用于粗到细精炼的多代理迭代框架。MAGICORE旨在通过将问题分类为简单或困难,为简单问题使用粗粒度聚合,为困难问题使用细粒度和迭代多代理精炼,从而避免过度精炼。
主要贡献
精炼面临的问题
Magicore:自适应粗到细精炼框架
MAGICORE是一个自适应框架,旨在通过智能应用测试时聚合和精炼来改进LLM多步推理的性能和效率。
MAGICORE框架
MAGICORE框架包含三个模型:
框架概述
问题难度分类和粗细方法分配
条件1:多数答案质量是否高?
条件2:奖励模型的答案置信度是否高?
检查RM是否对任何单个答案有信心。置信度由答案分布的集中程度决定(即,是否有一个簇突出)。
集中的分布表示高置信度,而分散的分布表示低置信度。答案分布由(1)每个唯一答案的频率和(2)每个答案簇的总RM分数形成。
每个答案簇按其聚合RM分数加权,类似于加权自一致性中使用的方法。
使用答案簇的熵计算置信度(表示为C)。如果C ≥ 0.5,条件2为真,意味着RM对一个答案有信心。如果C < 0.5,条件2为假,表示不确定性并需要进一步精炼。
粗到细决策
细粒度多代理迭代精炼
Solver生成k个解决方案
Reviewer生成有针对性的反馈
Refiner基于有针对性的反馈改进解决方案
迭代精炼过程以实现双向通信
最终答案选择
评估结果
主要结果
下表展示了不同方法和模型的性能比较:
下图显示了MAGICORE、Best-of-k和Self-Refine + k-way SC (SR + SC)在迭代中的比较,平均跨五个数据集:
下图显示了MAGICORE、k-way SC和Best-of-k在MATH上不同k的比较:
分析
选择性精炼避免过度校正并改善整体性能
下表显示了在统一采用聚合(即加权SC)或对所有实例进行精炼时的比较:
基于PRM的有针对性反馈能够更好地精炼
下表显示了MAGICORE中不同精炼变体的比较:
MAGICORE的两个条件用于分类问题难度比提示LLM或任何单独条件更有效
下表显示了检测困难问题的不同方法的比较:
分离Reviewer和Refiner角色比组合这些角色表现更好
下表检查了通过合并Reviewer和Refiner的提示来组合它们的角色的效果,指示模型同时生成反馈和精炼解决方案:
性能提升评价指标
MAGICORE的性能提升主要通过以下指标进行评估:
与基线方法的准确率比较:
与精炼方法的比较:
迭代性能:
样本效率:
难度分类准确性:
多代理设置的效果:
这些评价指标全面地展示了MAGICORE在各个方面的性能提升,包括准确率、样本效率、迭代改进能力,以及在不同类型问题上的表现。
总结
本文介绍了MAGICORE,这是一种自适应地为更具挑战性的问题分配更多计算资源,并在适当的地方(即困难问题上)有选择地应用精炼的方法。MAGICORE解决了精炼中的三个关键问题:简单示例上的过度精炼、LLM无法检测和纠正其推理中的错误,以及困难实例上的精炼不足。
在五个数学数据集和两个模型上的结果表明,论文的粗到细方法在任何给定预算下都始终优于单独的粗粒度聚合和细粒度精炼,甚至优于使用大量更多计算的基线。
论文: https://arxiv.org/abs/2409.12147
代码: https://github.com/dinobby/MAgICoRe编辑:黄继彦
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU