24年6月来自谷歌DeepMind的论文“Improve Mathematical Reasoning in Language Models by Automated Process Supervision”。
先进的大语言模型 (LLM) 来说仍然是一个重大障碍。使用
结果奖励模型 (ORM)
验证 LLM 输出是一种标准的推理-时间技术,旨在提高 LLM 的推理性能。然而,对于具有较长或多步推理链的推理任务,这仍然不够,因为中间结果既没有得到适当的奖励也没有受到惩罚。过程监督在推理过程中分配中间奖励来解决这一限制。到目前为止,用于收集过程监督数据的方法依赖于人工标注或每步的蒙特卡洛估计,这两种方法的规模化成本都过高,从而阻碍了这种技术的广泛应用。为了应对这一挑战,OmegaPRM 是一个分而治之式蒙特卡洛树搜索 (MCTS) 算法,用于高效收集高质量的过程监督数据。该算法通过二分搜索快速识别思维链 (CoT) 中的第一个错误,并平衡正反例,从而确保效率和质量。因此,能够收集超过 150 万个流程监督标注来训练
流程奖励模型 (PRM)
。利用这种全自动流程监督以及加权自洽算法,增强了指令调整的 Gemini Pro 模型数学推理性能,在 MATH 基准上实现 69.4% 的成功率,与 51% 的基础模型性能相比提高了 36%。
尽管各种大语言模型 (LLM) 基准测试通过简单地扩大模型规模取得了重大进展 (Wei et al., 2022a),但复杂推理能力的发展,特别是在数学问题解决和代码生成等任务中,需要更深入的理解,并且仍然是一个活跃的研究前沿。提出了思维链 (CoT) 提示 (Wei et al., 2022b),以指导 LLM 将推理任务分解为一系列中间步骤,类似于人类的推理过程。CoT 提高了 LLM 在许多推理任务上的性能,但贪婪解码策略限制了其性能。为了解决这个问题,(Wang 2023) 提出了自洽解码策略,利用多条推理路径来得出投票答案。除了这些以提示为重点的工作之外,使用问题- CoT 解决方案对,对 LLM 进行微调(Ouyang,2022;Perez,2021)被证明是有效的,其表现优于仅使用提示的方法,这是可以理解的。
旨在提高推理能力的第三个活跃研究领域是使用验证器来辅助 LLM 推理。现成的 LLM 是验证器的直接选择(Huang,2022;Luo,2023)。虽然它们可用于在得出最终答案后验证结果、识别潜在错误并提出更正建议,但当涉及到复杂的多步数学推理问题时,此类辅助工具的性能仍然有限。自 RLHF(Ouyang,2022)问世以来,奖励模型已被用来将 LLM 行为与人类偏好保持一致,并被证明是训练中的关键步骤。使用奖励模型作为验证器,可以根据奖励对模型候选结果进行重新排序,以确保更高的准确性和可靠性。
经常使用两种主要的奖励模型:结果奖励模型 (ORM;Cobbe,2021;Yu,2024) 和过程奖励模型 (PRM;Li,2023;Lightman,2023;Uesato,2022)。在 RLHF 中广泛使用的 ORM 仅在问题解决结束时产生信号,这意味着推理链的中间步骤根本没有奖励或惩罚。鉴于这一明显的缺点,PRM 应运而生,以更细粒度的方式利用奖励模型,通过明确奖励或惩罚每个推理步骤,即过程监督。
顾名思义,过程监督需要监督数据。到目前为止,收集此类数据在很大程度上依赖于人工注释(Lightman,2023;Uesato,2022)。注释者必须一丝不苟地标记每个多步骤推理问题的每个步骤,所需的技能水平和纯粹的人力投入使得这种做法成本高昂且难以扩展。最近使用每步的蒙特卡洛估计来自动化此类数据收集过程的努力,已经显示出有希望的结果(Wang,2024a、b)。此数据收集过程,将人工注释者排除在循环之外,但此类算法的效率仍然是一个问题。
下面介绍本文的方法OmegaPRM。如图所示:OmegaPRM 算法构建的示例树结构。树中的每个节点都表示部分思维链解决方案的状态,其中包含信息,如推出的准确性和其他统计数据。每条边都表示从上一个状态开始的一个动作,即推理步骤。黄色边是正确的步骤,蓝色边是错误的步骤。
过程监督是为区别于结果监督而提出的一个概念。
用这些目标训练的奖励模型分别称为过程奖励模型 (PRM) 和结果奖励模型 (ORM)。
在 ORM 框架中,给定一个查询 𝑞(例如,一个数学问题)及其对应的响应 𝑥(例如,一个模型生成的解决方案),ORM 经过训练可以预测响应中最终答案的正确性。
形式上,ORM 取 𝑞 和 𝑥,并输出响应中最终答案正确的概率 𝑝 = ORM(𝑞, 𝑥)。
有了一组可用的问-答对训练集,可以通过使用问题从策略模型(例如,预训练或监督微调的 LLM)中抽样输出并通过将这些输出与黄金答案进行比较来获得正确性标签,从而训练 ORM。
相比之下,PRM 经过训练可以预测解决方案中每个中间步骤 𝑥𝑡 的正确性。正式来说,𝑝𝑡 = PRM([𝑞, 𝑥1:𝑡−1], 𝑥𝑡),其中 𝑥1:𝑖 = [𝑥1, . . . , 𝑥𝑖] 表示解决方案中的前 𝑖 步。这比 ORM 提供了更精确、更细粒度的反馈,因为它可以识别错误的确切位置。过程监督还被证明可以减轻数学问题解决领域的错误推理。尽管有这些优势,但获取每个步骤正确性的中间信号来训练这样的 PRM 并非易事。以前的工作(Lightman,2023)依赖于聘请域专家手动注释标签,这很难扩展。
在两篇密切相关的方法 Math-Shepherd(Wang et al.,2024a)和 MiPS(Wang et al.,2024b)中,作者提出了一种使用蒙特卡罗方法获取过程监督信号的自动注释方法。具体而言,建立了一个“完成者”策略,该策略可以采用问题 𝑞 和一个由前 𝑡 步骤 𝑥1:𝑡 组成的前缀解决方案,并输出后续步骤的完成情况(在强化学习中通常称为“rollout”),直到得出最终答案。对于解决方案的任何步骤,完成者策略可用于从该步骤中随机抽取 𝑘 个 rollout。将这些 rollout 的最终答案与黄金答案进行比较,提供与 𝑘 个 rollout 相对应的 𝑘 个答案正确性标签。随后,计算第 𝑡 步中正确 rollout 占总 rollout 的比率,如等式(1)所示,估计前缀步骤的“正确性水平”最高直到 𝑡 步。无论假的正样本如何,只要在逻辑推理场景中任何一个推出是正确的,𝑥1:𝑡 就应该被视为正确的。
更进一步,在注释解决方案中,中间步骤正确性的一种直接策略是从头到尾执行每个步骤的部署,就像 Math-Shepherd 和 MiPS 中所做的那样。
然而,这种蛮力方法需要大量的策略调用。
为了优化注释效率,本文提出了一种基于二分搜索的蒙特卡洛估计。
如图所示:
(a) 前缀解决方案的蒙特卡洛估计示例,三次部署中两次是正确的,得出蒙特卡洛估计 MC(𝑞, 𝑥1:𝑡) = 2/3 ≈ 0.67。
(b) 使用二分搜索定位错误的示例,第一个错误步骤位于三次分拆部署后的第 7 步,其中部署位置由垂直虚线表示。