Math-Shepherd：无需人工注释，一步步验证并强化 LLM

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-20 05:37

正文

24年2月来自北京大学、DeepSeek-AI、香港大学、清华大学和俄亥俄州立大学的论文“Math-Shepherd: Verify And Reinforce LLMs Step-by-step Without Human Annotations”。

本文提出一种面向过程的数学过程奖励模型 MATH-SHEPHERD，该模型为数学问题解决的每一步分配一个奖励分数。MATH-SHEPHERD 的训练，是使用自动构建的过程监督数据实现的，突破了现有工作中严重依赖人工注释的瓶颈。从两个场景探索 MATH-SHEPHERD 的有效性：1）验证：MATH-SHEPHERD 用于对大语言模型 (LLM) 生成的多个输出进行重新排序；2）强化学习：MATH-SHEPHERD 用于通过逐步的近端策略优化 (PPO) 来强化 LLM。借助 MATH-SHEPHERD，一系列开源 LLM 表现出色。例如，使用MATH-SHEPHERD的逐步PPO显著提高了Mistral-7B的准确率（GSM8K上77.9%→84.1%，MATH上28.6%→33.0%）。经过MATH-SHEPHERD的验证，准确率在GSM8K和MATH上分别可进一步提高到89.1%和43.5%。

大语言模型 (LLM) 已在各种任务中表现出卓越的能力 (Park，2023；Kaddour，2023；Song；Li，2023a；Wang，2023a；Chen，2023；Zheng，2023；Wang，2023c)，然而，即使是最先进的 LLM 也在复杂的多步数学推理问题中面临挑战 (Lightman，2023；Huang，2023)。为了解决这个问题，先前的研究探索了不同的方法，例如预训练（Azerbayev，2023）、微调（Luo，2023；Yu，2023b；Wang，2023b）、提示（Wei，2022；Fu，2022）和验证（Wang，2023d；Li，2023b；Zhu，2023；Leviathan，2023）。在这些技术中，验证慢慢成为一种受欢迎的方法。验证背后的动机是，仅依靠 top-1 结果可能并不总是产生可靠的结果。验证模型可以对候选答案进行重排序，从而确保 LLM 输出的准确性和一致性更高。此外，良好的验证模型还可以为 LLM 的进一步改进提供宝贵的反馈（Uesato，2022；Wang，2023b；Pan，2023）。

验证模型通常分为结果奖励模型 (ORM) （Cobbe，2021；Yu，2023a）和过程奖励模型 (PRM) （Li，2023b；Uesato，2022；Lightman，2023；Ma，2023）。ORM 根据整个生成序列分配置信度分数，而 PRM 则逐步评估推理路径。PRM 具有多种令人信服的优势。一个主要的好处是，它能够通过识别可能出现的任何错误具体位置来提供精确的反馈，这是强化学习和自动纠正中的宝贵信号。此外，PRM 在评估推理问题时表现出与人类行为的相似性。如果任何步骤包含错误，最终结果很可能是不正确的，这反映了人类判断的工作方式。然而，收集数据来训练 PRM 可能是一个艰巨的过程。Uesato (2022) 和 Lightman (2023) 利用人工注释者提供过程监督注释，提高了 PRM 的性能。然而，人工注释，特别是对于需要高级注释者技能的复杂多步骤推理任务，可能非常昂贵，这阻碍了 PRM 的进步和实际应用。

如图所示：用 MATH-SHEPHERD 在 GSM8K 和 MATH 数据集上评估各种 LLM 的性能。所有基础模型都使用 MetaMath 数据集进行微调 (Yu et al., 2023b)。+SHEPHERD 结果是通过使用 MATH-SHEPHERD 从 256 个候选模型中选择最佳模型而获得的。MATH-SHEPHERD 与不同的 LLM 兼容。GPT-4（早期）的结果来自（Bubeck et al. 2023)。

验证。按照（Lightman，2023），考虑 N 选 1 选择评估范式。具体来说，给定测试集中的问题 p，从生成器中抽取 N 个候选解决方案。然后使用奖励模型对这些候选方案进行评分，并选择得分最高的解决方案作为最终答案。增强的奖励模型，提高了选择包含正确答案的解决方案可能性，从而提高了解决 LLM 数学问题的成功率。

强化学习。用自动构建的 PRM 来监督具有分步 PPO 的 LLM。在这种情况下，评估 LLM 贪婪解码输出的准确性。增强的奖励模型有助于训练更高性能的 LLM。

给定一个数学问题 p 及其解 s，ORM（P × S → R）为 s 分配一个实数值，以指示 s 是否正确。ORM 通常使用交叉熵损失进行训练（Cobbe，2021；Li，2023b）：

更进一步，PRM(P×S→R+)为s的每个推理步骤分配一个分数，通常用以下方法训练：

受蒙托卡罗树搜索 (Kocsis & Szepesva ́ri, 2006; Coulom, 2006; Silver, 2016; Swiechowski, 2023) 的启发，将推理步骤的质量定义为其推断出正确答案的潜力。该标准源于推理过程的主要目标，推理过程本质上是一种认知过程，可帮助人类或智体得出有理有据的结果 (Huang & Chang, 2023)。因此，具有推断出有理有据结果潜力的步骤可被视为良好的推理步骤。与 ORM 类似，此定义也引入一定程度的噪音。尽管如此，它有利于有效训练良好的 PRM。

为了量化和估计给定推理步骤 si 的潜力，如图所示，用“完成器”来完成此步骤的 N 个后续推理过程：{(s/i+1,j,··· ,s/Kj,j,aj)}，其中 aj 和 Kj 分别是解码后的答案和第 j 个最终解决方案的总步骤数。然后，根据所有解码答案的正确性 A = {aj} 来估计此步骤的潜力。

Math-Shepherd：无需人工注释，一步步验证并强化 LLM

正文

请到「今天看啥」查看全文