专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
邢者团队晚间解盘  ·  注意回踩 ·  8 小时前  
掌上春城  ·  突发坠机! ·  20 小时前  
美股投资网  ·  特斯拉今天为何再度重挫?2025.2.11 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

Math-Shepherd:无需人工注释,一步步验证并强化 LLM

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-20 05:37

正文

24年2月来自北京大学、DeepSeek-AI、香港大学、清华大学和俄亥俄州立大学的论文“Math-Shepherd: Verify And Reinforce LLMs Step-by-step Without Human Annotations”。

本文提出一种面向过程的数学过程奖励模型 MATH-SHEPHERD,该模型为数学问题解决的每一步分配一个奖励分数。MATH-SHEPHERD 的训练,是使用自动构建的过程监督数据实现的,突破了现有工作中严重依赖人工注释的瓶颈。从两个场景探索 MATH-SHEPHERD 的有效性:1)验证:MATH-SHEPHERD 用于对大语言模型 (LLM) 生成的多个输出进行重新排序;2)强化学习:MATH-SHEPHERD 用于通过逐步的近端策略优化 (PPO) 来强化 LLM。借助 MATH-SHEPHERD,一系列开源 LLM 表现出色。例如,使用MATH-SHEPHERD的逐步PPO显著提高了Mistral-7B的准确率(GSM8K上77.9%→84.1%,MATH上28.6%→33.0%)。经过MATH-SHEPHERD的验证,准确率在GSM8K和MATH上分别可进一步提高到89.1%和43.5%。


大语言模型 (LLM) 已在各种任务中表现出卓越的能力 (Park,2023;Kaddour,2023;Song;Li,2023a;Wang,2023a;Chen,2023;Zheng,2023;Wang,2023c),然而,即使是最先进的 LLM 也在复杂的多步数学推理问题中面临挑战 (Lightman,2023;Huang,2023)。为了解决这个问题,先前的研究探索了不同的方法,例如预训练(Azerbayev,2023)、微调(Luo,2023;Yu,2023b;Wang,2023b)、提示(Wei,2022;Fu,2022)和验证(Wang,2023d;Li,2023b;Zhu,2023;Leviathan,2023)。在这些技术中,验证慢慢成为一种受欢迎的方法。验证背后的动机是,仅依靠 top-1 结果可能并不总是产生可靠的结果。验证模型可以对候选答案进行重排序,从而确保 LLM 输出的准确性和一致性更高。此外,良好的验证模型还可以为 LLM 的进一步改进提供宝贵的反馈(Uesato,2022;Wang,2023b;Pan,2023)。

验证模型通常分为 结果奖励模型 (ORM) (Cobbe,2021;Yu,2023a)和 过程奖励模型 (PRM) (Li,2023b;Uesato,2022;Lightman,2023;Ma,2023)。ORM 根据整个生成序列分配置信度分数,而 PRM 则逐步评估推理路径。PRM 具有多种令人信服的优势。一个主要的好处是,它能够通过识别可能出现的任何错误具体位置来提供精确的反馈,这是强化学习和自动纠正中的宝贵信号。此外,PRM 在评估推理问题时表现出与人类行为的相似性。如果任何步骤包含错误,最终结果很可能是不正确的,这反映了人类判断的工作方式。然而,收集数据来训练 PRM 可能是一个艰巨的过程。Uesato (2022) 和 Lightman (2023) 利用人工注释者提供过程监督注释,提高了 PRM 的性能。然而,人工注释,特别是对于需要高级注释者技能的复杂多步骤推理任务,可能非常昂贵,这阻碍了 PRM 的进步和实际应用。

如图所示:用 MATH-SHEPHERD 在 GSM8K 和 MATH 数据集上评估各种 LLM 的性能。所有基础模型都使用 MetaMath 数据集进行微调 (Yu et al., 2023b)。+SHEPHERD 结果是通过使用 MATH-SHEPHERD 从 256 个候选模型中选择最佳模型而获得的。MATH-SHEPHERD 与不同的 LLM 兼容。GPT-4(早期)的结果来自 (Bubeck et al. 2023)。


本文在两种情况下评估奖励模型的性能:

验证 。按照(Lightman,2023),考虑 N 选 1 选择评估范式。具体来说,给定测试集中的问题 p,从生成器中抽取 N 个候选解决方案。然后使用奖励模型对这些候选方案进行评分,并选择得分最高的解决方案作为最终答案。增强的奖励模型,提高了选择包含正确答案的解决方案可能性,从而提高了解决 LLM 数学问题的成功率。

强化学习 。用自动构建的 PRM 来监督具有分步 PPO 的 LLM。在这种情况下,评估 LLM 贪婪解码输出的准确性。增强的奖励模型有助于训练更高性能的 LLM。

给定一个数学问题 p 及其解 s,ORM(P × S → R)为 s 分配一个实数值,以指示 s 是否正确。ORM 通常使用交叉熵损失进行训练(Cobbe,2021;Li,2023b):


由于数学问题通常具有确定的答案,可以通过两个步骤自动构建 ORM 的训练集: 1)从生成器中抽取问题的一些候选解决方案; 2)通过检查其答案是否正确来为每个抽样解决方案分配标签。 虽然通过不正确的推理得出正确答案的假正样本解决方案将被错误评分,但先前的研究已经证明它对于训练良好的 ORM 仍然有效(Lightman,2023; Yu,2023a)。

更进一步,PRM(P×S→R+)为s的每个推理步骤分配一个分数,通常用以下方法训练:


将 PRM 训练视为二分类。 与 ORM 相比,PRM 可以提供更详细和可靠的反馈(Lightman,2023)。 但是,目前尚无可用于构建高质量 PRM 训练数据集的自动化方法。 以前的研究(Uesato,2022; Lightman,2023)通常采用昂贵的人工注释。 虽然 PRM 的表现优于 ORM(Lightman,2023),但注释成本不可避免地阻碍了 PRM 的开发和应用。

受蒙托卡罗树搜索 (Kocsis & Szepesva ́ri, 2006; Coulom, 2006; Silver, 2016; Swiechowski, 2023) 的启发,将推理步骤的质量定义为其推断出正确答案的潜力。该标准源于推理过程的主要目标,推理过程本质上是一种认知过程,可帮助人类或智体得出有理有据的结果 (Huang & Chang, 2023)。因此,具有推断出有理有据结果潜力的步骤可被视为良好的推理步骤。与 ORM 类似,此定义也引入一定程度的噪音。尽管如此,它有利于有效训练良好的 PRM。

为了量化和估计给定推理步骤 si 的潜力,如图所示,用“完成器”来完成此步骤的 N 个后续推理过程:{(s/i+1,j,··· ,s/Kj,j,aj)},其中 aj 和 Kj 分别是解码后的答案和第 j 个最终解决方案的总步骤数。然后,根据所有解码答案的正确性 A = {aj} 来估计此步骤的潜力。


用两种方法来估计步骤 si 的质量 ysi,硬估计(HE)和软估计(SE)。 HE 假设一个推理步骤只要能够得出正确答案 a∗,就是好的:







请到「今天看啥」查看全文