23年5月来自OpenAI的论文“Let’s Verify Step by Step”。
近年来,大语言模型在执行复杂的多步骤推理的能力方面已大大提高。然而,即使是最先进的模型仍然经常产生逻辑错误。为了训练更可靠的模型,我们可以采用结果监督(
ORM
为最终结果提供反馈)或过程监督(
PRM
为每个中间推理步骤提供反馈)。鉴于训练可靠模型的重要性,以及人工反馈的高成本,仔细比较这两种方法非常重要。最近的工作已经开始了这种比较,但仍有许多问题。在训练模型解决具有挑战性的
MATH
数据集问题时,过程监督的表现明显优于结果监督。过程监督模型解决了 MATH 测试集代表性子集中 78% 的问题。此外,主动学习显著提高了过程监督的有效性。为了支持相关研究,
PRM800K
发布用于训练最佳奖励模型带 800,000 步人工反馈标签的完整数据集。
Uesato (2022) 描述了两种不同的奖励模型训练方法:结果监督和过程监督。结果
监督奖励模型 (ORM)
仅使用模型思维链的最终结果进行训练,而
过程监督奖励模型 (PRM)
则会接收思维链中每一步的反馈。有令人信服的理由支持过程监督。它提供更精确的反馈,因为它指定了发生的任何错误的确切位置。它还具有与 AI 对齐相关的几个优势:它更容易被人类解释,并且它更直接地奖励遵循人类认可的思维链模型。在逻辑推理领域,使用结果监督训练的模型经常使用不正确的推理来得出正确的最终答案 (Zelikman,2022;Creswell,2022)。事实证明,过程监督可以缓解这种不一致的行为(Uesato,2022)。
尽管有这些优势,Uesato (2022) 发现,在小学数学领域,结果监督和过程监督的最终表现相似。本文对结果和过程监督进行详细的比较,主要有三个不同之处:用更强大的基础模型,用更多的人工反馈,在更具挑战性的 MATH 数据集上进行训练和测试(Hendrycks,2021)。
在两种不同的方案中开展实验:大规模和小规模。每种方案都有自己的优势,并且提供了互补的视角。在大规模方案中,对 GPT-4(OpenAI,2023)中的所有模型进行微调。专注于通过训练最可靠的 ORM 和 PRM 来推进最先进的技术。不幸的是,这些奖励模型的训练集无法直接比较。因此,这些模型不适合对结果和过程监督进行同类比较。为了解决这个问题,还在小规模上训练模型,这样就可以进行更直接的比较。为了消除对昂贵的人工反馈依赖,用大规模模型来监督小规模模型训练。这种设置能够进行几项重要的消融,否则这些消融是不可行的。
作为额外的预训练步骤,在一个包含约 15 亿个数学相关tokens的数据集上对所有模型进行微调,称为 MathMix。与 Lewkowycz (2022) 的研究类似,这提高了模型的数学推理能力。
通过少量样本生成数学训练问题的解决方案,筛选出那些能得到正确最终答案的解决方案,并在一个时期内基于此数据集微调基础模型。此步骤并非旨在教生成器新技能;它仅旨在教生成器以所需的格式生成解决方案。
为了收集过程监督数据,向数据标注员提供由大规模生成器采样的数学问题分步解决方案。他们的任务是为解决方案中的每个步骤分配积极、消极或中性的标签,如图所示。
仅从大型生成器中标记解决方案,以最大限度地发挥有限的人力数据资源价值。将收集的整个步骤级标签数据集称为 PRM800K。PRM800K 训练集包含 12K 问题的 75K 解决方案 800K 步骤级标签。为了最大限度地减少过拟合,在 PRM800K 训练集中包含 4.5K 数学测试问题的数据,因此只在剩余的 500 个数学测试问题上评估模型。
选择展示令人信服(convincing)的错误-答案解决。用“令人信服”一词来指代当前最佳 PRM 评分较高的解决方案,并使用错误-答案来指代得出错误最终答案的解决。希望从标记令人信服的错误答案解决方案中获得更多信息,因为 PRM 在每个此类解决方案中至少有一个步骤是错误的。
尝试在问题层面(每个问题 K 个解决方案)或整个数据集(总共 K 个解决方案,在问题之间不均匀分布)应用此 top-K 滤波。由于数据收集过程成本高昂,因此无法大规模地进行这些决策的消融。
ORM 通常通过自动检查最终答案来确定正确性,但原则上这些标签可以由人类提供。在测试时,用 ORM 对最终标记的预测作为解决方案的总体得分。
PRM 可以在标准语言模型流水线中训练,无需任何特殊调整。要确定测试时的步骤级预测,只需对整个解决方案执行一次 PRM 前向传递即可。如图可视化两个不同解决方案的大规模 PRM 分数。要比较多个解决方案,需要为每个解决方案计算一个分数。一个重要细节:将解决方案的 PRM 分数定义为 PRM 下每个步骤都正确的概率。将其实现为每个步骤正确性概率的乘积。