隐式 PRM：无需进程标签即可获得免费进程奖励

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-30 00:03

正文

24年12月来自UIUC、清华和华中理工的论文“Free Process Rewards Without Process Labels”。

与评估整个响应的结果奖励模型 (ORM) 不同，过程奖励模型 (PRM) 逐步对推理轨迹进行评分，提供更密集、更细粒度的奖励。但是，训练 PRM 需要在每个中间步骤注释标签，对手动和自动数据收集都提出重大挑战。

本文旨在应对这一挑战。从理论和实证两个角度，只需在更便宜的响应级标签上训练 ORM，即可在不增加额外成本的情况下获得隐式 PRM。唯一的假设，是将结果奖励参数化为策略和参考模型的对数似然比 r_θ (y) = β log π_θ (y)/π_ref (y)，无论损失目标的具体选择如何，都可以对其进行优化。

在实验中，用各种目标实例化隐式 PRM，并评估它们在 MATH 上的表现。使用不到 1/38 的训练数据，隐式 PRM 的表现优于基于 MCTS 强大基线 Math-Shepherd（Wang，2023）。通过多数投票，其性能可以进一步提高。扩大指令和响应有利于隐式 PRM，后者带来更大的收益。

特别是，当使用交叉熵 (CE) 损失实例化时，隐式 PRM 更高效地利用数据，即使在每个指令只有一个响应的情况下进行训练，也可以不断改进生成模型，这种设置存在极端的数据稀缺和不平衡问题。此外，指令应该与下游任务相关，而响应的多样性不会带来收益。对额外的 Math-Shepherd 步骤标签进行训练，并没有给仅对结果数据进行训练的隐式 PRM 带来进一步的改进。

如图所示：隐式 PRM 无需额外成本即可获得免费的过程奖励，而只需在更便宜的响应级标签上训练 ORM 即可。在推理过程中，通过前向传递并计算每一步的对数似然比来获得隐式过程奖励。

在高质量监督数据上进行训练推动 LLM 发展的进步（Meta，2024；Ding，2023；Luo，2024b；Yue，2024；Yuan，2024；Zhang，2024b）。在此基础上，奖励模型进一步突破界限，尤其是在需要复杂推理的任务中（Lightman，2023；Wang，2023；Snell，2024）。结果奖励模型 (ORM) 旨在评估完整响应，已被主要探索，可用于强化学习 (RL) 和推理。然而，由于结果奖励稀疏，ORM 在推理时重新排序响应时通常会产生次优性能（Lightman，2023），并且在 RL 训练期间难以保持稳定性和效率（Cao，2024；Chan，2024）。这凸显对更密集、更细粒度奖励日益增长的需求。过程奖励模型 (PRM) 评估中间步骤以提供细粒度指导，自然满足了这一需求。现有研究已显示出一致的结果，即 PRM 在最佳 N 采样（Wang，2023；Snell，2024）和 RL（Setlur，2024）中的表现优于 ORM，并认为对每个中间步骤进行评分可以提供更好的透明度和可解释性（Leike，2024）。

尽管前景光明，但 PRM 比 ORM 更难训练，因为收集 PRM 训练数据需要注释每个中间步骤。为了减少人工，已经提出自动注释方法，其中根据中间步骤导致正确结果的估计概率对其进行标记。通常，这是通过采样大量前瞻轨迹来估计或直接训练验证器来预测 Q 值来实现的，这两种方法都会产生大量开销（Wang，2023；Lu，2024）。例如，像 Wang（2023）那样通过采样前瞻轨迹收集步骤级数据需要比训练 ORM 多 38.8 倍的 FLOPs。

从理论和经验的角度都认为，构建 PRM 的成本要比以前意识的低得多：通过简单的奖励参数化，在更便宜的响应级数据上训练 ORM，无需额外成本即可获得强大的 PRM。具体而言，通过将奖励参数化为策略和参考模型的对数似然比 r_θ (y) = β log π_θ (y)/π_ref (y)，这是 DPO (Rafailov et al., 2023) 及其许多变型 (Azar et al., 2024; Ethayarajh et al., 2024; Chen et al., 2024; Rosset et al., 2024; Wu et al., 2024) 中的常见做法，可以在 ORM 训练期间自动学习 PRM。然后，过程奖励是相同的对数似然比，但针对部分响应计算。本文方法称为隐式 PRM，因为它只需要响应级数据和 ORM 训练。此外，其见解与训练目标的具体选择无关，并且适用于 DPO 和所有采用相同形式隐式奖励的变型；它进一步扩展到其他目标，如交叉熵 (CE) 损失。这一理论见解概括 Rafailov (2024) 的结论，即 DPO 训练使模型能够学习 Q 函数；实际上，该方法特别适合成对数据难以获得且 CE 损失等算法同样适用的场景。

LLM 的复杂推理。复杂推理已成为大语言模型 (LLM) 的一项关键能力，但即使对于最先进的模型来说仍然具有挑战性 (Jimenez，2024；Tian，2024)。人们探索各种技术来提高 LLM 在其生命周期不同阶段的推理能力，例如预训练（Azerbayev，2024；Paster，2024；Li，2023）、后训练（Luo，2024b；Yue，2024；Yuan，2024；Meta，2024；Ouyang，2022）和推理（Wei，2022；Fu，2023；Hao，2023；Lightman，2023）。其中，过程奖励模型 (PRM)（Lightman，2023）对模型输出进行逐步评分，因其在各种环境中的有效性而引起了最近的关注。

隐性奖励。隐性奖励已经在偏好学习中被广泛采用。尽管主要工作主要集中于在监督微调的基础上应用这些算法来对齐模型（Rafailov，2023；Azar，2024；Ethayarajh，2024；Chen，2024；Rosset，2024；Wu，2024），但最近的工作也试图利用结果模型的隐性奖励作为结果奖励（Lambert，2024；Zhong，2024；Hosseini，2024）。此外，继 Rafailov（2024）证明 DPO 可以自动学习 Q 函数之后，Qiu（2024）利用这种特性设计一种仅限于 DPO 模型的自导解码算法。然而，尽管采用 DPO 模型作为现成的奖励模型或 Q 函数有这些应用，但现有研究都没有专门针对提高这种能力或研究如何在这些现成的模型上得出合适的 PRM。

实验中，在包含 33K 条数学指令和每条指令 8 个解决方案的数据集上训练隐式 PRM，并通过 MATH（Hendrycks，2021）上最佳 N 采样对其进行评估。探索使用不同训练目标实例化的隐式 PRM 变型，包括 DPO、KTO、NCA 和 CE。所有变型都产生强大的 PRM，其表现优于竞争基线，包括对 Math-Shepherd（Wang，2023）和 AutoPSV（Lu，2024）的重新实现以及六个现成的开放 ORM 和 PRM，并且在准确性和开发开销之间取得更好的权衡，如图所示：x 轴表示收集数据和训练模型所需的 FLOPs，y 轴表示 64 个最佳性能的准确度。

ORM 将稀疏奖励 r_θ (y) 分配给整个响应，并且在生成最后一个token之前不提供反馈。相反，PRM 会评估每个中间步骤的质量，并在完成每个步骤后提供奖励（Lightman，2023）。给定一个指令和一个 n 步响应 y，其中 y_t 为第 t 步，y_

ORM 和 PRM 都可以提供奖励来评估模型输出。PRM 提供的密集阶梯式奖励可实现稳定有效的 RL 训练（Cao，2024 年；Chan，2024），并且在重新排序响应方面表现更好，透明度和可解释性更高。此外，ORM 是在完整响应上进行训练的，但从中初始化的价值模型在 RL 训练期间仅接收不完整的响应。相反，PRM 本质上经过训练以在部分响应的情况下提供密集奖励，因此产生的价值模型可能会缓解 ORM 遇到的分布不均问题。

尽管 PRM 非常有效，但由于训练数据收集方面的挑战，训练 PRM 的难度更大。为了收集 PRM 的训练数据，MCTS 通常用于自动步骤注释（Wang，2023；Luo，2024a）。然而，它会带来大量额外成本。对于基于 MCTS 的步骤标签注释，策略模型将根据指令 x 和步骤 t 的部分响应连接来采样 N 条轨迹，每条轨迹都会产生最终答案（Wang，2023）。例如，假设每步有 10 个展开和 8 条后续轨迹（如 Wang（2023）所述），则需要生成总共 10 × 8 = 80 条轨迹才能获得每条指令的步骤标签，这比 ORM 多 80 倍。因此，PRM 的扩展受到很大限制。除了训练数据收集的开销之外，这种 MCTS 方法还会因为注释过程的噪声而导致性能不佳。

将后续轨迹的正确性集合表示为{c_1，c_2，...，c_N}，每个元素为 0 或 1。此后，有两种备选的标签估计策略可供选择：（1）硬估计，其中如果任何展开正确，则步骤 t 将被标记为 1，否则为 0：l_t =max{c_1，c_2，...，c_N}。（2）软估计，其中步骤 t 被标记为所有展开中正确答案的比例，即 l_t = sum（c_t / N）。将用于判断展开正确性的 ORM 称为 θ，在硬估计数据上训练的 PRM 称为 θ_h，在软估计数据上训练的 PRM 称为 θ_s。

如果 θ_h 和 θ_s 完全拟合，即训练损失降至 0，则有

然而，两种估计策略都可能存在噪声。具体来说，q_θ_h^t 表示在 y_

ORM 可以通过简单的奖励参数化直接表示对结果奖励的期望。换句话说，PRM 可以从相同的 ORM 中固有地派生出来，而无需任何专门的训练，从而提供比基于 MCTS 的方法更好的性能，并且开销大大降低。

现有工作中的奖励参数化当前文献通常通过以下方式参数化奖励：(1) 隐藏状态的线性变换，其中奖励模型是序列分类器 (Ouyang，2022；Touvron，2023；Zhu，2023；Cui，2024) 或 (2) 生成逻辑，其中奖励模型是自回归 LM，并经过训练以预测部分或全部响应的标签为“好”或“坏”标记，有时是第三个“中性”(Zhang，2024c；Mahan，2024；Lightman，2023；Wang，2023；Luo，2024a)。

不幸的是，在这两种参数化中的任何一种下，PRM 都需要昂贵的步骤标签来训练。为了解决这个问题，用隐式奖励模型来训练 ORM，无论损失函数如何，它都会自动启用 PRM。

命题 3.1. 考虑一个 ORM，其中奖励由两个因果 LM 的对数似然比参数化，即 r_θ(y) := βlog π_θ(y) /π_ref (y)。定义 q_θ^t(y_

因此，q_θ^t 表示步骤 t 处结果奖励 r_θ 的精确期望，即 Q 值。

基于命题3.1 ，过程奖励 r_θ^t 可以通过以下方式获得：

值得注意的是，当 y_t 代表第 t 个 token 而不是步骤 t 时，此结论仍然成立。一个启发性的提示：确实可以通过收集响应级数据并训练 ORM 来获得 PRM 或更细粒度的 token 级 RM，而无需注释步骤标签。该命题与 ORM 训练目标的具体选择无关。它可以用不同的目标实例化为原始 ORM 训练，唯一的区别是用 βlogπ_θ(y)/π_ref(y) 替换 r_θ (y)。具体来说，许多现有的偏好学习算法已经满足假设（Rafailov，2023；Azar，2024；Ethayarajh，2024；Chen，2024；Wu，2024）。

隐式 PRM：无需进程标签即可获得免费进程奖励

正文

请到「今天看啥」查看全文