通过强化学习和推理规模化推进语言模型推理

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-02-02 00:04

正文

25年1月来自清华和智谱的论文“Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling”。

大语言模型 (LLM) 在复杂推理任务中表现出了卓越的能力。然而，现有的方法主要依赖于模仿学习，难以实现有效的测试-时间规模化。虽然强化学习 (RL) 有望实现自我探索和从反馈中学习，但最近的尝试在复杂推理方面仅取得了适度的进步。本文提出 T1 来通过鼓励探索和理解推理扩展来扩展 RL。首先使用集成反复试验和自我验证的合成思维链数据来初始化 LLM。为了扩展 RL 训练，通过过采样来提高采样多样性。进一步采用熵奖励作为辅助损失，并使用动态锚点进行正则化以促进奖励优化。以开放 LLM 为基础的 T1 表现出推理规模化行为，并在具有挑战性的数学推理基准上取得优异的表现。例如，以 Qwen2.5-32B 为基础的 T1 在 MATH500、AIME2024 和 Omni-math-500 上的表现优于最近的 Qwen QwQ-32B-Preview 模型。更重要的是，提出一种简单的策略来检查推理规模化，其中增加的推理预算直接带来 T1 的性能更好，而无需任何额外的验证。

大语言模型 (LLM) 最近在解决复杂推理任务方面表现出卓越的能力 (Achiam，2023；Team，2023；Dubey，2024)，包括数学（Shao 2024)、编程 (Lozhkov，2024；Zhu，2024) 和自主智体 (Zhou，2024)。CoT 范式（Wei 2022) 在增强 LLM 推理方面发挥了重要作用，强调构建和改进推理路径的重要性 (Zelikman，2022；Gulcehre，2023)，这些路径代表解决问题的关键中间步骤。大多数最新方法优先考虑模仿学习阶段，并投入大量精力通过提示（Yu，2024；Mitra，2024；Yue，2024）或拒绝抽样（Yuan，2023）生成推理路径，然后训练模型以复制所选的推理过程。

尽管取得了这些进步，但强化学习 (RL)（可以使 LLM 自我探索并从反馈中学习）在增强推理能力和解锁推理规模化（即 LLM 的测试-时间规模化）方面表现出比模仿学习（OpenAI，2024）更大的潜力。然而，迄今为止，它在研究界的发展仍然有限。先前的研究（Shao et al., 2024; Wang et al., 2024; Hou et al., 2024）表明，与早期阶段相比，RL 在复杂推理中产生的性能改进相对较小，并且缺乏可扩展性。

关于测试-时间规模化，现有方法通常依赖于重采样（Brown et al., 2024），其中从给定的策略模型生成多个输出，并使用辅助验证器（Snell et al., 2024）来选择最佳响应。结果，它们的推理成本显着增加。然而，这些方法并没有更新策略模型本身。因此，它们无法从根本上提高 LLM 的推理能力。使用验证器重采样简短的响应也达不到 OpenAI（2024）预期的推理规模化行为。理想情况下，更深层次的思考和更长的生成时间有望直接带来更好的性能，而无需依赖外部信号。因此，通过 RL 和推理规模化来提高推理能力仍然是一个尚未得到充分探索的挑战。

语言模型推理。语言模型在复杂推理任务中的最新进展令人瞩目，并显示出显着的改进（Lewkowycz，2022；Shao，2024；Lightman，2024）。这些收益可归因于几个关键发展。一项工作涉及在广泛的推理相关数据集（例如数学和代码）上对大语言模型 (LLM) 进行预训练，这显着提高它们对推理任务的基础理解（Paster，2023；Shao，2024；Lozhkov，2024）。另一项工作侧重于后训练策略。一些研究（Yuan，2023；Yue，2024；Zelikman，2022；Li，2024a）专注于合成与推理相关的问答对，并加入额外的验证者或批评者，以提高数据质量和推理过程。此外，通过强化学习对模型进行微调[32、35、49、50]使模型能够从反馈和自我引导的动作中学习。这个迭代过程允许模型批评和改进他们的答案，从而提高他们解决问题的能力（Shao，2024；Wang，2024；Kazemnejad，2024）。

规模化语言模型。规模化是导致强大语言模型成功的关键因素之一，并为 LLM 性能的持续改进提供了重要见解。Kaplan (2020)；Hoffmann (2022)；Du (2024) 研究了预训练的规模化规律，并证明模型大小和训练 token 的规模化均可带来可预测的改进。最近，自 OpenAI o1 (OpenAI, 2024) 出现以来，用于提升 LLM 推理能力的训练后强化学习以及测试-时间规模化引起了广泛关注，但在开放社区中仍未得到充分探索。Gao (2023)；Cobbe (2021) 探索合成环境下奖励建模中的规模化规律，Rafailov (2024a) 研究直接策略优化的扩展 (Rafailovet al.,2024b)。 Houetal.(2024) 系统地研究规模化对 LLM 性能的影响，所有这些研究都表明，传统方法不可规模化，而且在提升 LLM 推理能力方面远没有 o1 中显示的那样有效。除了 RL 训练规模化之外，推理规模化也是一个至关重要但尚未得到充分探索的问题。现有研究（Brown et al.，2024；Snell et al.，2024）通过重采样来衡量推理成本，这严重依赖外部监督作为验证器，并且不像 (OpenAI，2024) 中提出的那样规模化。

在此引入 T1，它通过 RL 训练表现出卓越的推理能力。在推理任务中展示其有希望的推理规模化行为，如图所示。T1 的核心思想，是鼓励在 RL 中进行广泛的探索以规模化其训练，同时应用适当的惩罚以保持训练稳定性。

监督微调 (SFT) 。在对齐的初始阶段，对预训练模型进行微调以复制高质量的演示数据（例如对话、摘要）。这个过程通常称为 SFT，是将模型的输出与类似人表现对齐的基础步骤。

人类反馈强化学习 (RLHF) 。为了进一步将微调后的模型 π_θ 与人类对齐，Ouyang (2022) 提出使用强化学习来最大化奖励信号，同时正则化模型 π_θ。其需要优化一个目标来实现。

这里，r(·) 表示奖励函数，用于评估响应的质量或正确性。它将提示 x 及其对应的响应 y 作为输入，并产生标量奖励。术语 π_ref 指的是参考模型，通常是监督微调 (SFT) 模型。

一般 RLHF 流程如下：给定提示或问题 x，策略模型 π_θ 生成 K 个不同的响应，表示为 (y_1 , . . . , y_K )。然后，奖励函数为每对 (x, y_i ) 分配一个标量奖励。随后，通过强化学习更新策略模型 π_θ，以最大化（1）中定义的目标。

规模化强化学习以进行推理

提出 T1 来规模化强化学习 (RL)，目的是提高 LLM 的推理能力。T1 背后的核心思想是在 RL 训练期间促进探索。为了实现这一目标，扩大 LLM 的搜索空间并鼓励多样化的推理轨迹，同时通过适当的惩罚保持训练稳定性，以稳定地规模化 RL 训练。

T1 的第一步是使用丰富的推理模式初始化 SFT 模型，例如反复试验和验证——这些元素在先前的工作中经常被忽视，因为它们倾向于（仅）强调正确的步骤而忽略底层的思维过程。第二步是制定有效规模化 RL 训练的策略，从而进一步促进 LLM 推理的改进。如图说明 T1 的整体框架。

使用 CoT 初始化策略以进行推理

CoT (Wei，2022) 通常定义 LLM (OpenAI，2024) 的推理范式，影响响应搜索空间和 RL 规模化。为了鼓励探索并扩大搜索空间，首先在 SFT 阶段以 CoT 形式的各种推理模式（例如反射和验证）初始化策略模型。在此过程中，SFT 模型有望产生包含有缺陷尝试的自我纠正以及经过彻底验证的方法的响应。然后，策略模型用于后续的 RL 训练。请注意，优化 CoT 的先前研究（Zelikman，2022；An，2023）通常低估了试错过程，主要关注正确的推理步骤。

具体来说，首先从不同的 LLM 生成多个不同的响应作为针对给定提示 x 的尝试 (y_1 , ..., y_N)，并根据真值标签判断它们的正确性。然后，提示 LLM 彻底检查每次尝试以获得批评者 c_i，包括 1) 识别错误尝试的错误性质并反思其根本原因，以及 2) 对正确尝试执行验证过程以确认得出结论的有效性。

为了获得推理路径，进一步提示 LLM 将这些改进的尝试 {x, y_i, c_i}（纠正的错误概念和验证的推理）合并到单个输出中，用于阐明从有缺陷的初始尝试到最终正确解决方案的反复试验过程。此外，一些构造的 CoT 可以简单地列举不同的方法并最终提出正确的解决方案。为了解决这个问题，要求 LLM 根据抽象的模式重写 CoT 以获得 SFT 训练的最终解决方案。

鼓励 RL 训练中的探索

引入进一步鼓励探索的策略，以规模化 RL 训练。对于生成，倾向于使用硬采样策略来促进策略模型探索尽可能多的轨迹以达到正确的路径。对于优化，将响应熵奖励集成为辅助损失，并简化 KL 正则化以帮助扩展。

以高温规模化响应采样。规模化采样，旨在通过在 RL 训练期间为每个提示生成更多响应来捕获广泛的推理路径。如先前的工作（Li et al.，2024b）所示，策略模型在其固有的采样空间中具有强大的能力，有价值的推理路径的高和低搜索，对于策略模型的有效学习至关重要。

正式地，给定一个提示 x，采样大量的 K 个响应并得到 D = {(x,y_1), (x,y_2), ..., (x,y_K)}。在实践中，较大的 K 效果更好，因此一般采用 K = 64。以前的研究（Touvron，2023；Kazemnejad，2024；Hou，2024）通常采用 K ≤ 8，除了（Yang，2024b）中的 K = 32。

为了进一步提高响应多样性，在采样期间使用高温 τ。较高的温度 τ > 1 会使概率分布变平，从而增加采样可能性较小 token 的似然，这样可以鼓励探索不同的 token 序列。这种策略有助于生成各种推理路径，避免陷入固定模式。实验表明，高采样温度有助于提高训练稳定性并提高 RL 训练中的性能增益。

为了进行优化，用 RLOO（Ahmadian，2024）中使用的 leave-one-out 方法策略来规范化奖励：

其中 r_i 表示奖励模型的奖励或 {0, 1} 中的正确性。因此，策略模型可以从更丰富的经验中学习，从而提高泛化能力和推理性能。

辅助熵奖励。为了鼓励 LLM 生成多样化的 token 并避免确定性的响应模式，将熵奖励纳入 RL 损失函数中。修改后的损失函数 L 定义为：

其中 L_RL 表示标准 RL 损失，α 是加权系数，H(π(·|x)) 是给定提示 x 的 token-级熵，V 是词汇表。熵一项，衡量 token 生成过程中的不确定性，激励模型探索概率较低的 token。

基于策略的 KL 正则化。在 RL 训练中，Kullback-Leibler (KL) 散度用于强制策略模型保持接近参考模型，从而防止遗忘和奖励黑客 (Ouyang，2022)情况。但是，固定的参考锚可能会阻碍奖励优化，从而阻止 RL 规模化。本文采用两种策略来克服这个问题。

首先，类似于将奖励缩放为零均值的奖励正则化，从提示 x 中减去响应中的平均 KL 散度来执行 KL 正则化，从而有效地将最终的正则化奖励保持在零中心。表示提示-响应对（x, y_i）的 KL如下：

通过强化学习和推理规模化推进语言模型推理

正文

请到「今天看啥」查看全文