REFT：强化微调推理

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-14 00:03

正文

24年1月来自字节的论文“REFT: Reasoning with REinforced Fine-Tuning”。

增强大语言模型 (LLM) 推理能力的一种方法，是使用思维链 (CoT) 注释进行监督微调 (SFT)。然而，这种方法没有表现出足够强的泛化能力，因为训练仅依赖于给定的 CoT 数据。例如，在数学问题解决中，训练数据中每个问题通常只有一条带注释的推理路径。直观地讲，给定一个问题，算法从多条带注释的推理路径中学习会更好。为了解决这个问题，一种简单而有效的方法，称为强化微调 (ReFT)，增强学习 LLM 用于推理的泛化能力，以数学问题解决为例。 ReFT 首先使用 SFT 对模型进行热身，然后采用在线强化学习（具体为本文中 PPO 算法）进一步微调模型，其中给定问题会自动采样大量推理路径，并且奖励自然来自真实答案。在 GSM8K、MathQA 和 SVAMP 数据集上进行的大量实验表明，ReFT 明显优于 SFT，并且通过结合大多数投票和重排名等推理-时间策略可以进一步提高性能。请注意，ReFT 通过从与 SFT 相同的训练问题中学习来获得改进，而无需依赖额外或增强的训练问题。这表明 ReFT 具有出色的泛化能力。

代码开源： https://github.com/lqtrung1998/mwp_ReFT

解决数学问题的方法 (Luo et al., 2023; Wang et al., 2023a) ，采用监督微调 (SFT) 来训练使用思维链 (CoT) 注释的模型 (Wei et al., 2022)。如图所示，CoT 注释概述解决数学问题的中间推理步骤。

通常，训练数据中的每个问题都有一个 CoT 注释，即一条正确的推理路径，该路径用于 SFT。这可能会导致 SFT 模型的泛化能力相对较弱。通常情况下，同一个问题存在多个有效的 CoT 注释 (Cobbe et al., 2021a; Zhang et al., 2023)，这凸显了对更强大的微调方法的需求。为了解决这个问题，一种简单而有效的方法，强化微调（ReFT）（如上图底部）。

本研究重点探索使用 Python 的自然语言 CoT (N-CoT) (Wei，2022) 和基于程序的 CoT (Gao，2023) (P-CoT)。Gao (2023) 提出基于程序的 CoT 用于解决数学问题。可以简单地执行程序来获得答案。为了确保清晰度和避免歧义，分别使用术语 N-CoT 和 P-CoT 来表示自然语言和基于程序的 CoT。

所提出的强化微调（ReFT）过程包括两个阶段：预热阶段和强化学习阶段。整体算法如算法 1 所示。

在热身阶段，策略在由 “(question，CoT)” 三元组（x，e）组成的数据集上进行几个epochs的微调。它使模型具备基本的解决问题技能，从而生成适当的响应。正式地，CoT 生成过程可以分解为一系列下一个token预测动作。最后一个动作token 表示生成过程终止。CoT e 描述为

在时间步 t，动作 a/t 从策略 π/θ(·|s/t) 中采样，其中 a/t 可以是词汇表中的任意token，状态 s/t 包含问题中的所有token以及迄今为止生成的所有token。每次动作之后，结果状态 s/t+1 是当前状态 s/t 和动作 a/t 的串联：

在强化学习阶段，策略使用由（question，answer）元组（x，y）组成的数据集，通过在线自学习来提高其性能。具体来说，策略模型通过反复采样响应（如图所示）、评估响应的答案正确性以及在线更新其参数（算法 1 中的第 7-14 行）来学习。

用 PPO（Schulman，2017）和修剪目标算法进行训练。按照 Ziegler（2019）的研究，价值模型 V/φ 是通过在策略模型 π/θ 最后隐藏状态之上附加一个线性价值头来构建的，这是热身阶段后的模型。所有导致非终端状态的动作奖励为 0。在终止状态下，用奖励函数，直接比较从状态 CoT 中提取的答案和真实答案 y。如果答案被视为正确，则奖励函数返回 1，否则返回 0。在答案全部为数字的数据集上，当可以提取答案并且答案为数字类型时，可以应用 0.1 这种部分奖励（Zhong et al.，2017；Le et al.，2022），如下所示：

这样的部分奖励有助于降低从稀疏奖励中学习的影响（Riedmiller，2018；Trott，2019）。此外，根据Zheng（2023）的观点，总奖励是奖励函数得分与学习的 RL 策略和初始策略之间 Kullback-Leibler (KL) 散度（Kullback and Leibler，1951 年）之和，并按一个系数因子 β 缩放，记作

泛化的优势计算（advantage compute）：

其中时域（TD）为：

对于回报估计，利用λ-回报Rˆ/t，它可以写成广义优势估计和价值估计的总和：

REFT：强化微调推理

正文

请到「今天看啥」查看全文