专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
河南检察  ·  AI带你品宋词,梦回汴梁 ·  昨天  
河南检察  ·  AI带你品宋词,梦回汴梁 ·  昨天  
青塔  ·  更名大学,获官方支持 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

REFT:强化微调推理

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-14 00:03

正文

24年1月来自字节的论文“REFT: Reasoning with REinforced Fine-Tuning”。

增强大语言模型 (LLM) 推理能力的一种方法,是使用思维链 (CoT) 注释进行监督微调 (SFT)。然而,这种方法没有表现出足够强的泛化能力,因为训练仅依赖于给定的 CoT 数据。例如,在数学问题解决中,训练数据中每个问题通常只有一条带注释的推理路径。直观地讲,给定一个问题,算法从多条带注释的推理路径中学习会更好。为了解决这个问题,一种简单而有效的方法,称为强化微调 (ReFT),增强学习 LLM 用于推理的泛化能力,以数学问题解决为例。 ReFT 首先使用 SFT 对模型进行热身,然后采用在线强化学习(具体为本文中 PPO 算法)进一步微调模型,其中给定问题会自动采样大量推理路径,并且奖励自然来自真实答案。在 GSM8K、MathQA 和 SVAMP 数据集上进行的大量实验表明,ReFT 明显优于 SFT,并且通过结合大多数投票和重排名等推理-时间策略可以进一步提高性能。请注意,ReFT 通过从与 SFT 相同的训练问题中学习来获得改进,而无需依赖额外或增强的训练问题。这表明 ReFT 具有出色的泛化能力。

代码开源: https://github.com/lqtrung1998/mwp_ReFT


解决数学问题的方法 (Luo et al., 2023; Wang et al., 2023a) ,采用监督微调 (SFT) 来训练使用思维链 (CoT) 注释的模型 (Wei et al., 2022)。如图所示,CoT 注释概述解决数学问题的中间推理步骤。


通常,训练数据中的每个问题都有一个 CoT 注释,即一条正确的推理路径,该路径用于 SFT。这可能会导致 SFT 模型的泛化能力相对较弱。通常情况下,同一个问题存在多个有效的 CoT 注释 (Cobbe et al., 2021a; Zhang et al., 2023),这凸显了对更强大的微调方法的需求。为了解决这个问题,一种简单而有效的方法,强化微调(ReFT)(如上图底部)。

本研究重点探索使用 Python 的自然语言 CoT (N-CoT) (Wei,2022) 和基于程序的 CoT (Gao,2023) (P-CoT)。Gao  (2023) 提出基于程序的 CoT 用于解决数学问题。可以简单地执行程序来获得答案。为了确保清晰度和避免歧义,分别使用术语 N-CoT 和 P-CoT 来表示自然语言和基于程序的 CoT。

所提出的强化微调(ReFT)过程包括两个阶段:预热阶段和强化学习阶段。整体算法如算法 1 所示。



热身阶段 ,策略在由 “(question,CoT)” 三元组(x,e)组成的数据集上进行几个epochs的微调。它使模型具备基本的解决问题技能,从而生成适当的响应。正式地,CoT 生成过程可以分解为一系列下一个token预测动作。最后一个动作token 表示生成过程终止。CoT e 描述为


在时间步 t,动作 a/t 从策略 π/θ(·|s/t) 中采样,其中 a/t 可以是词汇表中的任意token,状态 s/t 包含问题中的所有token以及迄今为止生成的所有token。每次动作之后,结果状态 s/t+1 是当前状态 s/t 和动作 a/t 的串联:


强化学习阶段 ,策略使用由(question,answer)元组(x,y)组成的数据集,通过在线自学习来提高其性能。具体来说,策略模型通过反复采样响应(如图所示)、评估响应的答案正确性以及在线更新其参数(算法 1 中的 第 7-14 行 )来学习。


用 PPO(Schulman,2017)和修剪目标算法进行训练。按照 Ziegler(2019)的研究,价值模型 V/φ 是通过在策略模型 π/θ 最后隐藏状态之上附加一个线性价值头来构建的,这是热身阶段后的模型。所有导致非终端状态的动作奖励为 0。在终止状态下,用奖励函数,直接比较从状态 CoT 中提取的答案和真实答案 y。如果答案被视为正确,则奖励函数返回 1,否则返回 0。在答案全部为数字的数据集上,当可以提取答案并且答案为数字类型时,可以应用 0.1 这种 部分奖励 (Zhong et al.,2017;Le et al.,2022),如下所示:


这样的部分奖励有助于降低从稀疏奖励中学习的影响(Riedmiller,2018;Trott,2019)。此外,根据Zheng(2023)的观点,总奖励是奖励函数得分与学习的 RL 策略和初始策略之间 Kullback-Leibler (KL) 散度(Kullback and Leibler,1951 年)之和,并按一个系数因子 β 缩放,记作


泛化的优势计算(advantage compute):


其中时域(TD)为:


对于回报估计,利用λ-回报Rˆ/t,它可以写成广义优势估计和价值估计的总和:







请到「今天看啥」查看全文