专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门创投 · 公众号 · 科技创业 · 2024-09-02 08:22

主要观点总结

本文主要介绍了直接对齐算法（DAA）在大型语言模型（LLM）中的过度优化问题。文章通过提出一个统一的理论框架，对不同DAA方法中的过度优化问题进行了实证分析和解释，并探讨了潜在机制。文章还介绍了实验评估结果和理论分析，包括对三种不同训练DAA目标的评估、将Scaling Law引入到DAA算法中的尝试以及对DAA算法中奖励利用的本质的探讨。

关键观点总结

关键观点1: 介绍文章主题和研究背景

文章关注大型语言模型（LLM）中的直接对齐算法（DAA）的过度优化问题，这是一个影响LLM在实际场景中性能和可靠性的重要问题。

关键观点2: 提出统一的理论框架

文章通过提出一个统一的理论框架，对不同DAA方法中的过度优化问题进行了实证分析，这个框架有助于理解和解决DAA算法中的问题。

关键观点3: 实验评估结果

文章对三种不同的训练DAA目标进行了评估，发现所有目标函数都表现出明显的过度优化现象，并且性能呈“驼峰型”模式。此外，文章还探索了将Scaling Law引入到DAA算法中的可能性，并通过实验验证了其有效性。

关键观点4: 理论分析

文章对DAA算法中奖励利用的本质进行了理论分析和解释，指出虽然DAA方法不使用单独的奖励模型，但它们仍然表现出类似的过度优化行为。文章还探讨了这一现象的潜在机制，并通过实验进行了验证。

关键观点5: 总结和未来研究方向

文章总结了DAA算法中的过度优化问题及其潜在机制，并指出了未来的研究方向，包括改进DAA目标函数、开发新的正则化技术、深化理论分析等。

正文

可以说，人类反馈强化学习 (RLHF) 是一把解锁大型语言模型(LLMs)涌现能力的金钥匙。它使拥有庞大参数规模的语言模型可以快速对齐到人类用户定义的偏好空间中。然而，先前的RLHF算法通常是一个复杂而脆弱的过程。

在经典的 RLHF 框架中，我们首先需要训练一个奖励模型来表示人类偏好，然后再通过在线强化学习 (online RL) 算法使用该模型来优化LLM。此类方法的突出问题是奖励过度优化现象（reward over-optimization）和奖励攻击（reward hacking）难题，虽然通过RL学习，奖励模型对LLM评估得到的性能会增加，但部署到实际场景中，性能会停滞甚至会下降。后来，有研究者提出直接对齐算法（Direct Alignment Algorithms，DAAs）来绕过奖励建模阶段，以缓解上述现象。

目前，DDA已经成为经典 RLHF pipeline的替代方案，但DAA是否存在类似的过度优化现象尚未得到很好的探索，本文介绍一篇来自斯坦福大学等研究机构的理论性工作，本文表明的观点在于，尽管 DAA 不使用单独的奖励模型，但其仍然会因过度优化而导致性能恶化。并且提出了一个统一不同DDA方法的理论框架，通过大量的实验（在不同模型规模和超参数下）证明并解释了过度优化问题的潜在原因。

论文题目：

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

论文链接：

https://arxiv.org/abs/2406.02900

一、引言

作为ChatGPT的底层优化算法，RLHF备受学术界和工业界的关注，因此产生了很多性能更优的变体。 例如OpenAI的InstructGPT、Anthropic的Constitutional AI等，这些方法使用三阶段流程(SFT、奖励建模、RL)来对齐语言模型 。OpenAI发表在ICML2023上的工作[1]首先对这类方法中的奖励过度优化现象进行了研究， 过度优化在一定程度上影响了LLMs在实际场景中的可靠性和安全性 。虽然后续出现的直接对齐算法DAA（例如Direct Preference Optimization[2]和Implicit Preference Optimization[3]）简化了传统RLHF的整体流程，但其仍然存在过度优化问题。

此外，在DAA研究社区中，尚未出现对DAA中过度优化现象的理论分析和解释，这导致研究者们无法针对性地对其进行改进。因此，本文的研究团队首先对不同DAA方法中的过度优化问题建立了一个理论框架，并探索了这种现象在不同模型规模和超参数下的表现。此外，本文还尝试将LLMs的缩放定律（Scaling Law）拓展到DAA中，这一创新性尝试为我们理解DAA的行为提供了新的视角。

二、RLHF和DAA的理论基础

传统的RLHF流程通常包含三个主要阶段，监督微调（Supervised Fine Tuning, SFT）、奖励建模（Reward Modeling）和强化学习训练。 监督学习通过构建高质量的提示和问答对来训练LLM对下一个token进行最大似然估计，来得到初步训练的模型 。随后需要构建一个奖励模型，其目的是学习可以表示人类偏好的奖励函数 ，即使用SFT模型为每个提示生成答案对，并根据人类偏好对生成答案进行排序，整体上，偏好分布可以表示如下：

其中是未观察到的潜在奖励，是logistic函数， 经过训练后我们可以得到参数化的奖励模型 。随后我们可以使用 对LLM进行进一步的更新 ，流行的方法通常使用PPO等策略梯度算法进行优化。尽管RLHF在具体实践中很有效，但它存在一个关键问题：奖励过度优化。 由于LLM策略优化的是代理奖励估计 ，而不是真实的奖励函数，这导致随着训练迭代的进行，模型的期望奖励增加，但实际输出质量可能下降 。

DAA算法的核心思想在于， 其直接使用用户反馈来更新LLM策略 ，绕过单独的奖励函数拟合和RL阶段 ，极大地简化了RLHF的流程。在数学形式上，DAA首先基于RLHF目标的闭式解

，并将带入奖励优化目标中得到DAA的目标函数：

三、对DAA中过度优化的实证分析

3.1 过度优化现象评估

为了清晰的展示直接对齐过程中过度优化的现象，作者评估了三种不同的训练DAA目标，分别是DPO[2]、IPO[3]和SLiC[4]。 作者使用不同的 值（KL散度约束）训练模型，并使用GPT-4作为评判标准，计算模型生成摘要相对于数据集摘要的胜率，并通过绘制胜率图和KL散度图来对过度优化现象进行可视化，实验结果如下图所示。

评估实验在1B, 2.8B, 和6.9B三种模型规模上进行，每次对模型训练1个epoch，并在epoch内记录4个均匀分布的中间检查点， 从上图中我们可以看到，参与实验的所有目标函数都表现出明显的过度优化，并且性能呈“驼峰型”模式，即随KL预算增加先上升后下降 ，在较大KL预算情况下，模型在处理25%数据后就达到最佳性能，之后开始下降。

为了进一步分析，作者在上图中进一步绘制了有关训练动态的其他结果， 其中表明，1B模型在较小的KL预算下就开始过度优化，而6.9B模型则展现出了更好的win-rate和KL权衡 ，这表明，模型参数规模越大，越不容易出现DAA的过度优化现象。

3.2 将Scaling Law引入到DAA算法中

在得到评估DAA中过度优化的算法框架之后，作者开始探索能否将Scaling Law引入到该框架中。经典RLHF的先前工作已经为奖励模型得分建立了此类缩放定律， 该定律可以衡量模型在初始策略和优化策略之间的 KL 散度 ，可以形式化表示为：

其中，， 由于DAA不训练代理奖励模型，因此在DAA算法中，作 者直接使用GPT-4模型的胜率替代 。 令作者惊讶的是，这个缩放定律可以准确地将 和DAA的胜率联系起来。 与 和胜率之间的二次拟合相比，这个缩放定律可以将误差RMSE减半 。此外，作者还考虑了DAA算法中的长度偏好问题（Length Correlations）。先前有研究表明， DPO算法非常容易放大数据集中的冗长偏差，本文通过如下的实验表明，长度并不是过度优化唯一可以利用的维度。

上图左侧展示了使用标准训练和经过长度正则化方法的胜率性能，可以看出， 这两种方法都存在过度优化的问题，但训练动态会根据 KL 预算的增加而有所不同 。这表明，长度正则化虽然可以改变KL-胜率的约束区域，但无法消除过度优化现象， 甚至在某些情况下，长度正则化可能会加剧过度优化 。作者使用线性回归来分析DAA隐式奖励和长度之间的关系，其结果如上图右侧所示，回归形式可以表示如下：

其中是输入提示，是 DPO 隐性奖励对应的样本。作者绘制了不同模型大小的值的变化情况， 从实验结果中可以看出，以DPO为代表的DAA算法存在明显的缩放定律行为，较弱的模型在简单长度特征上的推断程度比较强的模型高得多 ，例如上图中模型大小为2.8B的红色三角明显优于模型大小为6.9B的绿色叉号。基于这一结果， 作者认为，在有限的模型容量下，无论是从模型能力还是从 KL 预算角度考虑，模型都会由于过度优化而产生特征外推，从而导致出现 OOD 问题 。

四、DAA算法中奖励利用的本质

经过上述理论和实验分析，作者认为，虽然DAA方法不像传统RLHF那样使用单独的奖励模型，但它们仍然表现出类似的过度优化行为，本文试图在强化过程中的奖励利用方面来解释这一现象的潜在机制。作者首先对比了DAA和传统RLHF中的奖励利用问题：

传统RLHF中的奖励过度优化:

原因：优化时使用可能 出现分布外（OOD）行为 的代理奖励函数
表现： 奖励函数对OOD样本给出错误的高奖励 ，导致性能下降

DAAs中的“隐式”奖励过度优化:

特点： 没有单独的奖励模型 ，模型的OOD行为与“隐式”奖励模型直接相关
困难：难以直接应用传统RLHF中的解释手段

此外，本文作者指出， DAAs中的奖励建模目标不是严格凸的，这可能导致可能存在多个最优解，最终得到的结果可能出现在OOD响应空间中 。为了进一步说明这一点，本文设计了一个简单的树形MDP实验。如下图所示，在树形结构中，每个状态有3个可能的动作