专栏名称: 旺知识

AI技术最新进展、发展趋势、研发经验、从业经验

大语言模型统一偏好学习技术综述：定义、数据、反馈、算法、评估、趋势

旺知识 · 公众号 · · 2024-09-28 12:34

正文

大语言模型（LLMs）展现出了非凡的能力。实现成功的一个关键因素是将LLM的输出与人类偏好对齐。这种对齐过程通常只需要少量数据就能有效地提高LLM的性能。尽管有效，但这一领域的研究跨越了多个领域，涉及的方法相对复杂，难以理解。不同方法之间的关系尚未得到充分探索，限制了偏好对齐的发展。鉴于此，我们将现有的流行的对齐策略分解为不同的组成部分，并提供了一个统一的框架来研究当前的对齐策略，从而建立它们之间的联系。在这项调查中，我们将偏好学习中的所有策略分解为四个组成部分：模型、数据、反馈和算法。这种统一的观点提供了对现有对齐算法的深入理解，并开辟了将不同策略的优势结合起来的可能性。此外，我们提供了流行的现有算法的详细工作示例，以促进读者的全面理解。最后，基于我们的统一视角，我们探讨了将大型语言模型与人类偏好对齐的挑战和未来研究方向。

我们翻译解读最新论文：面向大型语言模型偏好学习，文末有论文链接。作者：张长旺，图源：旺知识

1. 引言

由ChatGPT1代表的，大型语言模型（LLMs）的崛起展示了令人印象深刻的语言能力和专业能力，以及提供正确、礼貌和知识渊博的回答，这是令人惊讶和钦佩的。虽然预训练和监督式微调在发展基础语言技能方面发挥了重要作用，但偏好对齐是LLMs在公开部署前必须经历的一个必要步骤，以防止LLMs可能产生攻击性、有毒或误导性的内容。

尽管大型语言模型（LLMs）在各个领域展示了令人印象深刻的能力[20, 94, 116, 142]，但它们在伦理[55]、安全[64, 107, 129]和推理[74, 124, 145]方面仍面临挑战。作为回应，出现了许多与对齐相关的倡议，以更好地解决这些问题[29, 89, 95, 99]。日益增长的兴趣也激发了这项调查。尽管许多作品[110, 125]已经广泛讨论了对齐的概念，但偏好学习的各种算法之间的关系仍然支离破碎，缺乏统一它们的框架。为了弥合这一差距，我们旨在提供一个系统的偏好对齐框架，如图1所示。通过将相关工作整合到这个框架中，我们希望为研究人员提供全面的理解和进一步探索特定领域的基础。

传统分类视角[54, 110, 125]倾向于将现有方法分为基于强化学习的（RL）方法，如需要奖励模型进行在线RL的RLHF[95]，以及基于监督微调（SFT）的方法，如直接偏好优化（DPO）[99]，后者直接在离线设置中使用偏好优化。然而，这种分裂可能会无意中在两组工作之间造成隔阂，这不利于研究人员进一步理解偏好对齐的共同核心。因此，我们努力为双方建立一个统一的视角，并引入了一个创新的分类框架。

这个新框架的关键在于两个深刻的见解：首先，在线策略和离线策略之间的区别基本上取决于不同的数据来源，这可以从像PPO或DPO这样的算法中分离出来。在线策略需要策略模型实时生成其数据；具体来说，正在优化的LLM也必须实时为下一轮训练产生数据。相比之下，离线策略允许各种数据来源，只要它们是提前收集的，而不需要策略模型同时生成。许多当前的工作采用了特定算法在在线和离线设置之间的转换[40, 106]。因此，我们不使用在线/离线或RL/SFT作为分类算法的标准。其次，受到现有工作[106]的启发，强化学习和基于监督微调方法的优化目标实际上非常相似。不同之处在于，基于强化学习的方法通常需要一个奖励模型来计算进一步训练的奖励，而监督微调算法可以直接使用各种形式的偏好进行模型优化，例如更好地对齐的输出和来自偏好关系的成对或列表对比。有了统一的视角，我们可以将反馈定义为能够产生与人类判断对齐的偏好的广泛工具，如奖励模型、人类注释者、更强大的模型如GPT-4以及各种规则。基于这些考虑，我们将偏好学习的过程划分为数据、反馈、偏好优化和评估。我们论文的分类法如图2所示。此外，我们在这个框架内提供了一些常见算法的清晰运行示例，以促进读者对算法的理解，如图3和图4所示。

总之，我们的论文调查并组织了现有的LLM偏好学习方法，提供了一个统一而新颖的视角。此外，基于这项调查的内容，我们总结了这一领域的几个未来方向，旨在为进一步的研究提供见解。

2. 定义和公式化

在本节中，我们首先提供我们对LLM偏好学习的定义：给定一般人类偏好的分布P (𝑥, 𝑦)，其中𝑥是提示，𝑦是LLM的相应输出，偏好学习对于LLM 𝜋𝜃 是一个范式，它产生了一个新的LLM 𝜋𝜃′，与P (𝑥, 𝑦)对齐，其中P (𝑥, 𝑦𝜃′(𝑥)) > P (𝑥, 𝑦𝜃(𝑥))。

为了使LLMs能够学习人类偏好，这个过程通常涉及到提供一个数据样本，其中包含输入x和相应的响应y，以及与人类偏好对齐的环境P (𝑥, 𝑦)为其分配反馈。与人类偏好一致的样本会被赋予更高的奖励，这可能表现为正面标签、在优先级排名中的位置提升，或更高的奖励分数。在获得数据后，策略模型𝜋𝜃′通过特定算法进行优化。

此外，还需要解释LLM偏好学习和一些相关概念之间的关系，基于这个定义。（1）对齐：按照Kenton等人[59]的定义，对齐指的是研究集中在解决所谓的行为对齐问题：我们如何创建一个行为符合人类意愿的智能体？根据这个定义，我们将LLM的偏好学习视为旨在实现对齐的方法类别。本文的范围仅限于文本偏好对齐，不包含其他众所周知的对齐主题，如幻觉、多模态对齐和指令调整。（2）从人类反馈中的强化学习（RLHF）：与RLHF不同，本文的范围不仅包括基于RL的方法，还包括传统上称为基于SFT的方法。更重要的是，我们采用统一的视角来研究基于强化学习和基于监督学习的方法。

3. LLM偏好学习的统一视角

受到最近工作[40, 106]的启发，我们从以下两个方面对现有工作进行统一的调查：

首先，RL和基于SFT方法的优化目标可以在同一个框架内描述。遵循[106]，训练方法的参数𝜃的梯度可以写成：

其中D表示包含输入问题𝑞和输出𝑜的数据源。𝛿表示梯度系数，它直接决定了偏好优化的方向和步长。A表示算法。梯度系数由特定算法、数据和相应的反馈决定。追溯到梯度系数的一个重大影响源是反馈。请注意，反馈可以采取多种形式。例如，RFT[149]中数据的正确性或DPO[99]中的偏好标签可能会影响梯度系数，从而影响最终梯度。因此，我们定义本文中的反馈为能够影响模型训练过程中梯度的环境给出的偏好指标。值得注意的是，基于RL和基于SFT的方法都可以包含在这个框架内。

其次，算法可以从在线/离线设置中解耦。在对齐的背景下，在线学习指的是偏好预言𝑟或其近似器𝑟ˆ可以在训练过程中被查询，即当前演员模型采样的响应的反馈可以即时给出。如果反馈信号不能实时获得，则被认为是离线学习。

从传统的角度来看，基于RL的方法在在线/离线设置方面更加灵活，而基于SFT的方法通常是离线的。然而，正如我们在第一点中统一了基于RL和基于SFT的方法一样，可以推断出基于SFT的方法也可以应用于在线设置，这一点已经通过最近的工作[40]得到证明。实际上，决定设置是在线还是离线的因素仅仅是偏好信号是实时生成的还是预先存储的。在第4节中，我们阐明了在线和离线设置获取数据的方法。在在线设置中，数据收集通常遵循在线策略，而在离线设置中，它通常遵循离线策略。尽管将在线反馈收集与离线策略结合起来是可能的，但这种实例在现有工作中相对罕见。因此，与其他调查论文[110, 125, 128]的分类不同，我们不使用在线/离线或RL/SFT作为分类算法的标准。相反，我们将算法从在线/离线设置中解耦。例如，DPO算法不一定非得是离线的。这取决于它们实际应用的上下文。如果有评估器可以实时评估生成的数据中的偏好关系，那么DPO也可以用于在线优化。

基于上述两点讨论，我们最终将偏好学习划分为四个关键要素：模型、数据、反馈和算法，如图5所示。

偏好学习的过程可以描述如下：对于一个LLM 𝜋𝜃、要对齐，我们首先需要准备训练数据D。如果我们处于在线设置中，我们必须从模型和环境实时采样行为数据，并且环境将提供偏好反馈信号到数据。是否符合人类偏好将反映在反馈R中。例如，在DPO系列方法中，不符合偏好的数据将被赋予一个坏标签。在RFT中，它将被丢弃，也就是说，梯度系数将为零。对于像PPO这样的基于RL的算法，这将对应于一个较低的奖励分数。随后，将元组(D{𝑥,𝑦} , R, 𝜋𝜃) 输入到算法A中。我们根据算法对每个模型更新所需的数据数量将算法分类为四种类型：无需训练的方法、逐点方法、成对对比和列表对比，而不需要担心它们是RL还是SFT基于算法。最后，我们获得了一个与人类偏好对齐的LLM 𝜋𝜃′。这个过程的正式描述在算法1中提供。

4. 偏好数据

偏好数据没有固定的形式，我们使用最简单的符号来表示偏好数据(𝑥, 𝑦,𝑟).。这里𝑥, 𝑦是文字信息输入和候选输出。𝑟 是由某些反馈系统给出的偏好标签，可能是人类、奖励模型或其他评分系统。

当前LLM偏好学习方法从两个来源收集训练数据：在线策略或离线策略。一般来说，在线数据收集意味着我们直接从我们的策略LLM 𝜋𝜃𝑡在每个训练步骤𝑡收集数据。离线数据收集可以独立于进行偏好学习并产生由策略模型本身未生成的数据集。值得注意的是，使用从 𝜋𝜃 0 采样的偏好数据来训练 𝜋𝜃 𝑡 对于t > 0也是离线策略。

4.1. 在线数据收集

在线数据收集过程类似于在线强化学习的设置，其中偏好数据直接在训练期间获得：它首先通过策略LLM采样一批经验，然后通过与环境交互获得奖励，最后使用它来更新策略LLM。在这种情况下，不同的方法在环境的偏好生成器𝑔(𝑥)上有所不同。

在线采样方法为了从环境中采样各种经验，许多研究探索了不同的策略进行解码。

多种采样策略，如Top-K/Nucleus Sampling[44]和Beam Search[36]，在LLMs的生成过程中被采用。这些方法决定了用于偏好学习的数据的效率和有效性。

对于涉及多步解决方案的问题，也有一些研究[31, 84, 98, 124, 138, 154, 155, 164]采用蒙特卡洛树搜索（MCTS）[63]来增强数据采样的多样性和性能。MCTS起源于AlphaGo的进展。MCTS的基本概念涉及通过众多模拟或rollouts评估各种策略，以确定哪种策略产生更好的结果。这种方法类似于一种有条理和深思熟虑的思考过程，与优先考虑即时收益的贪婪解码方法形成对比。MCTS的核心操作可以分为四个不同的阶段：选择、扩展、模拟和反向传播。MCTS的高效搜索策略使模型能够在同时获得步骤级标签的同时生成更高质量的数据。这些精炼的数据随后可以用于在解码[31, 98, 164]期间提高模型性能，训练奖励模型[84, 124]以及微调模型[31, 154, 155]。

4.2. 离线数据收集

离线数据收集意味着独立于LLM的学习过程收集训练数据。这种方法通常比在线数据收集更容易，主要是因为有可用的开源偏好数据集。或者，我们也可以提前使用初始模型𝜋𝜃0编译数据集。离线数据收集策略确保了更多样化的训练数据集，通常可以在LLM的偏好学习过程中带来改进。有两个主要的偏好数据来源，人类注释者的数据和由更先进的LLMs生成的数据。请注意，随着相关研究的不断发展，与偏好学习相关的开源数据集的数量正在增加。因此，很难编制一个包含所有数据集的全面列表。因此，我们只强调一些代表性的工作。

来自人类数据 Webgpt[93]有20K比较，每个例子包括一个问题，一对模型答案和人类评定的偏好分数。

OpenAI的人类偏好[95]源自Reddit的TL;DR语料库[120]的精心挑选部分。此数据集中的每个条目包括一个帖子，以及两个替代摘要选项，并由人类注释者评估以确定两者中的首选摘要。

HH-RLHF[5]涉及170K人类与AI助手之间的聊天。在这些聊天中，AI提供了两个不同的回复。人类注释者标记哪个回复更好，哪个不太好。

SHP[28]包含385K人类对18个主题领域问题的响应的偏好，反映了用户对有用性的偏好。与HH-RLHF相比，SHP仅依赖人类编写的数据，允许两者之间有互补的分布。

来自LLMs的数据从人类那里获得偏好可能需要消耗资源。然而，研究表明[19, 66]强大的LLMs擅长模拟人类偏好。因此，已经有许多努力利用LLMs作为偏好数据生成器来扩大规模。

RLAIF[66]策划了一个全面的数据集，融合了Reddit TL;DR语料库[120]、OpenAI的人类偏好[114]和HH-RLHF[5]数据集，其偏好是使用PALM 2而不是人类注释的。实验结果表明，使用AI反馈进行扩展可以显著提高模型的训练性能。

Open-Hermes-Preferences[48]是一个包含大约100万个AI生成偏好的综合数据集。它整合了此数据集的输出和另外两个模型的输出，PairRM[53]被用作评估和排序响应的偏好模型。

ULTRAFEEDBACK[19]使用GPT-4开发ULTRAFEEDBACK，这是一个庞大、高质量和多样化的偏好数据集，旨在克服现有偏好数据的稀缺性和限制。

UltraChat[22]是一个百万级的多轮指令对话数据集。与围绕特定任务构建的数据集不同，UltraChat包含广泛的人类-AI互动场景。它利用了元信息、上下文扩展和迭代提示等先进技术，以及两个单独的ChatGPT Turbo API，用于真实和信息丰富的对话生成。

5. 反馈

图6 | 模型在偏好学习期间收到的奖励说明。对于数据样本(𝑥, 𝑦ˆ)，其中𝑦ˆ是未标记的候选输出，奖励函数应该提供反馈，可以是奖励分数𝑟或偏好标签。根据我们是否需要训练特定的奖励模型，奖励函数可以分类为直接反馈和基于模型的反馈。

在本节中，我们详细阐述了模型在偏好学习中收到的偏好反馈。按照Shao等人[106]的说法，本文中的反馈广泛地指可以影响模型训练过程中梯度的偏好指标。在这里，它不仅可以作为使用强化学习的方法中的奖励，还可以作为偏好标签或不明确使用强化学习的算法使用的其他反馈。形式上，给定一个数据实例(𝑥, { ˆy}), 其中 where { ˆy} = 𝑦ˆ1, ˆ𝑦2, ..., ˆ𝑦𝑖 和 𝑖 ≥ 1 ，与人类偏好对齐的环境应该给出奖励，这可能是偏好𝑦𝑖 > 𝑦𝑗或一个标量𝑟。如图6所示，我们调查了偏好学习中各种类型的反馈，将它们分为两类：直接反馈和基于模型的反馈。

5.1. 直接反馈

直接反馈是指可以直接获得的反馈，无需训练特定的奖励模型。

标记数据集 获得反馈最直接的方法之一是通过人类注释的标记数据集。数据集中的标记偏好可以直接用于离线方法的模型训练。我们在第4.2节中涵盖了偏好学习现有数据集的最新进展。

手工设计规则 获得直接奖励的另一种方式是使用手工设计的规则作为奖励。由于规则的特殊性，很难建立一个涵盖所有方法的统一标准。不同的任务可能遵循不同的规则集。

对于数学推理任务，Yuan等人[149]使用推理路径的正确性作为控制训练数据的指标。按照Shao等人[106]的说法，提供了这些系列方法的另一个视角，奖励可以通过𝑖? = I(𝐴?)来计算，如果COT推理路径是正确的，奖励等于1，否则为0。Xin等人[136, 137]使用自动化证明工具（LEAN[91]）获得数学定理证明者的反馈。对于机器翻译，Xu等人[140]使用参考自由QE模型的结果来获得不同翻译候选的偏好，并进一步使用CPO优化模型，CPO是DPO算法的改进。对于代码生成，Shen等人[109]根据单元测试结果和启发式偏好对模型输出进行排名。对于每个数据，他们根据测试结果的不同情况从低到高分配不同的分数。当前排名从直接反馈中获得的偏好直接影响模型的最终训练损失。Liu等人[78]和Dou等人[25]使用手工设计的规则将不同情况下的单元测试结果转换为标量，并进一步使用RL算法优化模型。对于摘要，Gao等人[33]通过使用文本人类对代理输出的编辑来探索交互式学习，这被证明是简单有效的。

5.2. 基于模型的反馈

在本节中，我们对基于模型的反馈进行了调查，包括来自奖励模型、成对评分模型和LLM作为裁判的奖励信号。

5.2.1. 奖励模型

训练奖励模型的前提是构建一个可以预测人类偏好概率𝑝的分类器，介于两个潜在响应之间。

基于Bradley-Terry的奖励模型 一条研究线使用Bradley-Terry模型[7]来模拟人类的偏好。这涉及到训练模型来估计𝑝, 这是通过最大化首选输出的可能性来派生的，通过一个强调首选和被拒绝输出之间偏好差异的损失函数进行优化：

该模型通常通过一个负对数似然损失进行优化：

其中𝑦𝑟代表被拒绝的输出，𝑦𝑐代表被选择的输出。在推理时，奖励模型返回一个标量𝑝∗( 𝑦1 ≻ 𝑦2 | 𝑥) 代表输出将是首选响应的概率。

基于二元分类器的奖励模型 对于可以通过结果直接确定案例质量的任务，直接标记样本以训练二元分类器作为奖励模型是一种简单而稳定的方法。例如，在数学推理中，可以根据响应是否产生正确的最终答案来标记样本。类似地，在代码生成任务中，可以通过检查生成的代码是否通过指定的测试来进行标记。与传统的Bradley-Terry奖励模型不同，一旦获得了数据的标签，就可以使用逐点二元分类损失来训练奖励模型，而不需要构建成对数据。BCE训练损失如下：

其中 𝑟 是偏好标签， ˆ𝑟 是预测的奖励。

RM训练优化为了获得更好的奖励模型，许多研究从不同的角度优化现有的奖励模型。

一条研究线寻求获得更好的偏好数据。Lee等人[66]利用现成LLMs的能力来生成偏好标签，可能减少了昂贵且耗时的人类注释的需求。研究表明RLAIF可以在多个任务中达到甚至超越RLHF的性能水平。Jinnai等人[57]探索使用Kullback–Leibler散度和Wasserstein距离来规范Best-of-N采样，这被证明在奖励建模期间有效缓解了奖励黑客问题。Pace等人[96]使用West-of-N生成更好的合成偏好数据，将语言模型训练中的Best-of-N采样策略扩展到奖励模型训练。

另一条研究线专注于通过集成模型来改进奖励模型的过度优化和不确定性估计。Coste等人[18]使用奖励模型集成来缓解奖励模型的过度优化。Zhai等人[152]考虑基于LoRA的集成，而他们的工作侧重于RL微调中的不确定性惩罚目标。Ramé等人[101]考虑了一种不同的方法，即平均多个奖励模型的权重，而不是集成他们的预测。Zhang等人[157]探索了多种集成方法，以发展高效的集成方法。

探索另一个维度，对细粒度奖励的研究正在获得动力。Wu等人[134]引入了细粒度RLHF，这是一个框架，可以在每个段落之后提供多个方面的奖励，用于训练和学习。与结果监督相比，它提供了最终结果的反馈，Uesato等人[119]，Lightman等人[74]和Yu, Gao, 和 Wang[144]探索了过程监督，它为每个中间推理步骤提供奖励。然而，PRM的训练数据受到注释工作的高成本的限制，如何有效地构建步骤级训练数据仍然是一个挑战。Wang等人[124]以无监督的方式构建过程监督数据，这被证明对数学推理有效。

此外，优化奖励模型的训练过程是一个焦点领域，Dong等人[24]和Zhou等人[162]提出使用先验约束来缓解训练奖励模型期间奖励分数不受控制的扩展。Gao等人[32]提出了一个两阶段训练范式，利用自然语言反馈来激发数学奖励模型的评估能力。

5.2.2. 成对评分模型

除了特别训练的奖励模型外，轻量级的成对评分模型广泛用于为模型提供偏好信号[53]。一般来说，成对评分模型采用专门的成对比较方法来区分候选输出之间的微妙差异。由于更容易并且更一致地比较多个候选者而不是每次都对单个候选者进行评分，成对评分模型通常更小并且取得更好的结果。例如，PairRanker[53]，只有0.4B参数，显示出与ChatGPT基础排名最高的相关性，并在SPPO[133]和SimPO[89]等工作中广泛使用。然而，成对方法不能提供全局分数，他们可以同时处理的候选者数量是有限的。因此，获得多个候选者之间的全局排名或一般的奖励信号通常需要更高的成本。

5.2.3. LLM作为裁判

更直接和易于调整的方法是使用LLM评分来为偏好学习或评估提供奖励，称为LLM作为裁判。对于更大的模型，如GPT-4，我们可以直接在提示中指定评分规则，允许模型对生成的响应进行评分。扩展这种方法，我们可以实现LLM自我奖励。例如，最近的自我奖励机制[148]表明，LLMs可以通过评估自己的响应而不是依赖人类标记者来改进。然而，模型判断可能会引入错误或偏见。为了解决这个问题，Wu等人[132]引入了一种新颖的元奖励步骤，模型评估自己的判断，并使用该反馈来完善其判断技能。这种无监督方法使LLM给出的分数更准确。对于涉及复杂推理步骤的任务，LLM作为裁判通常表现不佳比训练有素的评分验证器。为了缓解这个问题，McAleese等人[88]训练了一个批评模型，提示接受（问题，答案）对作为输入，并输出一个纯文本“批评”，指出答案中可能存在的问题，用于代码生成。Zhang等人[156]训练了一个生成性验证器，利用LLMs的文本-标记预测能力来进行数学推理。

6. 算法

偏好学习算法基于数据和反馈优化LLM，使其与人类偏好对齐。

大语言模型统一偏好学习技术综述：定义、数据、反馈、算法、评估、趋势

正文

请到「今天看啥」查看全文