专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

ICML 2024 || 大模型偏好微调：关键策略与原因解析

深度学习与图网络 · 公众号 · · 2024-06-13 18:20

正文

基本信息

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

作者及研究单位：

Fahim Tajwar, Carnegie Mellon University
Anikait Singh, Archit Sharma, Rafael Rafailov, Stanford University
Jeff Schneider, Carnegie Mellon University
Tengyang Xie, University of Wisconsin-Madison
Stefano Ermon, Chelsea Finn, Stanford University
Aviral Kumar, Google DeepMind

论文链接：https://arxiv.org/abs/2404.14367

摘要

本文分析探讨了在偏好标签上微调大语言模型（LLM）的不同方法，并为实践提供指导。

核心发现 ：

对于LLM的偏好微调，使用 在线策略采样 （on-policy sampling RL）和 负梯度 （negative sampling）的方法可以有效地改善模型性能。这些方法通过快速重新分配特定类别分布上的概率质量，从而更有效地对齐模型策略与目标分布。

介绍

基本概念

在给定的偏好数据集上，通过

（第一项）优化策略以最大化期望奖励，
（第二项）同时应用KL散度约束来限制策略与参考策略之间的分布差异，确保策略更新的稳健性。

具体而言，该目标可以表述为：

偏好微调分类（Preference Fine-Tunning）

1. 在线采样策略（on-policy sampling）：

根据当前学习到的策略（policy，）显式地采样新的响应或行为。例如REINFORCE：

通俗而言在线采样策略根据模型当前的状态生成 新的文本或响应 ，然后使用这些响应来进一步训练或微调模型，使其更好地适应特定的任务或偏好。其 与离线学习（offline learning）相对 ，离线学习使用历史数据或模拟数据进行学习，而不直接与环境交互。

补充：完全离线微调方法 (Fully offline methods)

(1) 对比学习：完全离线的方法，例如直接偏好优化（DPO）和增量偏好优化（IPO），在没有进行在线策略采样的情况下，使用对比训练在偏好数据集上进行训练。这些方法对来自偏好数据集的响应（获胜响应）和（失败响应）进行训练。

尽管没有在线策略采样，这些方法通过对比损失明确尝试减少失败响应的对数似然比，即减少。这里，表示当前策略，表示参考策略。

（2）监督微调：另一个离线方法是偏好监督微调（Pref-FT, Dubois et al, 2024)，它对首选响应执行监督微调。这些方法通常类似于离线无模型方法，即这些方法不使用奖励模型来进行训练。这意味着它们直接从偏好数据中学习，而不是依赖于从数据中学习得到的奖励模型来指导策略的优化。

2. 在线策略样本复用（on-policy sample reuse）

在执行策略策略采样后，对于给定的提示-响应（prompt-response）对，是否对同一数据点进行多次梯度更新。

样本复用可以提高数据的利用效率，尤其是在数据稀缺的情况下。然而，它也需要仔细的平衡，以避免过度拟合于特定的样本，并且保持算法更新的多样性。此外，样本复用在计算资源有限的情况下尤其有用，因为它允许算法从有限的数据中学习更多的信息。

3. 负梯度（negative gradient）

通过最小化损失函数来减少特定响应的可能性。这种策略通过将这些响应的似然函数的梯度乘以一个负系数来实现，目的是降低那些不希望发生的响应的概率。

几何解释： 在线策略采样（On-policy sampling）逐步将策略的质量（或概率分布）从参考策略转移到采样策略，目的是使策略向奖励函数中的峰值移动，这个峰值由指示。随着时间的推移，模型将更倾向于生成那些能够获得更高奖励的响应。

相对地，离线方法（offline methods）使用负梯度来降低在已学习策略下不良响应的可能性。这些方法通过减少不良响应的对数似然来实现这一目标(negative gradient)，从而在中产生比仅最大化某种似然的策略更大的偏差。

ICML 2024 || 大模型偏好微调：关键策略与原因解析

正文

基本信息

摘要

介绍

基本概念

偏好微调分类（Preference Fine-Tunning）

1. 在线采样策略（on-policy sampling）：

2. 在线策略样本复用（on-policy sample reuse）

3. 负梯度（negative gradient）

关键启示

请到「今天看啥」查看全文

ICML 2024 || 大模型偏好微调：关键策略与原因解析

正文

(adsbygoogle = window.adsbygoogle || []).push({}); 基本信息

摘要

介绍

基本概念

偏好微调分类 （Preference Fine-Tunning）

1. 在线采样策略（on-policy sampling）：

2. 在线策略样本复用（on-policy sample reuse）

3. 负梯度 （negative gradient）

关键启示

请到「今天看啥」查看全文

基本信息

偏好微调分类（Preference Fine-Tunning）

3. 负梯度（negative gradient）