专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

Anthropic: 预训练阶段引入人类反馈更安全

深度学习自然语言处理 · 公众号 · · 2024-12-20 18:04

正文

作者：yearn
原文：https://zhuanlan.zhihu.com/p/701067046
排版：青稞AI

该研究探讨了在语言模型（LM）预训练阶段引入人类偏好反馈，以减少模型生成不符合人类偏好的内容，如虚假信息、冒犯性评论、个人身份信息等。这项工作认为，与仅在微调阶段对模型进行对齐不同，在预训练时纳入人类偏好可以更有效地促使模型生成符合人类期望的内容。文章提出，当前主流的微调方法（如监督学习和RLHF）在大模型上往往难以有效“遗忘”不符合人类偏好的训练数据。该研究的动机是通过直接在预训练阶段嵌入人类偏好来提升模型的对齐效果。

LLM所有细分方向群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入！

主要贡献

在毒性分数（越低越好）方面，采用标准预训练目标（蓝色实线）和条件训练目标（橙色实线）进行预训练的语言模型表现有显著差异。条件训练能够显著降低模型生成冒犯性内容的频率。此外，与在1.6B（橙色虚线）和330M（橙色点线）tokens上通过条件训练进行微调的模型相比，直接采用人类反馈预训练（PHF）在减少不良内容方面更为有效。这表明，相较于后续微调阶段，PHF在预训练阶段就能够更有效地抑制不符合人类偏好的内容。

1. 提出预训练目标选择 ：文章探索了五种基于人类反馈的预训练目标，以分析它们对模型对齐和性能的影响。研究发现，条件训练（Conditional Training）在减少不良内容生成和保持模型任务能力之间达到了帕累托最优。

2. 条件训练方法验证 ：实验表明，条件训练在无提示和对抗性提示下均能显著降低模型生成不良内容的频率。与标准LM预训练相比，条件训练在无损害性能的前提下显著提升了模型的对齐效果。

3. PHF对比传统微调方法 ：研究发现，PHF在多个任务中显著优于标准的MLE预训练后再微调的流程。这表明，在预训练阶段就引入人类偏好更为高效，改变了仅在微调阶段进行对齐的传统做法。

4. 实验数据支持 ：研究在非毒性文本生成、去除个人身份信息（PII）、以及生成符合PEP8标准的Python代码三项任务上对比了不同预训练方法的对齐效果，验证了条件训练的普适性。

方法

本文介绍了五种基于人类反馈的预训练（PHF）目标，这些目标将在第四部分中进行评估，以观察它们对不同任务在能力和对齐指标方面的影响。在LM预训练中，初始模型为随机初始化的语言模型（LM）πθ，数据集D由一系列文档组成。每个文档x是一个由段落组成的序列，记作：。其中，每个段落xi包含Ni个token：，Ni表示该段落长度。token来自固定的词汇表V。在PHF中，还假设有一个段落级的奖励函数R，其接收段落xi作为输入并输出标量分数R(xi)，表示该段落的偏好程度。预训练的目标是最大化文档的预训练目标L，即：。下面描述标准目标MLE及五种PHF目标。

MLE（最大似然估计）

最大似然估计（MLE）是主流的预训练和微调LM的方法。其目标是训练文档的对数似然：

MLE可以分解为：

MLE带过滤

在数据集过滤（Filtering）方法中，MLE目标在奖励低于阈值t的文档x上设为0：

其中t是文档级奖励的分位点阈值，avg(R(x))为文档的平均奖励。

条件训练（Conditional Training）

条件训练通过在文档x前添加控制token，基于每个段落的奖励R(xi)给每个段落xi加上控制token来实现控制训练目标：

其中，ci可以是<|good|>或<|bad|>，具体取决于R(xi)是否超过阈值t。在推理时，使用πθ(·|c1=<|good|>)采样。

非期望目标（Unlikelihood Loss）

非期望目标用于最大化超过阈值t的段落的似然，同时对低于阈值的段落使用token级非期望目标，其公式如下：

其中α是用于缩放非期望项的系数。

奖励加权回归（Reward-Weighted Regression, RWR）

RWR通过对每个段落的权重进行奖励加权来扩展MLE，公式如下：

其中β控制奖励对损失的影响。

优势加权回归（Advantage-Weighted Regression, AWR）

AWR在RWR基础上减去token级的值估计Vθ (xi_j)，并用以下目标优化LM：