如果说,RLHF中的「人类」被取代,可行吗?
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
论文地址:https://arxiv.org/abs/2309.00267
结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果,胜率50%。
同时,谷歌研究再次证明了RLAIF和RLHF,比起监督微调(SFT)胜率都超过了70%。
如今,大型语言模型训练中一个关键部分便是RLHF。人类通过对AI输出的质量进行评级,让回应更加有用。
但是,这需要付出很多的努力,包括让许多标注人员暴露在AI输出的有害内容中。
既然RLAIF能够与RLHF相媲美,未来模型不需要人类反馈,也可以通过自循环来改进。
当前,RLHF已经成为微调大模型的核心方法,包括ChatGPT、Bard等模型都采用这一范式。
具体来说,RLHF分为三步:预训练一个监督微调LLM;收集数据训练一个奖励模型;用RL微调模型。
有了RLHF,大模型可以针对复杂的序列级目标进行优化,而传统的SFT很难区分这些目标。
然而,一个非常现实的问题是,RLHF需要大规模高质量的人类标注数据,另外这些数据能否可以取得一个优胜的结果。
在谷歌这项研究之前,Anthropic研究人员是第一个探索使用AI偏好来训练RL微调的奖励模型。
他们首次在「Constitutional AI」中提出了RLAIF,发现LLM与人类判断表现出高度一致,甚至在某些任务上,表现优于人类。
但是,这篇研究没有将人类与人工智能反馈做对比,因此,RLAIF是否可以替代RLHF尚未得到终极答案。
谷歌最新研究,主要就是解决这个问题。
研究人员在模型摘要任务中,直接比较了RLAIF和RLHF。
给定1个文本和2个候选答案,使用现成的LLM给出一个偏好标注。
然后,根据LLM偏好和对比损失训练奖励模型(RM)。最后,通过强化学习微调策略模型,利用奖励模型给出奖励。
那么,谷歌与Anthropic提出的RLAIF方法有什么不同?
谷歌自己在文中解释道,
- 谷歌:根据AI标注的偏好训练奖励模型,然后进行RL微调。
- Constitutional AI:通过迭代,要求LLM根据宪法生成更好的响应,来改进监督学习模型。
谷歌在最新研究中提出的RLAIF方法,过程是怎样的?
大语言模型进行偏好标注
研究人员用「现成的」LLM来标注对两个候选项之间的偏好。
这是一个针对一般用途进行预训练或指令调整的模型,但未针对特定下游任务进行微调。给定一段文本和两个候选摘要,LLM被要求评价哪个摘要更好。LLM 的输入结构如下:
介绍和描述手头任务的说明
一段文本、一对摘要、思路的基本原理和偏好判断
一段文本和一对要标注的摘要
提示 LLM 的结束字符串(例如「Preferred Summary=」)
在给LLM提供输入后,研究人员获得生成token「1」和「2」的对数概率,并计算softmax以获得偏好分布。
从LLM获取偏好标注的方法有很多,例如从模型中解码自由形式的响应并启发式地提取偏好(例如:output=「the first summary is better」),或者将偏好分布表示为单热表示(one-hot representation)。然而,研究人员没有尝试这些替代方案,因为他们的方法已经产生了很高的准确性。
研究人员试验了两种类型的序言:第一种是「Base」,它简单地询问「哪个摘要更好?」,第二种是「OpenAI」,它模仿了生成OpenAI TL;DR 偏好数据集的人类偏好标注器的评级指令,包含有关构成强摘要的详细信息。如下图所示。
研究人员还通过在提示中添加少量样本来尝试上下文学习,其中手动选择样本来涵盖不同的主题。解决位置偏差。
之前的研究结果表明,向LLM展示候选项的顺序可能会影响LLM判断更喜欢的候选项。研究人员发现证据表明存在这种位置偏差,尤其是对于较小尺寸的标注LLM 。
为了减轻偏好标注中的位置偏差,研究人员对每对候选项进行两次推理,候选项提交给LLM的顺序二次推理是相反的。然后对两个推推理的结果进行平均以获得最终的偏好分布。
思维链推理
研究人员尝试从AI标注器中引出思维链 (COT) 推理,以提高与人类偏好的一致性。
研究人员替换标准的结尾提示(例如将「Preferred Summary=」替换为「Consider the coherence, accuracy, coverage, and over-all quality of each summary and explain which one is better. Rationale:」),然后解码一个LLM的回复。
最后,研究人员将原始提示、响应和原始结尾字符串“Preferred Summary=”连接在一起,并按照第 3.1 节中的评分过程来获得偏好分布。具体过程见下图。
在零样本提示中,LLM没有给出推理应该是什么样子的示例,而在少量样本提示中,研究人员提供了模型要遵循的COT推理示例。示例请参见下图。
自洽性(Self-Consistency)
对于思维链提示,研究人员还尝试了自洽性——一种通过对多个推理路径进行采样并聚合每个路径末尾产生的最终答案来改进思维链推理的技术。
使用非零解码温度(non-zero decoding temperature)对多个思维链基本原理进行采样,然后按照上一节中的方法获得每个思维链的LLM偏好分布。然后对结果进行平均以获得最终的偏好分布。
AI反馈的强化学习
在LLM对偏好进行标注后,将训练奖励模型(RM)来预测偏好。由于研究人员的方法产生软标注(Soft Label),他们采用RM生成的奖励分数的softmax的交叉熵损失(cross-entropy loss),而不是奖励模型中提到的损失。
Softmax将RM的无界分数(unbounded scores)转换为概率分布。
在AI标注数据集上训练RM可以被视为模型蒸馏的一种形式,特别是因为研究人员的AI标注器通常比RM更大、更强。
另一种方法是绕过RM并直接使用AI反馈作为RL中的奖励信号,尽管这种方法的计算成本更高,因为AI标注器比RM更大。
通过经过训练的RM,研究人员使用适用于语言建模领域的Advantage Actor Critic (A2C)算法的修改版本进行强化学习。
评价
研究人员通过三个指标评估他们的结果 - AI标注器对齐、配对准确度和胜率。
AI标注器对齐时用来衡量AI标注偏好相对于人类偏好的准确性。
对于单个示例,将软人工智能标注的偏好转换为二进制表示。如果标注与目标人类偏好一致则分配 1,否则分配 0。