梦晨 西风 发自 凹非寺 转载 | 量子位 | 公众号 QbitAI
之前领导OpenAI安全团队的北大校友
翁荔
(Lilian Weng)
,离职后第一个动作来了。
当然是发~博~客。
前脚刚发出来,后脚就被大伙儿齐刷刷码住,评论区一堆人排队加待读清单。
还有不少OpenAI前同事转发推荐。
这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。
主题围绕强化学习中
奖励黑客
(Reward Hacking)
问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。
她强调奖励黑客行为在大模型的RLHF训练中的潜在影响,并呼吁更多研究关注理解和缓解这一问题。
在我看来,这是现实世界部署更多自主AI模型应用的主要障碍。
尝试定义Reward Hacking
传统概念强化学习中,Agent利用奖励函数中的缺陷或模糊性来获得高额奖励,而没有真正学习或完成预期任务,是一个常见的问题。
她举的例子包括:
在大模型中,Reward hacking则可能表现为:
翁荔认为Reward hacking的存在有两大原因:
-
强化学习环境通常不完美
-
准确指定奖励函数本质上是一项艰巨的挑战
语言模型兴起的时代,并且RLHF成为对齐训练事实上的方法,语言模型强化学习中的Reward hacking表现也相当令她担忧。
过去学术界对这个话题的研究都相当理论,专注于定义或证明Reward hacking的存在,然而关于实际该如何缓解这种现象的研究仍然有限。
她写这篇博客,也是想呼吁更多研究关注、理解和缓解这一问题。
为了定义Reward Hacking,翁荔首先回顾了近年来学术界提出的相关概念
包括
奖励腐败
(Reward corruption)、
奖励篡改
(Reward tampering)等等。
其中,Reward hacking这个概念,早在2016年由Anthropic创始人Dario Amodei共一论文提出。
当时他和另一位联创Chris Olah还在谷歌大脑,且已经与OpenAI联创John Schulman展开合作。
如今他们仨又在Anthropic汇合了……
言归正传,综合一系列研究,翁荔认为Reward Hacking在较高层次上可分为两类:
同时她也认为设计有效的奖励塑造机制本质上很困难。
与其责备设计不当的奖励函数,不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素,设计一个好的奖励函数本身就是一项内在挑战。
另外在分布外环境中测试强化学习Agent时,还可能出现以下问题:
那么,为什么会出现Reward Hacking?根据Amodei等人2016年的分析成因包括:
-
环境状态和目标的不完全可观测性,导致奖励函数无法完美表征环境。
-
系统复杂性使其易受攻击,尤其是被允许执行改变环境的代码时。
-
涉及抽象概念的奖励难以学习或表述。
-
RL的目标就是高度优化奖励函数,这与设计良好的RL目标之间存在内在”冲突”。
此外,观察到的Agent行为可能与无数个奖励函数相一致,准确识别其真正优化的奖励函数在一般情况下是不可能的。
翁荔预计随着模型和算法的日益复杂,Reward Hacking问题会更加普遍。
更智能的模型更善于发现并利用奖励函数中的”漏洞”,使Agent奖励与真实奖励出现偏差。相比之下,能力较弱的算法可能无法找到这些漏洞。
那么,大模型时代的Reward Hacking,又有哪些独特之处?
语言模型中的Reward Hacking
在RLHF训练中,人们通常关注三种类型的奖励:
-
人们真正希望大模型优化的内容,被称为
黄金奖励
(Gold reward)
-
人类奖励
(Human reward)
,实际用来评估大模型,在数据标注任务中来自个体人类,且标注有时间限制,并不能完全准确地反映黄金奖励
-
代理奖励
(Proxy reward)
,也就是在人类数据上训练的奖励模型所预测的得分,继承了人类奖励的所有弱点,加上潜在的建模偏差
翁荔认为,
RLHF通常优化代理奖励分数,但人们最终关心的是黄金奖励分数。
例如,模型可能经过优化,学会输出看似正确且有说服力的回答,但实际上却是不准确的,这可能会误导人类评估者更频繁地批准其错误答案。
换句话说,由于RLHF,“正确”与“对人类看似正确”之间出现了分歧。
在一项RLHF研究中,使用了大模型竞技场ChatbotArena数据训练奖励模型,就出现AI更擅长说服人类它们是正确的情况:
-
RLHF提高了人类对AI回答的认可度,但不一定就能提高AI的正确率。
-
RLHF削弱了人类对AI回答的评估能力,评估的错误率更高。
-
RLHF使错误的AI回答对于人类更有说服力,表现为评估的假阳性率显著增加。
此外,随着大模型越来越多作为评估者对其他模型提供反馈,也可能进一步引入偏差。
翁荔认为这种偏差尤其令人担心,因为评估模型的输出被用作奖励信号的一部分,可能容易被利用。
比如2023年一项实验中,简单改变候选答案的顺序就能改变结果,GPT-4倾向于给第一个答案高分数,ChatGPT(3.5)更倾向于第二个。
另外,即使不更新参数,大模型仅靠上下文学习能力也可能产生Reward hacking现象,称为
ICRH
(In-context Reward Hacking)
。
ICRH与传统Reward Hacking还有两个显著不同:
翁荔认为目前还没有避免、检测或预防ICRH的有效方法,仅仅提高提示的准确性不足以消除ICRH,而扩大模型规模可能会加剧ICRH。
在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。
缓解措施
最后翁荔表示尽管有大量文献讨论奖励黑客现象,但少有工作提出缓解奖励黑客的措施。
她简要回顾了三种潜在方法。
一种是
改进强化学习算法
。
前面提到的Anthropic创始人Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中,指出了一些缓解方向,包括:
对抗性奖励函数
(Adversarial reward functions)
、模型预测
(Model Lookahead)
、对抗性盲化
(Adversarial blinding)
、谨慎的工程设计
(Careful engineering)
、奖励上限
(Reward capping)
、反例抵抗
(Counterexample resistance)
、多奖励组合
(Combination of multiple rewards)
、奖励预训练
(Reward pretraining)
、变量不敏感性
(Variable indifference)
、陷阱机制
(Trip wires)
。
此外,谷歌DeepMind团队此前提出了“解耦批准”的方法来防止奖励篡改。
在这种方法中,收集反馈的行为与实际执行的行为是分开的,反馈会在行为执行前就给出,避免了行为对自己反馈的影响。
另一种潜在缓解措施是
检测奖励黑客行为
。
将奖励黑客行为视为一个异常检测任务,其中检测器应标记出不一致的实例。
给定一个可信策略和一组手动标注的轨迹回放,可以基于可信策略和目标策略这两个策略的动作分布之间的距离构建一个二分类器,并测量这个异常检测分类器的准确性。
之前有实验观察到,不同的检测器适用于不同的任务,而且在所有测试的强化学习环境中,没有任何测试的分类器能够达到60%以上的AUROC。
第三种潜在缓解措施是
分析RLHF数据
。
通过检查训练数据如何影响对齐训练结果,可以获得有关预处理和人类反馈收集的见解,从而降低奖励黑客风险。
哈佛大学与OpenAI研究人员今年合作提出了一套评估指标,用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在HHH-RLHF数据集上进行了系统的错误分析以进行价值对齐
(SEAL)