今天,OpenAI 发布了他们在超级对齐(Superalignment)方面的最新研究成果——
训练强语言模型来生成弱语言模型易于验证的文本,并发现这种训练也使人类更容易对文本进行评估
。
提高大语言模型(LLM)输出结果可信度的方法之一,是为其提供清晰且易于检查的推理支持,即可读性。这对于使其对人类有帮助至关重要,尤其是在处理诸如解决数学问题等复杂任务时。
图|一个对齐不佳的、具有超人能力的 AI 可能会产生高效的代码,为了简洁或性能而牺牲易读性。
OpenAI 在官方博客中表示,只为答案正确性而优化思维链解决方案会降低可读性。事实上,让时间有限的人类评估员评估这些高度优化的解决方案,他们的错误几乎是评估较少优化解决方案时的两倍。
为了减少可读性的损失,他们从证明者-验证者游戏(Prover-Verifier Games)中得到启发,提出了一种训练算法。这种算法通过迭代训练小型验证者来预测解的正确性,“乐于助人”(helpful)的证明者会给出验证者接受的正确解,而 “卑鄙”(sneaky)的证明者会给出愚弄验证者的错误解。
他们发现,在训练过程中,“乐于助人”证明者的准确性和验证者对对抗性攻击的鲁棒性都会提高。此外,他们还证明,可读性训练可以转移到负责验证解决方案正确性的时间有限的人类身上。在 LLM 训练过程中,人类的准确性在检查“乐于助人”证明者的解决方案时会提高,而在检查“卑鄙””证明者的解决方案时会降低。
因此,通过小型验证者进行可验证性训练是提高输出可读性的可行技术。研究结果表明,针对小型验证者的可读性训练是提高 LLM 对人类可读性的实用途径,因此有助于超人模型的对齐。
https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf
通过优化提高可读性
为了提高可读性,OpenAI 研究团队优化了小学数学问题的思维链,使其可被较弱的模型验证,并研究这是否使它们对人类更具可读性。这种训练程序的灵感来自证明者-验证者游戏,这是一个博弈论框架,旨在鼓励学习代理以可验证的方式解决决策问题。研究团队的方法在保持人类评估员准确评估解决方案能力的同时,达到了仅优化答案正确性时所见性能提升的一半。研究团队认为,进一步缩小可读模型与高性能模型之间的差距是未来对齐研究的重要目标。
问题:Shawna 的父亲的年龄是 Shawna 的五倍。Shawna 现在的年龄是 Aliya 的三倍。如果 Aliya 现在 3 岁,Shawna 的父亲多大?
图|可检查性训练产生清晰和结构良好的解决方案。由“乐于助人的”证明者在不同轮次的可检查性训练中产生的三个示例解决方案。
工作原理
为了激励强大的模型(证明者)生成对人类可读的文本,研究团队使用了一种训练方案,要求强模型生成的解决方案必须能够被一个更弱的模型(验证者)轻松验证。具体来说,研究团队使用了来自 GPT-4 系列的大小模型,它们在预训练计算量上有大约三个数量级的差异,并且进行了少量的人类编写的数学推导的监督训练,但没有进行广泛的后续训练。
首先,研究团队从证明者模型生成多个数学问题的解决方案,其中一些解决方案由于证明者模型的自然错误是错误的。然后,他们在两个阶段之间交替进行多轮训练:
研究团队发现,最初“卑鄙”的证明者能够轻易地生成说服验证者的错误解决方案。然而,由于他们将这些错误解决方案添加到下一轮的验证者训练中,同样的漏洞在下一轮中不再具有说服力,证明者被迫在每一轮中探索不同的策略。训练在“卑鄙”的证明者无法再生成说服验证者的错误解决方案时结束。
主要发现
-
仅在人工编写的推导上进行监督微调的模型达到了高可读性,但准确性较差。
-
-
研究团队的方法在验证游戏中平衡了两者,保持了高可读性和中等准确性。
三种有用的模型:
-
鲁棒验证者:
即使解决方案旨在误导,也能有效区分正确和错误的解决方案。
-
“乐于助人”的证明者:
生成对人类可读的解决方案,减少人类评估者的错误。
-
“卑鄙”的证明者:
生成微妙的错误解决方案,最初会混淆人类评估者,突出模型改进的领域。
问题:Shawna 父亲的年龄是 Shawna 的五倍。Shawna 现在的年龄是 Aliya 的三倍。如果 Aliya 三岁,那 Shawna 的父亲几岁?
图|“卑鄙”的证明者引入的缺陷变得更加局部化,更难被有时间限制的人类发现。a)初始化(左)和不同轮次可检查性训练中正确(实线)和错误(虚线)解决方案部分的平均(圆圈)和最小(三角形)有效性得分;b)在不同轮次的可检查性训练中,受时间限制的人类在评估来自“卑鄙”的证明者的解决方案时的平均准确率;c)两个在不同训练阶段证明者得分较高的错误解决方案示例,缺陷用红色标出,请注意,第二个示例中的缺陷是将单词翻译成等式不正确。