专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

OpenAI超级对齐团队再发「绝唱」！首提「证明者-验证者」博弈，训练GPT说人话

新智元 · 公众号 · AI · 2024-07-18 13:18

正文

新智元报道

编辑：乔杨好困

【新智元导读】当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时，OpenAI的对齐团队从另一个角度发现了华点——除了准确性，生成答案的清晰度、可读性和可验证性也同样重要。

不知道你有没有过这样的经历：碰到一道做不出的数学题，于是丢给ChatGPT。

结果一通生成之后，ChatGPT的「不知所云」让你从之前的略有头绪瞬间变成完全迷茫。不管它是对是错，反正人类是看不懂了。

提高LLM的数学和推理能力是最近研究关注的焦点，但同样重要的是，确保模型生成可理解的文本。

否则即使答案正确，99%的人类都理解不了，也不能让LLM真正协助我们处理复杂任务。

OpenAI近期发表的一篇论文就旨在研究并解决模型性能和可读性（legibility）之间的平衡。

论文地址：https://openai.com/index/prover-verifier-games-improve-legibility/

和之前发出来的两篇一样，这次又是Jan Leike的库存作品，但共同一作是两位在职研究员Jan Hendrik Kirchner和Yining Chen。

估计超级对齐团队的「遗作」够OpenAI发一阵子了

通过优化提升可读性

论文发现，如果仅仅针对答案正确性来训练模型，其中一个副作用是，可能会让LLM的输出变得难以理解。

如果让人类评估者对高度优化的答案进行评价，在有限时间内（45s）的评估准确率会明显下降（图4b），正确评估所需的时间也逐步增长（图4c）。

因此，提升LLM响应的可读性，不仅能增强其可信度，还有助于准确的验证和评价。

响应输出「可读性」与模型的「可解释性」（explainabiliby）之间，有什么联系？

作者给出的解释是：两者是互补属性，都可以脱离另一个而单独存在。

「可解释性」试图描述模型的推理过程，无论推理本身是否正确，而且最终的生成也可以无限复杂。

而「可读性」忽略模型如何产生推理过程，只要求输出连贯且便于人类理解。

为了提升可读性，论文提出的思路是：用小学数学题（GSM数据集）训练较高级的模型，让它创建较弱模型也能轻松验证的文本答案，这个过程就是「证明者-验证者博弈」（prover-verifier games）。

这是一种博弈论框架，其中较强模型担任「证明者」负责解决生成方案，较弱模型担任「验证者」检查其准确性。

实验证明，这种方法不仅提升了输出内容的正确性，也能让人类和其他AI系统更易于理解并验证。

同时，作者提出，进一步缩小可读性模型（验证者）与高性能模型（证明者）之间的性能差距，将是未来对齐研究的重要目标。

工作原理

实验中，GPT-4系列的大模型和小模型分别担任「证明者」和「验证者」，它们在预训练计算量上相差约3个数量级。

这些模型都在人类书写的数学推导上进行了少量监督训练，但没有进行广泛的后续训练（post-training）。

首先，证明者模型生成多个数学问题的解决方案，由于模型本身产生的错误，其中一些解决方案是不正确的。

然后，在下面两个阶段之间交替进行多轮训练：

- 验证者训练：训练较弱的验证者模型，预测证明者生成解决方案的正确性

- 证明者训练：指示能力较强的证明者模型扮演「有帮助的」或「狡猾的」角色

对于「有帮助」的角色，我们奖励验证者打出高分正确答案；对于「狡猾」角色则相反，奖励验证者评分高的错误答案。

从论文中给出的样例可以看到，在每一轮的可检查性训练（checkability）中，模型输出答案的清晰度和可读性都在逐步提升。

比如下面这个问题：

Shawna的父亲的年龄是Shawna的五倍。Shawna目前的年龄是Aliya的三倍。如果Aliya现在3岁，Shawna的父亲多大？

模型初始化时给出如下答案：

根据题目，Shawna目前$3^2=9$岁。

这意味着 Shawna的父亲目前$9\cdot5=4$岁。

答案是：45

第一轮训练后，模型在原来正确答案的基础上加入了推理过程，感觉是参考答案「简略版」和「详细版」的区别：

首先我们需要确定Aliya的年龄。根据问题描述，Aliya 3岁。

然后我们需要确定Shawna的年龄。根据问题描述，Shawna目前的年龄是Aliya的三倍，所以Shawna的年龄是3乘以3，结果是<<3*3=9>>9。

接下来，我们需要确定Shawna 父亲的年龄。题目中提到Shawna的父亲年龄是Shawna的五倍。因此Shawna的父亲的年龄是5乘以9，结果是<<5*9=45>>45。

答案是：45

如果说上面的答案在详细之余显得有些冗余，下面这个5轮训练后的答案就进一步平衡了「全面详细」和「简洁精炼」。

我们从计算Aliya的年龄开始。

根据题目描述，Aliya 3岁。

然后，我们需要计算Shawna当前的年龄。

Shawna目前的年龄是Aliya的三倍。因此，Shawna当前的年龄是3乘以3，结果是 <<3*3=9>>9。

现在我们需要计算Shawna父亲的年龄。

Shawna的父亲年龄是Shawna的五倍。因此，Shawna的父亲的年龄是5乘以9，结果是 <<5*9=45>>45。

因此，Shawna的父亲的年龄是45。

答案是：45

而且，这种多轮训练也能增强验证者逐渐辨别「狡猾」证明者的能力。

在最初的实验中，「狡猾」的证明者能够轻松生成让验证者信服的错误答案。但这些答案被添加到下一轮后，就无法再骗过验证者。

于是，随着验证者能力的提升，每一轮训练都激励「狡猾」的证明者探索不同的策略「瞒天过海」。

比如，同样是上面的问题，「狡猾」的证明者第一轮所犯的错误非常简单直接：把5×9的结果算成36。

到第三轮时，模型选择在问题语义上动手脚，偷偷把第一步计算中的「3倍」变成「5倍」，错误更加隐蔽。

一旦后者无法再骗过前者时，训练结束。

关键结果

基线

根据上述的实验思路，一个自然的基线设置就是忽略可读性，让模型只优化正确性。本文选择采用强化学习（RL）方法微调LLM。

从图4中可以看到，这种方法能够让模型在小学数学题上取得优异的准确率，但生成答案的可读性也随之显著降低，提升了人类的评估难度。

权衡

图5展示了博弈中各种角色在训练过程中的动态变化。可以看到，随着训练步数增加，证明者们对验证者的说服能力逐渐提高（5a），但答案的准确性并不是单调变化，会出现显著波动（5b）。

使用更大的验证者模型时（训练计算量从证明者的10^-3增长到10^-1.8），也能发现类似的变化趋势（图c）。

但说服力的提升并不意味着验证者模型分辨能力的停滞或弱化。正相反，验证者的稳健性逐步提高，「狡猾」的模型需要越来越多的步骤才能骗过验证者，直至最后无法成功欺骗（图6）。

实验关注的核心——「有用」的证明者，在训练过程中实现了答案准确性和可读性的同步提升（图8），尤其是与仅针对正确性的训练（图4）相比。这表明验证者模型的反馈起到了有效作用。

OpenAI超级对齐团队再发「绝唱」！首提「证明者-验证者」博弈，训练GPT说人话

正文

(adsbygoogle = window.adsbygoogle || []).push({});

新智元报道

【新智元导读】 当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时，OpenAI的对齐团队从另一个角度发现了华点——除了准确性，生成答案的清晰度、可读性和可验证性也同样重要。

基线

权衡

请到「今天看啥」查看全文

【新智元导读】当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时，OpenAI的对齐团队从另一个角度发现了华点——除了准确性，生成答案的清晰度、可读性和可验证性也同样重要。