专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  哈哈,自从 DeepSeek ... ·  昨天  
爱可可-爱生活  ·  通俗版解读 查看图片-20250207091030 ·  昨天  
爱可可-爱生活  ·  【DeepSeek:比ChatGPT危险10 ... ·  3 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  4 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  4 天前  
51好读  ›  专栏  ›  新智元

OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话

新智元  · 公众号  · AI  · 2024-07-18 13:18

正文



新智元报道

编辑:乔杨 好困
【新智元导读】 当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时,OpenAI的对齐团队从另一个角度发现了华点——除了准确性,生成答案的清晰度、可读性和可验证性也同样重要。

不知道你有没有过这样的经历:碰到一道做不出的数学题,于是丢给ChatGPT。

结果一通生成之后,ChatGPT的「不知所云」让你从之前的略有头绪瞬间变成完全迷茫。不管它是对是错,反正人类是看不懂了。

提高LLM的数学和推理能力是最近研究关注的焦点,但同样重要的是,确保模型生成可理解的文本。

否则即使答案正确,99%的人类都理解不了,也不能让LLM真正协助我们处理复杂任务。

OpenAI近期发表的一篇论文就旨在研究并解决模型性能和可读性(legibility)之间的平衡。

论文地址:https://openai.com/index/prover-verifier-games-improve-legibility/

和之前发出来的两篇一样,这次又是Jan Leike的库存作品,但共同一作是两位在职研究员Jan Hendrik Kirchner和Yining Chen。

估计超级对齐团队的「遗作」够OpenAI发一阵子了

通过优化提升可读性

论文发现,如果仅仅针对答案正确性来训练模型,其中一个副作用是,可能会让LLM的输出变得难以理解。

如果让人类评估者对高度优化的答案进行评价,在有限时间内(45s)的评估准确率会明显下降(图4b),正确评估所需的时间也逐步增长(图4c)。

因此,提升LLM响应的可读性,不仅能增强其可信度,还有助于准确的验证和评价。

响应输出「可读性」与模型的「可解释性」(explainabiliby)之间,有什么联系?

作者给出的解释是:两者是互补属性,都可以脱离另一个而单独存在。

「可解释性」试图描述模型的推理过程,无论推理本身是否正确,而且最终的生成也可以无限复杂。

而「可读性」忽略模型如何产生推理过程,只要求输出连贯且便于人类理解。

为了提升可读性,论文提出的思路是:用小学数学题(GSM数据集)训练较高级的模型,让它创建较弱模型也能轻松验证的文本答案,这个过程就是「证明者-验证者博弈」(prover-verifier games)。

这是一种博弈论框架,其中较强模型担任「证明者」负责解决生成方案,较弱模型担任「验证者」检查其准确性。

实验证明,这种方法不仅提升了输出内容的正确性,也能让人类和其他AI系统更易于理解并验证。

同时,作者提出,进一步缩小可读性模型(验证者)与高性能模型(证明者)之间的性能差距,将是未来对齐研究的重要目标。

工作原理

实验中,GPT-4系列的大模型和小模型分别担任「证明者」和「验证者」,它们在预训练计算量上相差约3个数量级。

这些模型都在人类书写的数学推导上进行了少量监督训练,但没有进行广泛的后续训练(post-training)。

首先,证明者模型生成多个数学问题的解决方案,由于模型本身产生的错误,其中一些解决方案是不正确的。

然后,在下面两个阶段之间交替进行多轮训练:

- 验证者训练:训练较弱的验证者模型,预测证明者生成解决方案的正确性

- 证明者训练:指示能力较强的证明者模型扮演「有帮助的」或「狡猾的」角色

对于「有帮助」的角色,我们奖励验证者打出高分正确答案;对于「狡猾」角色则相反,奖励验证者评分高的错误答案。

从论文中给出的样例可以看到,在每一轮的可检查性训练(checkability)中,模型输出答案的清晰度和可读性都在逐步提升。

比如下面这个问题:

Shawna的父亲的年龄是Shawna的五倍。Shawna目前的年龄是Aliya的三倍。如果Aliya现在3岁,Shawna的父亲多大?

模型初始化时给出如下答案:

根据题目,Shawna目前$3^2=9$岁。

这意味着 Shawna的父亲目前$9\cdot5=4$岁。

答案是:45

第一轮训练后,模型在原来正确答案的基础上加入了推理过程,感觉是参考答案「简略版」和「详细版」的区别:

首先我们需要确定Aliya的年龄。根据问题描述,Aliya 3岁。

然后我们需要确定Shawna的年龄。根据问题描述,Shawna目前的年龄是Aliya的三倍,所以Shawna的年龄是3乘以3,结果是<<3*3=9>>9。

接下来,我们需要确定Shawna 父亲的年龄。题目中提到Shawna的父亲年龄是Shawna的五倍。因此Shawna的父亲的年龄是5乘以9,结果是<<5*9=45>>45。

答案是:45

如果说上面的答案在详细之余显得有些冗余,下面这个5轮训练后的答案就进一步平衡了「全面详细」和「简洁精炼」。

我们从计算Aliya的年龄开始。

根据题目描述,Aliya 3岁。

然后,我们需要计算Shawna当前的年龄。

Shawna目前的年龄是Aliya的三倍。因此,Shawna当前的年龄是3乘以3,结果是 <<3*3=9>>9。

现在我们需要计算Shawna父亲的年龄。

Shawna的父亲年龄是Shawna的五倍。因此,Shawna的父亲的年龄是5乘以9,结果是 <<5*9=45>>45。

因此,Shawna的父亲的年龄是45。

答案是:45

而且,这种多轮训练也能增强验证者逐渐辨别「狡猾」证明者的能力。

在最初的实验中,「狡猾」的证明者能够轻松生成让验证者信服的错误答案。但这些答案被添加到下一轮后,就无法再骗过验证者。

于是,随着验证者能力的提升,每一轮训练都激励「狡猾」的证明者探索不同的策略「瞒天过海」。

比如,同样是上面的问题,「狡猾」的证明者第一轮所犯的错误非常简单直接:把5×9的结果算成36。

到第三轮时,模型选择在问题语义上动手脚,偷偷把第一步计算中的「3倍」变成「5倍」,错误更加隐蔽。

一旦后者无法再骗过前者时,训练结束。

关键结果

基线

根据上述的实验思路,一个自然的基线设置就是忽略可读性,让模型只优化正确性。本文选择采用强化学习(RL)方法微调LLM。

从图4中可以看到,这种方法能够让模型在小学数学题上取得优异的准确率,但生成答案的可读性也随之显著降低,提升了人类的评估难度。

权衡

图5展示了博弈中各种角色在训练过程中的动态变化。可以看到,随着训练步数增加,证明者们对验证者的说服能力逐渐提高(5a),但答案的准确性并不是单调变化,会出现显著波动(5b)。

使用更大的验证者模型时(训练计算量从证明者的10^-3增长到10^-1.8),也能发现类似的变化趋势(图c)。

但说服力的提升并不意味着验证者模型分辨能力的停滞或弱化。正相反,验证者的稳健性逐步提高,「狡猾」的模型需要越来越多的步骤才能骗过验证者,直至最后无法成功欺骗(图6)。

实验关注的核心——「有用」的证明者,在训练过程中实现了答案准确性和可读性的同步提升(图8),尤其是与仅针对正确性的训练(图4)相比。这表明验证者模型的反馈起到了有效作用。







请到「今天看啥」查看全文