原文标题《Q*假设:思维树推理、过程奖励模型以及增强合成数据》
周三,就在我们都准备休假庆祝感恩节的时候,路透社最后一次报道了OpenAI的消息,揭示了一个新的OpenAI方法Q*的名称和高层评价,这个方法被含糊其辞地宣传为具有强大的能力:
路透社联系后,OpenAI拒绝置评,在一条发给员工的内部消息中承认了一个名为Q*的项目……
OpenAI的一些人认为Q*(发音为Q星)可能是该初创公司在寻求所谓的人工通用智能(AGI)方面的一个突破,一位知情人士告诉路透社。OpenAI将AGI定义为在大多数经济价值任务中超越人类的自主系统。
在拥有大量计算资源的情况下,这个新模型能够解决某些数学问题,这位不愿透露姓名的人士说,因为该个人未获授权代表公司发言。尽管只是执行小学生水平的数学运算,但在这些测试中表现出色使得研究人员对Q*的未来成功非常乐观,消息人士表示。
如此广泛的猜测仅仅是从一种方法的名称中展开的,这在历史上是前所未有的。不过,这个名称在这种情况下相当简单,并不是《沙丘》宇宙中的又一个代号。如果Q*(Q-星)是真实的,它显然将强化学习文献中的两个核心主题联系起来:Q值和A*,一种经典的图搜索算法。是的,有人可能会争辩说Q可能仅仅指的是最优策略的价值函数,但这需要是一个捏造的泄露,才会如此荒谬,而OpenAI几乎所有的东西都已经泄露了,所以捏造它们似乎不太可能。
我的最初假设,我明确标记为一个“锡帽子理论”,是Q学习和A*搜索的一个模糊融合。我没有回答的是,搜索的对象是什么?由于我稍后会提到的基础设施原因,我最初关于在对话轮次上进行搜索的猜测几乎可以肯定是错误的。
在我更详细地研究这个问题时,我确信他们通过搜索语言/推理步骤的思维树来进行强有力的操作,但这比人们认为的要小得多。夸大其词的原因是将大型语言模型的训练和使用与深度强化学习的核心组件联系起来的目标,这些核心组件使得像AlphaGo这样的成功成为可能:自我对弈和前瞻性规划。
- 自我对弈是指一个智能体通过与自身略有不同的版本对弈来提高其游戏水平,因为它将逐渐遇到更具挑战性的情况。在大型语言模型(LLMs)的领域中,几乎可以肯定,自我对弈的最大部分将表现为人工智能反馈,而非竞争过程。
- 前瞻性规划是使用世界模型来推理未来并产生更好行动或输出的概念。这两种变体基于模型预测控制(MPC)[2],通常用于连续状态,以及蒙特卡洛树搜索(MCTS)[3],适用于离散行动和状态。
为了理解这些是如何联系在一起的,我们需要回顾一下OpenAI和其他机构最近发布的研究结果,这将回答两个问题:
- 我们如何构建一个可以搜索的语言表示?
- 我们如何在划分和有意义的语言块上构建价值观念(而不是整个完成体)?
通过这些答案,我们应该能清楚地了解如何使用现有的用于RLHF的强化学习方法。我们使用强化学习优化器来微调语言模型,并通过模块化奖励(而不是像现在这样使用完整序列)获得更高质量的生成内容。
使用大型语言模型进行模块化推理:思维树(ToT)提示方式
推广像“深呼吸”和“逐步思考”这样的技巧,现在正扩展到使用并行计算和启发式方法(搜索的一些基本原理)进行推理的高级方法。
“思维树”确实如其名。这是一种促使语言模型创建一系列可能会或不会在正确答案处汇聚的推理路径的方法。论文中展示了与使用大型语言模型进行问题解决的其他方法的比较:
使这成为可能的创新是将推理步骤分块以及提示模型创建新的推理步骤。ToT看起来像是第一个用于提高推理性能的“递归”提示技术,这听起来与递归自我改进模型的人工智能安全问题非常相似(尽管我不是专家)。
通过推理树,可以采用不同的方法对每个顶点(节点)进行评分或对最终路径进行抽样。这可以基于最短长度到最一致答案之类的事情,或者需要外部反馈的复杂事情,这又让我们回到了强化学习人类反馈(RLHF)的方向。
论文:https://arxiv.org/abs/2305.10601
细粒度奖励标签生成:过程奖励模型(PRM)
迄今为止,大多数RLHF的做法是让语言模型的整个响应获得一个相关分数。对于任何有RL背景的人来说,这是令人失望的,因为它限制了RL方法对文本每个子组件价值进行连接的能力。未来有人指出,在多轮对话交互层面进行这种多步骤优化的可能性,但由于需要人类或某种提示源参与循环,这仍然是遥不可及的。
这可以轻松扩展到自我对弈风格的对话,但很难给大型语言模型设定目标,使其转化为持续改进的自我对弈动态。我们想要用大型语言模型做的大多数事情是重复性任务,与围棋这样的表现几乎没有无限上限的游戏不同。
另一方面,有一种LLM用例自然而然地抽象成了包含的文本块:逐步推理,最典型的例子是数学问题。
过去六个月里,我从RLHF领域的人士那里私下听说了很多关于过程奖励模型(PRMs)的话题。事实证明,关于这些模型的文献很多,但关于如何将它们与强化学习(RL)结合使用的资料却很少。
PRM的核心思想是为推理的每个步骤分配一个分数,而不是为完整的信息分配。下面展示了来自OpenAI论文《Let’s Verify Step by Step》[4]的一个例子:
他们使用的有趣的反馈界面(将被人工智能所取代),但这是具有指导意义的:
这使得在解决推理问题时能够进行更精细的生成,通过对最大平均奖励或其他指标进行采样,而不是仅依赖一个分数(标准的RM在这篇文献中被称为结果RM)。使用最佳N次采样[5],本质上是生成多次并使用得分最高的那个,通过奖励模型评分(推理时的拒绝采样的表亲,随着Llama 2而流行),PRM在推理任务上胜过标准RM。
迄今为止,大多数针对PRM的资源只展示了如何在推理时使用它们。当这一信号在训练中得到优化时,真正的力量才会显现。为了创造最丰富的优化环境,拥有生成多样化推理路径以供评分和学习的能力是至关重要的。这就是“思维树”发挥作用的地方。ToT的提示为生成内容提供了多样性,有了PRM的访问权限,策略可以学会利用这一点。
有关PRM的更多资源,请参见以下内容:
1. Let’s Verify Step by Step: PRMs的良好入门。[4]
2. 解决数学应用题时采用过程和结果反馈:2023年所有PRM和推理工作中的经典引用。[6]
3. 学习数学推理的大型语言模型的规模关系:一篇研究拒绝抽样方法用于推理问题的论文,以及其他贡献。[7]
4. 让我们逐步给予奖励:作为推理导航的逐级奖励模型[8]
此外,有一个广受欢迎的公开可用数学模型据称是使用PRMs进行训练的:Wizard-LM-Math[9]。其次,OpenAI在今年早些时候发布了他们从“逐步验证”论文中细粒度的奖励标签,用于训练PRM。[10]
将其组合起来:Q*可能是什么
Q*似乎正在使用PRMs对“思维树”推理数据进行评分,然后使用离线强化学习进行优化。这与现有的使用离线算法(如DPO或ILQL)的RLHF工具并没有太大不同,这些工具在训练期间不需要从LLM生成数据。强化学习算法看到的“轨迹”是推理步骤的序列,因此我们最终以多步骤的方式而不是上下文老虎机的方式进行RLHF!