24年10月来自上海交大、纽约大学、MBZUAI 和 GAIR 的论文“O1 Replication Journey: A Strategic Progress Report – Part 1”。
本文介绍一种人工智能研究方法,体现在 OpenAI O1 复制之旅中。为了响应 OpenAI 开创性 O1 模型的发布,开始一项透明的实时探索,以复制其功能,同时重新构想开展和交流人工智能研究的过程。该方法解决现代人工智能研究中的关键挑战,包括长期团队项目的孤立性、延迟的信息共享以及对不同贡献的缺乏认可。通过提供复制工作的全面、实时记录,包括成功和失败,旨在促进开放科学,加速集体进步,并为人工智能驱动的科学发现奠定基础。本研究进展报告与传统研究论文有很大不同,在整个研究过程中提供持续更新、全过程透明度和积极的社区参与。在技术上,提出“旅程学习”范式,鼓励模型不仅学习捷径,还学习完整的探索过程,包括反复试验、反思和回溯。仅使用 327 个训练样本,并且没有使用任何额外技巧,旅程学习在 MATH 数据集上的表现就比传统监督学习高出 8% 以上,展现了其极其强大的潜力。这是成功解码的 O1 技术中最关键的组成部分。资源开放在
https://github.com/GAIR-NLP/O1-Journey
,包括技术假设和见解、认知探索图、定制开发的工具等。
如图概述探索 OpenAI o1 技术的研究历程,从该技术发布到 2024 年 10 月 8 日。时间线按时间顺序跟踪进度,研究活动在主图中垂直流动。在 o1 发布之后,从最初的评估和知识获取发展到团队组建和分析。然后,探索集中在四次长期思考构建尝试上。第二次尝试是核心探索,分为三个轨道:过程级奖励模型、推理树的构建和将推理树集成到长思考中(具体节点的详细解释可以在下表中找到)。它们汇聚在模型改进的迭代周期中,包括定量和定性评估。图表的右侧展示训练流程,包括预训练、迭代训练和优化技术。实心黑色元素表示已完成的路径和里程碑,而灰色虚线元素表示计划的未来探索。这种可视化捕捉在 o1 技术开发方面的成就和未来研究方向。
大多数现有的机器学习或大语言模型训练方法(例如监督微调)都可以归类为“
捷径学习
”。这种传统范式虽然在特定的、定义明确的任务中可能有效,但在面对复杂、动态和开放式问题时却显示出明显的局限性。捷径学习有几个关键特征:(I)快速结果导向:它强调在短时间内实现特定的性能指标或完成特定任务。(2)数据依赖性强:性能改进通常依赖于增加训练数据量,而不是增强学习算法本身。(3)泛化能力有限:在训练数据分布之外的场景中,性能可能会急剧下降。(4)缺乏自我纠正:这些系统通常缺乏识别和纠正自身错误的能力。虽然捷径学习推动了人工智能的许多进步,但它很难产生真正智能、可靠的人工智能系统,能够处理现实世界的复杂挑战。
本文提出一种名为“
旅程学习
”的新范式。这种创新方法不仅仅代表一种学习方法,它还是人工智能开发的新范式。旅程学习旨在使人工智能系统能够像人类一样通过学习、反思、回溯和适应不断进步,从而表现出更高水平的智能。旅程学习比捷径学习有了显著的进步。
PRM
。过程奖励模型 (PRM) 用于对 LLM 的响应进行细粒度评估(Lightman,2024;Uesato,2022;Xia,2024),尤其是在数学推理领域。通过准确评估每个步骤的正确性,PRM 可以提高训练后质量(Wang,2024c;Sun,2024)并通过各种搜索方法提高推理过程中的准确性(Luo,2024;Wang,2024a)。实施 PRM 可能涉及使用具有高级提示技术的专有模型(Hao,2024)或使用步骤级监督数据进行训练(Xia,2024;Wang,2024c)。后一种方法具有挑战性,因为它需要高质量的注释数据(Xia,2024)。这引起了人们对使用强化学习原理的兴趣,该原理将多步推理过程建模为马尔可夫决策过程 (MDP),并使用蒙特卡洛树搜索 (Silver,2016) 等技术来估计每个步骤的价值,无论是在线 (Chen,2024) 还是离线 (Wang,2024c)。
COT 理论
。思维链 (CoT) 提示显著提高了 LLM 的推理能力。基础研究表明,提供中间推理步骤可提高复杂任务(例如算术和常识推理)的性能(Wei,2022)。此外,理论研究表明,CoT 通过实现固有的串行计算为仅解码器的 Transformer 提供支持,否则这种计算是缺乏的,尤其是在低深度 Transformer 中(Li,2024b)。最近的研究还表明,CoT 提示可以增强 LLM,因为它表明即使是恒定大小的自回归 Transformer,也可以使用电路复杂性理论 (Feng et al., 2024) 通过 CoT 推导解决算术和决策等复杂任务。最近的研究强调将“纠错”数据整合到预训练阶段以提高推理准确性,表明此类数据可以在不需要多轮提示的情况下提高准确性 (Ye et al., 2024)。总体而言,这些发现强调 CoT 提示在提高 LLM 在复杂推理任务中的性能和可访问性方面的关键作用。
内部思维
。随着研究人员强调模型需要反思其推理并改进其输出,对人工智能模型中内部思维的探索也不断发展。早期的研究,如 STaR (Zelikman et al., 2022) 提出了引导推理,让模型生成解释其决策的理由,从而使它们能够通过迭代细化来提高其在复杂任务上的表现。在此基础上,Quiet-STaR(Zelikman,2024a)通过训练语言模型在每个token后生成原理来推广该方法,帮助它们更有效地预测和解释未来的文本。Zhang(2024)通过在每个训练实例中嵌入反思,进一步扩展这项工作,鼓励模型审查其决策并考虑替代推理路径。RISE(Qu,2024)引入一种递归自省的方法,其中模型在检测到错误后迭代地调整其响应,旨在通过多次尝试实现自我改进。这些发展表明,人们越来越关注使 AI 模型能够参与反思、自我纠正的过程,从而增强其处理更复杂推理任务的能力。
推理-时间规模化
。最近的研究表明,与增加模型参数或训练数据量等传统扩展方法相比,规模化推理-时间可以更有效地提高模型性能(Sardana & Frankle,2023;Snell,2024)。虽然参数缩放一直是提高模型能力的主导范式(Kaplan,2020;Brown,2020;Chowdhery,2022),但它往往会导致收益递减和计算开销增加。相反,在推理过程中允许模型有更多时间处理和优化其输出,已成为一种有前途替代的规模化维度(Madaan,2023)。推理-时间规模化具有几个优点:1)资源效率,更充分地利用现有模型容量;2)适应性计算,为复杂任务分配更多处理时间;3)通过逐步解决问题或迭代改进推理(Yao,2023;Cobbe,2021)。经验证据表明,将推理-时间增加一倍通常可以实现与显著增加模型大小相当的性能改进,但计算成本却只是其中的一小部分(Snell,2024)。一些成功的实现包括熟虑机制和迭代细化协议(Huang,2022;Miao,2023),这些机制在需要复杂推理或创造性生成的任务中显示出特别的前景。
搜索-到-思维
。近年来,从传统的基于搜索方法转向隐式推理方法,极大地推动了人工智能研究(Ruoss,2024)。像 DeepBlue(Campbell,2002 年)这样的经典系统严重依赖显式搜索算法(例如 alpha-beta 剪枝和蒙特卡洛树搜索)来实现超越人类的性能(Silver,2017)。然而,随着深度学习的出现,思维链 (CoT)(Wei,2022)推理因其能够通过生成中间推理步骤而无需搜索来提高模型性能而备受关注。隐思维链推理(Deng,2023)通过利用模型的内部隐态来绕过生成显式推理步骤的需要。该方法从经过训练以生成中间步骤的
教师模型
中提取知识,使
学生模型
能够通过其内部层进行垂直推理来更有效地解决任务。同样,在国际象棋 AI 中,一个 270M 参数的 Transformer 模型可以通过对大量游戏数据集进行监督训练来学习动作值,从而实现大师级的对弈,而无需任何显式搜索(Ruoss,2024)。这些方法突显了一种趋势,即模型越来越能够在内部概括复杂的推理和决策过程,从而减少对计算成本高昂的搜索算法依赖,同时在数学推理和游戏等领域保持高性能。
LLM 中的自我改进
。LLM 的自我改进方法旨在通过使模型能够在最少的人为干预下从自己的输出中学习来提高模型性能。这些方法通常涉及对模型生成的高质量输出进行监督微调 (SFT)(Zelikman,2024b;Li,2024a;Wang,2024d)或偏好优化,其中模型从对查询生成的好与坏响应对中进行学习(Xu,2024;Yuan,2024;Pang,2024;Wu,2024a)。在一般的指令跟随任务中,模型输出的质量通常由外部奖励系统决定——这可以是经过训练的奖励模型(Xu,2024)、人类评估员(Ziegler,2019),或 LLM 本身,通过 LLM-as-a-Judge 提示等技术(Zheng,2023)。然而,在数学领域,输出质量主要由模型是否得出正确答案来判断(Zelikman,2024b;Pang,2024)。为了进行更细粒度的评估,数学推理任务的步骤级奖励可以由人类标注者或经过训练的过程奖励模型分配(Lightman,2024)。迭代自我改进技术已在一系列任务中显示出前景,从遵循指令(Xu,2024;Yuan,2024)到更复杂的基于推理挑战(Zelikman,2024b;Pang,2024),凸显了它们推动 LLM 能力进一步发展的潜力。然而,最近的研究结果表明,LLM 生成的文本通常表现出截断的“尾部”,这意味着生成的输出分布缺乏人类生成内容中的可变性,特别是在较不常见的异常响应(或分布的“尾部”)中(Shumailov,2024;Dohmatob,2024)。这种可变性的降低可能导致一种称为
模型崩溃
的现象,即模型收敛到更窄的行为范围,最终损害性能(Shumailov,2024)。在语言建模(Shumailov,2024)和数学推理的迭代偏好优化(Wu,2024b)等任务中已经观察到了这个问题。为了降低模型崩溃的风险,研究人员建议在训练期间保持干净的人工编写数据与 LLM 生成内容的平衡组合(Shumailov,2024;Dohmatob,2024;Gerstgrasser,2024)。这种方法有助于保持多样性,并防止模型的性能随着时间的推移而下降。
下表是根据 OpenAI 提供的 O1 思维示例的详细分析而创建的,其中包括八个用于解决复杂任务的推理步骤或“思维”实例。表中的每个示例都经过仔细检查,以提取相关特征,例如tokens、行和关键字的数量。这些示例分为不同的问题类型,每个问题类型的难度级别从简单的英语阅读理解到复杂的多步骤数学推理任务不等。分析表明一种趋势:随着难度的增加,响应长度(tokens和行)趋于成比例增长。这表明难度越高的问题涉及的推理步骤越多。
落地于“旅程学习”,O1 的长期思考过程不仅仅是延长计算时间,而且代表了彻底的、类似人类的推理探索。这种方法使 O1 能够处理更复杂的问题,提供更可靠、更可解释的答案,并在面对新挑战时表现出更大的适应性,从而解释了它在各种任务中的出色表现。
构建长思考的方法:
LLM树搜索和奖励
提议-批评环
多智体方法
完成人类思考进程的标注
奖励定义上,不只关注最终结果,更注重提升 LLM 在反思、回溯和相关认知过程方面的能力。因此,在步骤级别定义评估粒度。
推理树的构建需要一个能够进行单步推理的策略模型 π,给定一个问题 q 及其对应的最终答案 a,π 以该问题为根节点出发,不断向树中添加新节点。