摘要实现人类水平智能需要优化从快速、直觉的系统1到更慢速、更审慎的系统2推理的过渡。系统1擅长快速、启发式决策,而系统2则依赖逻辑推理以实现更准确的判断并减少偏见。基础大语言模型(LLMs)在快速决策方面表现出色,但由于尚未完全具备真正的系统2思维所特有的逐步分析能力,其在复杂推理方面仍显不足。最近,诸如OpenAI的o1/o3和DeepSeek的R1等推理大语言模型在数学和编程等领域展现了专家级的表现,高度模拟了系统2的审慎推理,并展示了类人的认知能力。
本文首先简要回顾了基础大语言模型的进展以及系统2技术的早期发展,探讨了它们的结合如何为推理大语言模型铺平道路
。接着,我们讨论了如何构建推理大语言模型,分析了其特点、实现高级推理的核心方法以及各类推理大语言模型的演变。此外,我们还概述了推理基准测试,并对代表性推理大语言模型的性能进行了深入比较。最后,我们探讨了推动推理大语言模型发展的潜在方向,并维护了一个实时GitHub仓库以跟踪最新进展。我们希望本文能为这一快速发展的领域提供有价值的参考,激发创新并推动进步。
https://arxiv.org/abs/2502.17419
关键词:慢思考、大语言模型、类人推理、人工智能决策、通用人工智能
1 引言
“不要教授,激励。”
—Hyung Won Chung, OpenAI
实现人类级别的智能需要精炼从系统1到系统2推理的过渡[1]–[5]。双系统理论表明,人类认知通过两种模式运作:系统1,它快速、自动、直觉,能够以最小的努力做出快速决策;系统2,它较慢、更具分析性和深思熟虑[6],[7]。尽管系统1在处理常规任务时效率较高,但它容易受到认知偏差的影响,特别是在复杂或不确定的情境中,导致判断错误。相比之下,系统2依赖于逻辑推理和系统化思维,能够做出更加准确和理性的决策[8]–[11]。通过减轻系统1的偏差,系统2提供了一种更为精细的问题解决方法[12]–[15]。
基础大语言模型(LLMs)的发展标志着人工智能(AI)领域的一个重大里程碑。像GPT-4o[16]和DeepSeekv3[17]等模型,在文本生成、语言翻译和各种感知任务方面展示了令人印象深刻的能力[18]–[28]。这些模型经过广泛数据集的训练,并利用先进的算法,能够理解并生成类人回应。然而,尽管这些基础LLM取得了令人瞩目的成就,它们的运作方式类似于系统1推理,依赖于快速、启发式的决策过程。虽然它们在提供快速回应时表现出色,但在需要深度逻辑分析和复杂推理任务中的精准度时往往表现不佳。这个局限性在涉及复杂问题解决、逻辑分析或微妙理解的情境中尤为明显,因为这些模型尚未达到人类的认知能力。
相比之下,推理型LLM代表了语言模型演变的重要进展。像OpenAI的o1/o3[29],[30]和DeepSeek的R1[31]等模型,旨在模拟与系统2思维相关的较慢、更深思熟虑的推理过程。与基础LLM不同,推理型LLM配备了逐步处理信息的机制,使其能够做出更为准确和理性的决策。这种从快速直觉型处理到更有条理的推理驱动型模型的转变,使推理型LLM能够处理复杂任务,如高级数学[32]–[37]、逻辑推理[38]–[44]和多模态推理[45]–[47],并表现出类人级的认知能力。因此,推理型LLM被越来越多地认为能够实现深度逻辑思维,处理那些曾被认为超出AI能力范围的任务。推理型LLM的最新发展时间线如图1所示。
1.1 综述结构
本综述提供了关于推理型LLM发展中的关键概念、方法和挑战的全面概述。如图2所示,本综述结构如下:
-
第2节简要回顾了基础LLM的进展(第2.1节),以及系统2关键技术的早期发展,包括符号逻辑系统(第2.2节)、蒙特卡洛树搜索(MCTS)(第2.3节)和强化学习(RL)(第2.4节),重点介绍了它们的结合如何为推理型LLM铺平道路。
-
第3节介绍了推理型LLM,并概述了其构建过程。具体而言,第3.1节从输出行为(第3.1.1节)和训练动态(第3.1.2节)两个角度呈现推理型LLM的特点,强调它们与基础LLM的区别。第3.2节识别了实现高级推理能力所需的核心方法,重点介绍五个方面:结构搜索(第3.2.1节)、奖励建模(第3.2.2节)、自我改进(第3.2.3节)、宏观动作(第3.2.4节)和强化微调(第3.2.5节)。每个部分深入探讨了这些方法的具体特点,并介绍了代表性推理型LLM。第3.3节追溯了推理型LLM的发展阶段。
-
第4节评估了代表性的推理型LLM。具体而言,第4.1节回顾了当前主流推理基准,涵盖了文本和多模态基准,涉及各种任务类型。第4.2节概述了当前的评估指标,第4.3节基于这些基准分析并比较了主流推理型LLM与基础LLM的性能。
-
第5节强调了现有推理型LLM的局限性,并概述了这些模型的若干有前景的未来发展方向。
-
最后,在第6节中总结了本文,并提供了一个实时跟踪GitHub仓库,供用户关注该领域的最新进展。我们希望本综述能够作为一个宝贵的资源,促进这一快速发展的领域的创新和进步。
1.2 综述的贡献
近年来,已经进行了一些特定技术方法的分析和复制[48]–[55],然而,缺乏系统的分析和组织。研究[56]仅专注于测试过程中慢思维的方法。与此同时,研究[57]–[59]主要集中在训练或实现推理型LLM,通常从强化学习的角度进行探讨。
我们的综述与现有文献的不同之处及贡献在于:
-
我们没有专注于单一技术方法,而是提供了推理型LLM的关键概念、方法和挑战的全面概述。
-
我们总结了早期系统2的关键进展,并阐述了它们如何与基础LLM结合,为推理型LLM铺路——这是之前文献中常被忽视的关键方面。
-
我们提供了更为彻底和全面的核心方法总结,这些方法对于构建推理型LLM至关重要,包括但不限于强化学习(RL)。
在本节中,我们简要回顾了基础大语言模型的进展和关键系统2技术的早期发展,强调了这些技术与基础大语言模型的结合如何为推理大语言模型铺平了道路。这些技术包括符号逻辑系统、蒙特卡洛树搜索(MCTS)和强化学习(RL)。
基础大语言模型的发展在2018-2019年取得了显著进展,特别是BERT和GPT的引入。这些模型利用大规模文本语料库进行无监督预训练,然后针对特定任务进行微调。这种方法使它们能够在专门化任务(如情感分析、实体识别和问答)之前发展出广泛的语言理解能力。BERT的双向上下文处理改进了单词理解,而GPT的单向设计在文本生成方面表现出色。
2019年发布的GPT-2拥有15亿参数,标志着生成性能的重大飞跃,尽管它也引发了伦理问题。GPT-3拥有1750亿参数,进一步展示了无监督预训练的强大能力,在少样本学习中表现出色,并在广泛的自然语言处理任务中表现良好。随后几年,多模态模型如CLIP和DALL-E出现,集成了文本和视觉输入。这些模型实现了从文本生成图像等新任务,并增强了人机交互。
到2023-2024年,诸如GPT-4、LLaMA和LLaVA等模型展示了在推理、上下文理解和多模态推理方面的先进能力,能够处理文本和图像。基础大语言模型的演变彻底改变了人工智能,使语言理解、问题解决和人机协作的应用更加复杂。
符号逻辑系统标志着人工智能的最早阶段,利用规则和逻辑原则来表示知识和得出结论。它们在结构化领域中特别有效,其中形式逻辑确保了精确性。
Prolog是一种基于一阶逻辑的逻辑编程语言,允许用户定义事实、规则并通过查询进行推理。它在符号推理系统中发挥了关键作用,特别是在自然语言处理和专家系统中。基于逻辑的系统如Prolog使用命题和谓词逻辑进行形式推理。从20世纪60年代到80年代初,这种方法主导了人工智能,如IBM的LISP用于符号计算和Resolution Theorem Provers用于自动推理。20世纪70年代,Marvin Minsky引入了Frames,将知识组织成结构化框架,影响了专家系统和认知科学。
蒙特卡洛树搜索(MCTS)是一种基于模拟的搜索算法,用于决策和规划。它通过四个步骤构建搜索树:选择、扩展、模拟和回传。MCTS在围棋等棋盘游戏的策略优化和机器人路径规划中得到了广泛应用。
强化学习(RL)是一种机器学习类型,其中代理通过与环境交互并接收反馈来学习决策,旨在最大化累积奖励。早期的RL突破,如Q学习和DQN,通过使用深度神经网络处理复杂状态空间,彻底改变了这一领域。这些方法为RL扩展到现实世界任务铺平了道路,其中传统的表格方法无法胜任。深度RL的出现标志着重要的一步,结合了深度学习和RL的强大能力,处理高维输入,如图像和非结构化数据。
在本节中,我们首先从输出行为和训练动态两个角度分析了推理大语言模型的特征。然后,我们详细介绍了实现其高级推理能力的核心方法。最后,我们总结了推理大语言模型的演变。
探索与规划结构:最近的实证研究表明,推理大语言模型在其输出结构中表现出强烈的探索行为,特别是在与WizardMath和DeepSeekMath等主要依赖传统链式思维(CoT)推理方法的模型相比时。这种探索行为体现在新假设的制定和替代解决路径的追求上。
验证与检查结构:对OpenAI的o1和o3模型的分析表明,它们的推理框架结合了长期战略规划的宏观行动和包括“等待”、“暂停”、“替代”和“让我们暂停”等微观行动。这些微观行动促进了细致的验证和迭代检查过程,确保任务执行的精确性。
更长的推理长度与时间:最近的研究表明,推理大语言模型通常生成超过2000个标记的输出以解决复杂的编程和数学问题。然而,这种延长的输出长度有时会导致过度思考,模型在问题上花费过多时间而不一定能改进解决方案。
惊人的数据效率:与专注于扩展指令集的传统方法不同,研究表明,构建专注于困难样本的慢思维链式思维(Slow-thinking CoT)数据集在医学和数学等领域具有更好的泛化能力。
稀疏训练方法:与传统观点相反,开发有效的推理大语言模型并不需要大量的数据集或密集的奖励信号。例如,STILL2仅使用5000个蒸馏样本就展示了令人印象深刻的性能,而Sky-T1仅使用17000个长链式思维样本就实现了与QwQ相当的性能。
参数特征:通过长链式思维方法训练的大语言模型在不同层中表现出相对均匀的梯度范数。相比之下,快速思维(如简化的链式思维方法)在早期层中产生较大的梯度幅度,并且在不同层中的梯度范数存在显著差异。
在本节中,我们概述了推动推理大语言模型高级推理能力的核心方法,包括结构搜索、奖励建模、自我改进、宏观行动和强化微调。我们还为每种方法介绍了代表性的推理大语言模型。
推理大语言模型旨在通过模仿人类推理的深思熟虑和系统性来实现高精度和深度。然而,尽管最近取得了进展,当前的基础大语言模型在解决复杂推理任务时仍面临固有的局限性。这些局限性源于它们缺乏模拟环境状态的内部世界模型,无法预测推理路径的长期结果,以及无法根据未来状态或奖励迭代改进推理步骤。
蒙特卡洛树搜索(MCTS)通过提供一个结构化框架来系统地探索和评估推理路径,有效地解决了这些挑战。它通过构建一个推理树来操作,其中每个节点代表一个推理状态,行动通过考虑潜在的下一步来扩展树。通过模拟未来状态和迭代回传估计的奖励,MCTS使基础大语言模型能够高效地识别高奖励的推理路径,模仿人类的规划过程。
两种主要的训练范式用于解决多步推理任务:结果监督和过程监督。结果监督强调最终答案的正确性,生成的模型称为结果奖励模型(ORM)。相比之下,过程监督为解决方案轨迹提供逐步标签,评估每个推理步骤的质量。生成的模型称为过程奖励模型(PRM)。
PRM在复杂推理任务中具有显著优势。首先,它提供了细粒度的逐步监督,允许识别解决方案路径中的特定错误。其次,PRM密切模仿人类推理行为,依赖于准确的中间步骤来得出正确结论。与ORM不同,PRM避免了错误推理仍能导致正确最终答案的情况,从而确保更稳健和可解释的推理。
推理大语言模型展示了从弱监督到强监督的进步,而传统的链式思维微调在扩展方面面临挑战。自我改进利用模型的探索能力进行自我监督,逐步提高大语言模型在翻译、数学推理和多模态感知等任务中的性能。
最近在大语言模型中的进展推动了通过复杂思维架构模仿人类系统2认知过程的进步,通常称为宏观行动框架。这些结构化推理系统超越了传统的标记级自回归生成,引入了分层的认知阶段,如战略规划、内省验证和迭代改进。
强化微调(RFT)是OpenAI最近引入的一项创新技术,旨在使开发人员和工程师能够针对特定领域或复杂任务微调现有模型。与一般的监督微调(SFT)不同,RFT专注于通过使用奖励机制来优化模型的推理过程,从而提高其推理能力和准确性。
推理大语言模型的演变经历了几个不同的阶段,各种策略被开发出来以克服直接自回归推理的局限性,并构建更先进的慢思维推理架构。
在早期阶段,推理大语言模型主要专注于通过外部推理算法增强预训练的大语言模型,而不改变底层模型参数。诸如Tree of Thoughts和Reasoning via Planning等方法利用大语言模型驱动的广度优先搜索、深度优先搜索和蒙特卡洛树搜索(MCTS)来模拟人类推理过程。
有限的探索空间:基于搜索的方法需要对搜索空间的广度、深度和粒度进行预定义约束,这通常限制了大语言模型的探索范围。
有限的经验共享:不同路径的探索经验和推理信息只能基于奖励模型或结果之间的一致性进行评估。
为了克服这些限制,随后的模型如rStar、LLaMAV-ol、HiICL-MCTS、Mulberry、g1和Thinking-Claude引入了更丰富的行动空间。这些增强的行动空间提供了高级规划线索,扩大了模型的探索范围,并实现了更全面的结构化搜索过程。
开发一个强大的基准对于记录推理大语言模型能力的进展并确定未来进展的有前景的研究方向至关重要。在这里,我们从类别、评估指标和性能比较三个方面回顾了基准,同时提供了我们的反思和见解。
我们按任务类型对推理基准进行分类,可以大致分为数学、代码、科学、代理、医学和多模态推理。这些基准的详细统计数据如表VI所示。
数学问题:我们记录了当前流行的竞赛级数学基准,以展示推理大语言模型的能力,包括AIME 2024、MATH-500、AMC 2023和Olympiad Bench。
代码问题:代码问题需要扎实的基础和高逻辑思维来评估推理大语言模型的推理能力,如Codeforces、SWEbench和LiveCodeBench。
科学问题:科学基准,如GPQA Diamond和MMLU-Pro,涉及化学、生物学和物理学的多领域推理,需要广泛的知识积累和综合推理。
代理推理:现实任务通常涉及复杂的规划和工具使用,导致了代理推理基准的创建,如WebShop和WebArena。
医学推理:医学本质上涉及复杂的推理,涵盖从诊断决策到治疗计划的任务。JAMA Clinical Challenge、Medbullets和MedQA等基准提供了模仿医生疾病诊断的模型测量。