来自中科院、
MBZUAI
、港科广、港城、华东师大、小红书等
8
家机构的研究人员总结超过
300
篇文献,
系统地回顾了大模型推理能力发展的主要脉络,经典技术,热点问题。
其中,第一作者李忠志、张笃振来自中国科学院自动化研究所、
MBZUAI
,研究方向主要涉及多模态大模型、数学推理和
AI4Science
,分别来自刘成林研究员、宋乐教授团队,本文的另一个通讯作者郭志江博士来自于港科广,主要关注大模型的知识和推理。
过去有大量认知科学的研究聚焦于人类认知系统的
System1/2
的理解和分析,也是人工智能领域重要的研究课题。实现人类水平智能需要优化从快速、直觉的系统
1
到更慢速、更审慎的系统
2
推理的过渡。系统
1
擅长快速、启发式决策,而系统
2
则依赖逻辑推理以实现更准确的判断并减少偏见。
“
不要教,要激励。
”
—Hyung Won Chung, OpenAI
System-2 AI
技术在最近出现了突飞猛进的发展,以“激励”而非“教导”的新的语言模型学习方式的工作对领域产生了颠覆性的影响。
OpenAI o1/Deepseek R1
之后如雨后春笋般出来的工作,
Reasoning LLM
在各种
NLP
、
CV
和多模态任务上都出现了快速的进展,并且展示出了在智能体、具身智能以及
AI4Science
等任务上的巨大应用潜力。
从
o1
到
R1
,再到
o3
,
Grok3
,到刚刚发布的
QwQ-Max
和
Claude3.7
,很有必要对这些强推理大模型,包括它们的特点、核心方法以及演变过程进行系统性的总结。
在此背景下,中国科学院自动化所、
MBZUAI
、
CityU
、
University of Strathclyde
,
Xiaohonshu Inc.
等八家机构机构联合对近
300
篇文献进行全面调研,发布了《
From System 1 to System 2: A Survey of Reasoning Large Language Models
》的调研综述。
论文链接:
https://arxiv.org/abs/2502.17419
代码链接:
https://github.com/zzli2022/Awesome-System2-Reasoning-LLM.
该综述首先简要回顾了基础大语言模型的进展以及系统
2
技术的早期发展,探讨了它们的结合如何为推理大语言模型铺平道路
。
接着,文章讨论了如何构建推理大语言模型,分析了其特点、实现高级推理的核心方法以及各类推理大语言模型的演变。此外,该文还概述了推理基准测试,并对代表性推理大语言模型的性能进行了深入比较。最后,探讨了推动推理大语言模型发展的潜在方向,并
维护了一个实时
GitHub
仓库
以跟踪最新进展。
作者团队希望该文章能为这一快速发展的领域提供有价值的参考,激发创新并推动进步,仓库内将会不断的维护,聚合这个领域令人兴奋的开源资源,共同促进领域的快速进步。
▲ 图
1. Survey
资源仓库
综述结构
本综述提供了关于推理型
LLM
发展中的关键概念、方法和挑战的全面概述。如图
2
所示,本综述结构如下:
第
2
节
简要回顾了基础
LLM
的进展和系统
2
关键技术的早期发展,包括符号逻辑系统、蒙特卡洛树搜索和强化学习,文章重新回顾了这些经典技术的核心科学原理以及涉及到
System-2
智能的
核心特质
,重点介绍了它们的结合如何为推理型
LLM
铺平道路。
第
3
节
介绍了推理型
LLM
,并概述了其构建过程。具体而言,第
3.1
节从
输出行为
和
训练动态
两个角度呈现推理型
LLM
的特点,强调它们与基础
LLM
的区别。第
3.2
节识别了实现高级推理能力所需的核心方法,重点介绍五个方面:
结构搜索
、
奖励建模
、
自我改进
、
宏动作
和
强化微调
。每个部分深入探讨了这些方法的具体特点、方法的受限性质,并介绍了代表性推理型
LLM
。
▲ 图
2.
综述结构
第
4
节
评估了代表性的推理型
LLM
。文章回顾了目前
System-2
Reasoning LLM
在文本、多模态、智能体领域出现的经典基准和经典任务类型。对出现的指标和内容进行了系统化的总结并且梳理了
Reasoning LLM
时代模型评估的发展趋势。
第
5
节
强调了现有推理型
LLM
的局限性,并概述了这些模型的若干有前景的未来发展方向,比如:高效
System-2
的
Reasoning LLM
,
System-1
和
System-2
系统的协作,面向
AI4Science
的
Reasoning LLM
,深度整合
System-2
系统的
Reasoning LLM
,多语种、多模态场景下的
Reasoning LLM
等等。
▲ 图
3.
传统推理技术与大模型推理技术分类
相比于最近
的一些复现性项目,本
综述与现有文献的不同之处及贡献在于:没有专注于单一技术方法,而是提供了推理型
LLM
的关键概念、方法和挑战的全面概述
;
总结了
早期系统
2
的关键进展
,并
阐述了它们如何与基础
LLM
结合,为推理型
LLM
铺路
——
这是之前文献中常被忽视的关键方面
。
文章提供了更为
彻底和全面的核心方法总结
,这些方法对于构建推理型
LLM
至关重要,包括但不限于强化学习。
作者还提供了一个实时跟踪
GitHub
仓库,供用户关注该领域的最新进展。希望本综述能够作为一个宝贵的资源,促进这一快速发展的领域的创新和进步。
更全面的技术路线回顾
本节概述了驱动推理大语言模型高级推理能力的核心方法,如图
4
所示。这些方法包括
结构搜索
、
奖励建模
、
自我改进
、
宏动作
和
强化微调
。文章还为每种方法列举了具有代表性的推理大语言模型。
▲ 图
4.
近期
Reason LLM
的发展时间线示意图
(1)
结构搜索
:
解决复杂问题一直是基础模型的一个目标,基础模型在解决复杂的问题缺少关键的认知机制,比如缺少对于外在环境的建模和理解以及机制机制来执行长期限的推理,这些都阻碍了模型在复杂规划和推理时的探索和利用。
结构化搜索的方法将现在的各类方法建模为结构化的方式,推理状态被建模为树或者图结构中的节点,模仿人类推理过程中的结构化思维过程,搜索最高奖励的路径,并且来高效的探索现在
LLM
中巨大的搜索空间。
▲ 图
5.
结构搜索方法归类
文章根据各种结构化搜索采用结构化动作粒度的不同,探索展开
(Rollout)
的不同、外部奖励模式模式的不同、以及具体的应用场景,对现有的大量结构化搜索的方法进行了细粒度的分类和总结。
尽管结构化在增强模型推理能力上取得了大幅度的收益。然而,主流结构化搜索的的效率特性限制了他们在在真实场景的应用,精心设计的宏动作模式和奖励引入方式也给泛化性带来了挑战,将来形式更高效、更自由的结构化搜索的方法在未来值得探索。
▲ 图
5.
五大类基本技术
(2)
奖励建模
:
在推理任务中,出现了两种主要的奖励机制用于对于多步推理问题的准确度进行建模。结果奖励模型主要从比较高的层次去评估求解轨迹是否能达成正确的答案。过程奖励模型则提供一步一步的标签用于评估每一步的步骤。过程奖励模型相比于结果奖励模型,更符合人类的认知机制,在自动过程评估,强化学习监督上也有更大的应用潜力。
然而,过程奖励建模方法面临比较多的困境,比如步骤的贡献和正确性比较难定义,尽管过去产生了一些利用
MCTS
之类的结构化搜索方法进行自动化合成的策略,又不可避免的引入数据偏差。