OpenAI o1 系列模型的成功不仅推动了大型推理模型的研究,也为研究社区提供了新的研究方向。众所周知,大模型在复杂推理任务中的表现仍存在诸多挑战,推理任务需要模型不仅能够理解和生成语言,还需要能够进行逻辑推断、因果推理以及多步推理,这对模型的认知能力提出了更高的要求。当前的研究表明,传统的训练方法和数据集可能不足以完全开发出LLMs的推理潜力。因此,研究者们开始探索新的方法来提升LLMs在推理任务中的表现,其中包括引入强化学习(RL)技术、设计新的提示策略以及开发自动化数据注释技术等。这些方法旨在通过提供高质量的训练数据和更有效的训练策略,来增强模型的推理能力,从而实现更复杂的认知任务。
1 月 17 日,arXiv发表来自世界顶尖学府和研究机构的联合团队的文章《Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models》,这篇文章的研究背景基于近年来在LLMs推理能力方面的研究进展,特别是OpenAI的o1系列模型的突破性工作,通过对这些模型的深入研究,研究团队目的在综述近年来在大型语言模型推理任务中的研究成果,探讨通过强化学习等技术提升LLMs推理能力的方法,分析当前存在的挑战和未来的研究方向。
这项任务由一个国际化的合作团队完成,所有作者均来自世界顶尖学府和研究机构。清华大学团队贡献了绝大多数的研究力量,包括Fengli Xu、Qianyue Hao、Zefang Zong等多名研究者,涵盖了计算机科学、人工智能和数据科学等多个领域。来自香港科技大学(广州校区)的Yuwei Yan和来自美国埃默里大学的Xinyuan Hu也为研究提供了重要支持和协作。这样的多学科、多机构合作不仅体现了全球研究人员在推理技术领域的协同努力,也为研究提供了丰富的学术背景和技术支撑。这一团队的共同努力,使得研究团队能够系统地回顾和总结大型语言模型在推理任务中的最新研究进展,并提出未来的发展方向和应用前景。
背景介绍
近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著进展。然而要提升这些模型在推理任务中的表现,还需要从预训练、微调、对齐、提示技术和自主工作流等多个方面入手。
预训练(Pre-training)
预训练是LLMs训练过程中的基础阶段,其核心是通过大规模高质量的文本语料对模型进行训练。通过预训练,LLMs不仅获得了语言知识,还获取了广泛的世界知识,从而为高级能力的培养奠定了坚实基础。预训练通常依赖于包含网络内容、书籍、代码等的高质量文本语料库。这些语料库使得LLMs能够在大规模文本数据上进行训练,主要采用变换器(Transformer)架构,并通过预测下一个token的任务进行训练。预训练阶段在LLMs推理能力的培养中起到了关键作用。例如,富含代码和数学内容的数据集在培养强大推理能力方面提供了重要的基础。因此,在预训练中平衡代码和数学数据与普通文本语料的比例至关重要,以保持模型的语言能力和推理潜力。
微调(Fine-tuning)
微调是在预训练之后对LLMs进行优化的重要步骤,其目标是通过使用标注数据集进一步改进模型的输出,使其更符合特定任务的需求和实际应用。微调过程通常包括监督微调(SFT),即通过多样的指令数据集来训练模型,使其在特定任务上表现出色。监督微调阶段使用的是丰富且精心策划的指令数据集,这些数据集通常通过手动注释和自动生成的方法获得。通过微调,模型在数学问题解决和逻辑推理等任务上的推理能力显著增强。然而,微调过程需要高质量的标注数据,且可能导致模型在微调领域外的推理能力下降,因此需要在数据策划和正则化技术上进行平衡。
对齐(Alignment)
对齐阶段的目标是通过强化学习等方法指导模型生成有益、无害和真实的内容,以提高模型的安全性和可控性。人类反馈强化学习(RLHF)在对齐阶段起到了关键作用,通过偏好数据帮助模型对齐复杂的伦理和价值观。在这一阶段,模型利用精心策划、手动标注的排名数据,通过反映人类偏好的奖励模型进行迭代优化。这一过程不仅减少了对人工注释数据的依赖,还通过偏好优化等方法直接利用偏好数据,从而简化了学习过程,提高了推理输出的效果。
提示技术(Prompting Techniques)
提示技术通过显式指导模型推理过程,进一步增强LLMs的推理能力。链式思维(Chain-of-Thought,CoT)、多路径探索(Tree-of-Thoughts,ToT)和分解方法等提示技术已被证明在提升问题解决能力方面非常有效。这些技术包括链式思维提示、树状思维提示、图状思维等,能够显著提高模型在需要仔细分析和系统思考的任务中的表现。尽管这些方法会增加token的消耗和计算开销,但通过提高模型的推理能力和解决方案的准确性,为训练时间方法提供了有力补充。
自主工作流(Agentic Workflow)
自主工作流的设计和应用使LLMs能够在不需要额外训练的情况下优化推理能力。在指令跟随和上下文学习能力的基础上,自主工作流通过编程LLMs的“思维模式”来提升其推理能力。这些方法使得研究人员可以通过上下文演示改进LLMs的任务性能,有效适应各种任务场景。有效的自主工作流可以显著提高模型在模拟人类行为、人类-LLM互动和协同任务解决方面的能力,从而为更复杂的认知架构奠定基础。通过预训练、微调、对齐、提示技术和自主工作流等多方面的综合应用,LLMs的推理能力得到了显著提升。
数据构建:从人工标注到LLM自动化
为了提升大型语言模型(LLMs)的推理能力,构建大规模、高质量的推理数据集至关重要。可是这项任务因其高成本和复杂性而面临巨大挑战。研究团队探讨了从人工标注到LLM自动化的数据构建方法。
图1:说明注释LLM推理数据的不同范式
人工标注(Human Annotation)
人类注释在数据构建过程中扮演着不可或缺的角色,尤其在处理精确和复杂数据方面具有显著优势。精心策划的人工注释对模型的推理能力提升有重要影响。例如,研究表明,即使是少量的人工标注数据也能显著提高模型的性能。人工注释的数据不仅在初始训练阶段至关重要,还在强化学习阶段提供了宝贵的偏好数据,通过反映人类复杂的伦理和价值观,使模型更好地对齐人类需求。然而,人工过程监督要求大量的人工注释数据,资源密集且不可持续。
LLM 自动化结果注释(LLM Automated Outcome Annotation)
通过LLM进行自动化数据注释提供了一种高效且成本效益高的替代方案。LLMs能够处理各种自动化注释任务,从简单的问答提取到复杂的逻辑关系生成。例如,在没有人工示范的情况下,LLMs可以利用其强大的推理和上下文学习能力独立应对复杂的注释需求。对于复杂任务,人工示范提供的高质量轨迹可以指导LLMs模拟人类决策过程,从而提高模型的推理能力。通过自动化注释,显著减少了对人工劳动的依赖,提高了整体生产力和注释质量。
人工-LLM协作(Human-LLM Collaboration)
结合人工和LLM的注释过程可以加速数据构建,并保持高质量。这种方法将注释过程分为预注释阶段和精炼阶段。在预注释阶段,LLMs进行初步注释,利用少量人工提供的示例进行快速高效的设置。在精炼阶段,人类注释者评估LLM生成的注释质量,并重点修改质量较差的注释。通过最大限度地实现自动化,同时确保数据质量,这种协作方法能够减少人工参与而不影响注释的准确性。
LLM 自动化过程注释(LLM Automated Process Annotation)
对于复杂推理任务,需要对中间决策进行注释。例如,初始错误步骤的识别和纠正对于提高推理能力至关重要。为了减少对强大外部模型的依赖,研究者提出了蒙特卡罗模拟注释和树搜索模拟注释等方法,通过这些方法来评估中间步骤的质量。蒙特卡罗树搜索(MCTS)策略生成多个叶节点表示最终推理结果,并根据这些叶节点的平均结果评估中间步骤的质量,这种方法在数学问题解决中表现优于人工注释。此外,自我优化机制通过训练过程奖励函数(PRM)来改进LLM的性能,并重复模拟以生成更高质量的注释。
构建高质量推理数据集的方法多种多样,从人工标注到自动化注释,再到人工和LLM的协作,每种方法都有其独特的优势和挑战。这些方法的不断发展和优化,使得LLMs在推理任务中的表现得到显著提升,为未来的研究和应用提供了坚实的基础。通过结合人工智能与人类智慧,构建更高效、更准确的推理数据集,将推动LLMs在更广泛的认知任务中发挥更大作用。
学习推理:从监督到强化微调
优化大型语言模型(LLMs)的推理能力是当前研究的重点之一。在这一领域,监督微调和强化学习成为提升模型推理能力的关键方法。
优化预训练LLM:监督微调
监督微调是一种通过使用标注数据集来提高预训练模型在特定任务或领域中性能的学习技术。预训练使LLMs从大量非结构化数据中学习到广泛的通用特征,而监督微调则专注于利用小规模的任务特定数据集进行训练,使模型在特定任务上表现出色。
图2:LLM推理训练时间强化的奖励模型。
在微调过程中,模型通过丰富且多样的指令数据集进行训练,这些数据集通常通过手动注释和自动生成的方法获得。监督微调的目标是进一步优化模型的输出,使其在推理任务中的表现更符合人类需求和实际应用。通过引入链式思维提示(Chain-of-Thought,CoT)技术,模型能够在推理过程中生成中间推理步骤,从而显著增强其解决复杂任务的能力。研究表明,链式思维提示能够显著提高模型在数学问题解决和逻辑推理等任务上的表现,使模型在这些任务中的推理能力得到显著提升。
优化预训练LLM:强化学习
强化学习(RL)作为一种通过试错和奖励信号让模型学习的技术,成为训练LLMs掌握推理过程的重要框架。与监督学习不同,RL通过累计奖励优化模型参数,发现实现特定目标的最优策略。
经典强化学习方法包括通过人类反馈进行强化学习(RLHF)和通过AI反馈进行强化学习(RLAIF)。RLHF通过偏好数据帮助模型对齐人类意图和需求,从而使模型在推理任务中表现出色。例如,通过在人工标注的示范和排名比较上微调模型,开发出的奖励模型能够预测人类注释者的偏好,有效地使训练的模型与人类偏好对齐。
直接偏好优化(DPO)是一种简化的RL方法,通过直接利用偏好数据而不需要显式的奖励模型,使学习过程更加简单和有效。例如,DPO通过成对偏好比较直接优化策略,使模型能够在情感控制、摘要和对话生成等任务中表现出色,同时提高了推理输出的稳定性和计算效率。
通过结果奖励模型增强多步推理
在多步推理任务中,结果奖励模型(ORM)通过在所有推理步骤完成并获得最终解决方案后提供奖励反馈,来提高LLMs的推理能力。结果奖励模型能够根据结果奖励区分中间推理步骤的正确性和重要性,从而显著增强模型在数学问题解决等复杂任务中的表现。
例如,基于ORM的ReFT方法通过将PPO方法应用于推理任务,能够学习更多样化的推理路径,表现出更强的泛化能力。此外,VinePPO通过使用蒙特卡罗采样方法计算价值函数的无偏估计,解决了价值网络在PPO中的偏差问题,显著提高了数学推理任务的性能。
通过过程奖励模型增强多步推理
过程奖励模型(PRM)在LLMs推理能力的提升中发挥了重要作用。通过在整个推理过程中提供细致的反馈,PRM使模型能够在行为上更好地对齐人类偏好和复杂任务要求。过程奖励模型在数学问题解决等任务中表现优异,例如SELF-EXPLORE通过识别和纠正问题解决中的初始错误步骤,显著提高了数学推理能力。
图3:测试时推理增强的不同搜索算法的示意图。
此外,自我优化机制通过训练过程奖励函数(PRM)来改进LLM的性能,并重复模拟以生成更高质量的注释。这一迭代过程不断提升过程注释的质量,在多个任务中表现优异,包括数学问题解决、问答和多领域知识推理。
测试时间扩展:从链式思维到PRM引导搜索
为了进一步提升大型语言模型(LLMs)的推理能力,研究人员不仅在训练时间进行了优化,还在测试时间提出了一系列增强方法。这些方法通过引导模型在测试阶段进行深思熟虑的推理,从而提高其推理表现。
用提示引导深思熟虑
在测试时间,研究人员发现,通过链式思维(CoT)和树状思维(ToT)等提示技术,可以显著提升LLMs的推理能力。直接询问模型得到的结果往往不理想,而通过引导它们进行显式的推理过程,可以大幅提高其表现。链式思维提示是一种逐步引导模型进行推理的方法,每一步都提供明确的提示,帮助模型在解决问题时组织思维过程。这种方法在数学推理和复杂决策任务中表现尤为出色。树状思维提示则通过创建多路径推理框架,使模型能够在多个推理路径之间进行选择,从而找到最优解决方案。这些提示技术不仅提高了推理的准确性,还增强了结果的可解释性。
尽管这些提示策略通常会增加token的消耗和计算开销,但它们通过改善推理能力和解决方案的准确性,为训练时间的方法提供了强有力的补充,而无需修改模型参数。例如,链式思维提示通过引导模型逐步解决问题,使其在数学和逻辑推理任务中表现优异,而树状思维提示通过探索多个可能的推理路径,提高了模型在复杂问题上的决策能力。
PRM引导搜索
过程奖励模型(PRM)标志着从稀疏结果反馈向详细过程监督的重大转变。在测试阶段,PRM同样可以显著提升模型的推理能力。OpenAI的o1系列模型展示了PRM在推理任务中的先进应用。新的测试时间扩展法则表明,通过增加测试时间的计算能力,可以有效提升推理能力。具体方法包括多数表决、树搜索、束搜索和前瞻搜索等。
多数表决是一种直接的策略,通过密集的测试计算生成一个最终答案,每个推理路径对给定输入产生一个预测,然后选择多数推理路径一致的答案作为最终输出。树搜索是一种经典算法,通过递归构建搜索树系统地探索不同选择,用于解决复杂决策问题。蒙特卡罗树搜索(MCTS)通过逐步扩展搜索空间,逐步改进决策,在一些LLM推理任务中取得了显著成功。束搜索通过保留每一步得分最高的top-K路径进行进一步扩展,广泛应用于生成任务,改进了生成质量。前瞻搜索通过向前模拟几步来修改每一步的评分机制,进一步提高了推理质量。
PRM引导的搜索方法在数学问题解决、问答和多领域知识推理等任务中表现优异。例如,通过在推理过程中提供细致的反馈,PRM使模型能够在行为上更好地对齐人类偏好和复杂任务要求。树搜索和蒙特卡罗树搜索在数学问题解决中的表现尤为突出,通过生成多个叶节点表示最终推理结果,并根据这些叶节点的平均结果评估中间步骤的质量,从而提高了推理的准确性和效率。
通过结合链式思维、树状思维提示和PRM引导搜索等技术,LLMs在推理任务中的表现得到了显著提升。这些方法不仅提高了模型的推理能力和解决方案的准确性,还增强了结果的可解释性,为未来更复杂的推理任务奠定了基础。
走向大推理模型的路径
在迈向大型推理模型的道路上,OpenAI的o1系列模型无疑是一个里程碑。自2024年9月发布以来,o1模型在人工智能推理能力上取得了显著进展,尤其在复杂任务如数学、编码和科学问题解决方面表现出色。2024年12月,OpenAI进一步推出了o3模型,这是一款被认为具备博士水平智能的升级版。o1和o3模型在各种挑战性基准测试中都取得了令人瞩目的成绩,例如在国际数学奥林匹克竞赛中达到金牌水平,并在物理、化学和生物学问题上表现出博士级的推理能力。这些模型在竞争编程和复杂科学问题上的表现展示了其卓越的结构化分析和知识整合能力。
OpenAI o1系列的发展不仅在性能上取得了突破,还展示了有效的知识整合和系统化的问题分解能力。研究表明,o1模型在处理不同复杂性任务时表现出一致的推理链条和系统化问题分解方法。例如,在数学推理任务中,o1模型通过结构化的解题步骤和系统化的问题分解方法,在荷兰数学B考试中获得了接近满分的成绩。这种一致性在科学和数学问题上的表现进一步证明了o1模型在应对高难度任务时的强大推理能力。
在开源社区,也有多个项目致力于开发高级推理能力的LLMs,这些项目为研究人员和开发者提供了宝贵的参考。OpenR项目是第一个探索OpenAI o1核心方法的开源框架,利用强化学习技术构建逐步推理数据,并通过自动数据增强算法生成高质量的推理轨迹。在后训练阶段,OpenR项目利用过程奖励模型(PRM)进行模型微调,显著提高了测试时间的计算效率和推理性能。
Rest-MCTS*项目通过将PRM训练和策略模型训练集成到一个互相自训练循环中,在初始策略和初始PRM值的基础上进行迭代优化。这种方法通过不断更新过程奖励和策略,显著提高了多步骤推理任务中的性能。
o1复现之旅项目专注于通过全面的训练策略复制OpenAI o1模型的推理能力,强调试错、反思和回溯的结构化训练方法。尽管在推理阶段缺乏先进的后训练技术,但其在训练阶段的基础方法展示了强大的数据生成和模型优化能力。
LLaMA-Berry项目聚焦于推理阶段优化推理能力,通过成对优化方法将蒙特卡罗树搜索与自我优化结合,使模型在推理过程中动态地探索和优化解决路径。通过增强Borda计数(EBC)汇总偏好排名,进一步提高了推理阶段的复杂性和性能。
这些开源项目展示了不同的推理强化实现策略,在理解和复制OpenAI o1模型方面发挥了重要作用。它们的共同努力为开源社区提供了丰富的技术方案,推动了复杂、透明且适应性强的推理模型的发展。
其他测试时间增强技术
在大型语言模型(LLMs)的推理能力提升方面,除了训练时间的优化外,测试时间的增强技术也同样重要。以下是一些在测试时间增强LLMs推理能力的关键技术。
图4:典型的无训练测试时间增强方法:言语强化搜索、基于记忆的强化和主体系统搜索。
语言强化搜索
语言强化搜索(Verbal Reinforcement Search, VRS)利用LLMs的预训练推理和语义能力,通过测试时间的推理操作来优化解决方案。不同于传统的强化学习或训练密集型方法,VRS完全通过测试时间的推理过程进行操作,使用迭代反馈循环来优化解决方案,而无需额外的训练。通过利用LLMs编码的语义知识及其复杂指令的能力,VRS提供了一种多功能的方法来导航多样的问题空间。
在个体代理设置中,VRS依赖于迭代推理和反馈机制来优化结构化问题空间内的解决方案。这种方法适用于数学优化、符号推理和假设驱动的发现等任务,在系统的优化过程中显著提高了问题解决的效果。例如,在数学发现中,VRS通过反馈驱动评估将问题解决过程转化为动态的迭代循环。
在多代理系统中,VRS通过自然语言沟通促进基于LLM代理的协作。多代理系统利用共享推理和迭代优化来解决复杂的解决方案空间,使代理能够交换见解并实现共同目标。例如,在异构信息网络中的元结构发现中,VRS结合了LLM推理和进化优化,以精炼元结构,提高其可解释性和预测准确性。
在具身代理设置中,VRS通过结合推理和物理互动来解决现实世界任务,支持实验规划和执行等活动。例如,在自主化学研究中,LLM驱动的系统能够独立设计、执行和优化实验,从而在动态环境中有效进行推理和优化。
基于记忆的强化
在开放性任务中,如创意写作、复杂逻辑推理和开放世界游戏,解决方案空间往往迅速扩展,变得无限或不明确。为应对这些挑战,一些研究引入了外部记忆模块。该模块存储过去试验中的观察、成功和失败的行动信息,代理通过迭代地探索环境,利用记忆作为语言强化学习的基础,从而提高推理表现。
体验学习方法鼓励LLM代理模仿存储在记忆中的有利经验,同时避免不利经验。通过在提示中引入记忆中的最高和最低Q值的相关行动,代理能够在新任务中借鉴过去的经验,减少冗余并防止重复错误。
反思学习利用LLMs的语义理解能力,通过总结存储在记忆中的成功和失败,明确其背后的原因,并采用这些见解作为指导。例如,Reflexion通过基于任务反馈信号反思成功或失败的原因,将反思文本和过去的轨迹整合到提示中,以增强后续试验中的决策。
概念学习进一步增强了LLMs的推理能力,使其能够发展超越特定任务的概念,促进对环境和任务的更广泛理解。这种泛化有助于代理从记忆中内化认知能力,并随着记忆的增长不断发展。例如,Self-Evolving GPT设计了一种基于记忆的自主管理学习框架,为LLMs分类任务以确定相关记忆检索,并识别存储记忆和当前任务之间的差异以提取共享的通用经验。
代理系统搜索
代理系统的设计在利用LLM执行许多下游任务方面起着至关重要的作用。测试时间增强技术的一个重要分支是利用LLMs搜索代理系统。研究可分为提示级、模块级和代理级搜索。
提示级搜索通过迭代集成有用的反馈经验来改进提示。验证信号可以来自外部反馈、LLM的自我评估等,自动化提示工程如进化提示优化比手动提示效果更好。
模块级搜索建议使用LLM搜索代理系统的模块设计,这些模块本质上是具有特定功能的提示块,例如规划、推理、工具使用和记忆。模块搜索的优势在于通过模块重组,新代理可以轻松重用经典代理设计。
代理级搜索建议利用LLM搜索用Python代码定义的整个代理系统。多代理系统在共享环境中做出决策并实现目标。代理系统搜索为代理提供自我改进的能力,使其能够在不改变LLM结构的情况下优化自身以增强推理能力。
这些测试时间增强技术展示了LLMs在推理任务中的巨大潜力,通过更全面的测试时间“思考”,有望将LLMs提升为功能全面的“代理”。
评估基准(Evaluation Benchmarks)
评估大型语言模型(LLMs)的推理能力需要使用各种基准测试,这些基准测试涵盖了从数学推理到逻辑推理,再到常识和编码问题的广泛领域。通过这些基准测试,我们能够系统地评估LLMs在不同任务中的表现,并识别出其优缺点。
数学问题(Math Problems)
数学推理已经成为评估LLMs推理能力的重要测试平台。这些基准测试从基础算术到高级大学数学,为评估不同方面的数学理解和问题解决能力提供了系统的方法。
在数学词问题(MWP)领域,基准测试从基本的算术操作开始,逐步扩展到越来越复杂的问题解决情境。基础级别的数据集如MATH-401,通过401个精心结构化的表达式评估纯算术能力。其他数据集如MultiArith和AddSub则评估将简单词问题转化为数学操作(如加法或减法)的能力。对于小学和高中的水平,数据集如GSM8K和MATH提供了更复杂的多步骤推理挑战,分别包含8,500个小学问题和12,500个涵盖多个数学领域的问题。
高级数学能力的评估主要通过竞赛和专业测试数据集进行。例如,CHAMP和ARB数据集提供了竞赛级别的问题,需要复杂的问题解决策略。MATHQA则包含GRE和GMAT考试中的标准化测试题目,而FIMO数据集则以国际数学奥林匹克竞赛的问题挑战模型的数学推理极限。
几何推理代表了一个需要空间理解和正式数学证明的独特类别。数据集如Geometry3K和GEOQA提供了专业的几何问题,而UniGEO则为几何推理任务提供了统一的框架,侧重于计算和证明。
定理证明和形式数学领域也包括严格的评估框架。例如,MINIF2F和LeanDojo集中于与Lean定理相关的正式数学证明,而THEOREMQA-MATH则评估对数学定理的理解。TRIGO和PISA等数据集则涉及特定领域的数学推理,如三角学和形式证明系统。
跨模态数学推理反映了现实世界中数学问题的多样性。MATHVISTA和CHARTQA通过图表评估视觉数学推理,而TABMWP和MultiHiertt则评估处理表格和文本数据的能力。SciBench则在更广泛的科学背景下测试数学推理。
逻辑问题(Logical Problems)
在数学推理能力的基础上,系统的逻辑推理能力是评估LLMs认知能力的另一关键标准。逻辑推理包括演绎、归纳和溯因推理。
图5:LLM推理基准的分类。