专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

迈向大型推理模型：大语言模型强化推理综述

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-27 00:06

正文

25年1月来自清华大学、香港科技大学广州分校和 Emory U 的论文“Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models”。

语言长期以来被认为是人类推理的重要工具。大语言模型 (LLM) 的突破引发人们对利用这些模型解决复杂推理任务的浓厚研究兴趣。研究人员已经超越简单的自回归 token 生成，引入了“思维”的概念——一系列表示推理过程中间步骤的tokens。这种创新范式使 LLM 能够模仿复杂的人类推理过程，例如树搜索和反思思维。最近，一种新兴的推理学习趋势应用强化学习 (RL) 来训练 LLM 掌握推理过程。这种方法能够通过反复试验搜索算法自动生成高质量的推理轨迹，通过提供更多的训练数据显著扩展 LLM 的推理能力。此外，最近的研究表明，鼓励 LLM 在测试-时推理期间用更多的 token “思考”可以进一步显著提高推理准确性。因此，训练时间和测试时间规模化相结合，展示一个新的研究前沿——通往大型推理模型的道路。OpenAI o1 系列的推出，标志着这一研究方向的一个重要里程碑。综述全面回顾 LLM 推理的最新进展。首先介绍 LLM 的基础背景，然后探索推动大型推理模型发展的关键技术组件，重点关注自动数据构建、学习推理技术和测试时间规模化。还分析构建大型推理模型的流行开源项目，并总结开放挑战和未来的研究方向。

受深度学习进步和网络规模数据集可用性的推动，大语言模型 (LLM) 已成为迈向通用人工智能 (AGI) 道路上的变革范式。这些大规模人工智能模型通常采用 Transformer 架构，并使用下一个token预测任务在大规模文本语料库上进行预训练 [191]。神经规模化定律表明，随着模型大小和训练数据的增加，它们的性能会显著提高 [59]。更重要的是，LLM 还释放较小模型 [159] 所不具备的涌现能力，例如上下文学习 [33]、角色扮演 [124] 和类比推理 [157]。这些能力使 LLM 能够超越自然语言处理问题，促进更广泛的任务，例如代码生成 [41]、机器人控制 [3] 和自主智体 [28]。

在这些能力中，类人推理引起了学术界和工业界的极大关注，因为它表明 LLM 具有通过抽象和逻辑推理推广到复杂现实问题的巨大潜力。该领域的一个显著突破是“思维链”提示技术 [160]，它可以在测试时引出逐步的类人推理过程，而无需任何额外训练。这种直观的提示技术已被证明可以有效地大幅提高预训练 LLM 的推理准确性，这也导致更先进提示技术的发展，如“思维树”[172]。这些方法引入了“思维”的概念，作为一系列tokens，代表类人推理过程中的中间步骤。通过结合这些中间步骤，LLM 推理超越简单的自回归tokens生成，实现了更复杂的认知架构，如树搜索 [172] 和反思推理 [180]。最近，在学习推理方面出现一个重要的研究趋势 [103]，其寻求训练 LLM 掌握类似人类的推理过程。这一研究方向的一个关键挑战是缺乏训练数据。人工注释通常非常昂贵，特别是对于已被证明可有效监督 LLM 推理的逐步推理轨迹而言 [75]。为了解决这个问题，最近的研究已经从人工注释转向 LLM 驱动的搜索算法。这些方法利用推理问题的外部验证，通过反复试验搜索自动生成准确的推理轨迹 [85]。更重要的是，研究人员提出在这些推理轨迹上训练过程奖励模型 (PRM) [183]。PRM 可以提供密集的、逐步的奖励，从而促进 LLM 推理的强化学习。这些方法结合起来减少对人工注释数据的依赖，并为增强 LLM 推理创建一个“强化循环”，有效地整合“搜索”和“学习”，这两种方法可以无限扩展，正如 Richard Sutton 所预测的那样 [139]。因此，这种新范式使得 LLM 推理能力能够通过增加训练时间计算来扩展，为更高级的推理模型铺平道路。

此外，最近的研究表明，扩大测试时间计算也可以提高 LLM 推理的准确性。具体来说，PRM 可用于指导 LLM 评估和搜索中间“思维”[134]，这鼓励 LLM 在测试时计算期间生成深思熟虑的推理步骤并提高推理准确性。这种方法产生了测试时规模化定律，该定律预测在测试时花费更多 token 进行深思熟虑的推理可以提高准确性 [103]。因此，强化学习驱动的训练时间规模化和基于搜索的测试时间规模化相结合，为充分释放 LLM 的推理能力指明一个有前途的研究方向，即一条通往大型推理模型的道路。该研究方向的一个重要里程碑是 OpenAI 的 o1 系列 [194]，它证明了这种方法的有效性，并呼应了 OpenAI 在 AGI 五步路线图中将 LLM 从对话式 AI（第 1 级）过渡到更强大的推理 AI（第 2 级）的愿景 [36]。OpenR [145]、LLaMA-Berry [185] 和 Journey Learning [110] 等多个开源项目致力于重现 OpenAI 的 o1 的强大推理能力，为开发大型推理模型提供了宝贵的见解。

提示LLM

类人推理是模型参数足够大的 LLM 中出现的最重要的能力之一 [157]。虽然零样本推理对于某些任务可能仍然不可靠，但研究人员已经发现了各种提示技术来增强这些能力。这些技术大致可以分为三种主要方法：逐步推理、多路径探索和基于分解的方法。

以思维链提示 [160] 为例的逐步推理方法表明，明确展示中间推理步骤可以显著提高解决问题的能力。即使是像“让我们一步一步思考”这样的简单提示也能有效地引导推理过程 [62]。这种方法通过自洽 [153] 得到了进一步完善，它可以生成多条推理路径以得出更可靠的结论，而 Auto-CoT [189] 可以自动生成有效的推理链。

多路径探索方法超越了线性推理，同时考虑多个潜在的解决路径。思维树 [172] 将备选推理路径组织成树结构，从而能够系统地探索不同的解决策略。思维图 [11] 进一步将其推广为图结构，从而允许更灵活的推理模式和回溯功能。ReAct [173] 通过将推理与行动步骤交织在一起来丰富这一范式，从而能够与外部环境进行更动态的交互。

对于复杂问题，基于分解的方法已被证明特别有效。从 Least-to-Most 提示 [196] 和思维算法 [122] 系统地将复杂问题分解为可管理的组件，而 Plan-and-Solve [147] 为解决这些子问题提供了战略指导。这些方法在处理需要多个步骤或不同分析级别的任务时尤其有价值。这些广泛的推理能力通过结构化的提示策略得到增强，对于需要仔细分析和系统思考的任务特别有效，使 LLM 能够完成各种复杂的社会科学相关任务。这些方法的成功表明，虽然 LLM 拥有天生的推理能力，但通过提示过程中的精心指导和结构，他们的全部潜力可以得到释放。

智体工作流

除了 LLM 的指令遵循和上下文学习能力之外，研究人员开始设计用于对 LLM 的“思维模式”进行编程的智体工作流 [137]。此类智体工作流使研究人员无需任何额外训练即可增强 LLM 的推理能力，但通常需要更多的测试时计算。上下文学习 [33, 25] 是一种通过简单提供一些上下文演示来提高 LLM 特定任务性能的能力，它使 LLM 能够有效地推广到未见过的问题，而无需进行计算成本高昂的训练 [14]。尽管此类能力的起源仍是一个备受争议的话题，但最近的研究表明，上下文学习通过让 LLM 捕捉标签空间、输入文本的分布和所需的答案格式来提高其性能 [97]。这些理想的特性使研究人员能够将通用 LLM 应用于不同的任务场景，例如通过上下文角色扮演模拟某些群体的观点 [22]。最近的研究表明，有效的智体工作流可以大大提高 LLM 模拟人类行为 [105, 127]、人与 LLM 交互 [89] 和协作任务解决 [107] 的能力。使用智体工作流对 LLM 进行编程的能力，为提高 LLM 在复杂认知架构下的推理能力奠定了基础。

数据构建：从人工注释到 LLM 自动化

创建大规模、高质量的推理数据集对于增强 LLM 的推理能力至关重要。然而，由于成本高昂，这项任务带来了重大挑战。如图所示，人工注释被广泛认为是高质量的，但成本高昂且难以扩展。相反，使用 LLM 自动化注释过程提供了一种更具成本效益的替代方案，但面临着验证有限的挑战，特别是对于逐步推理过程。

其总结在下表：

人工标注在构建LLM数据集中的作用不可或缺。人工标注员的特点是细致、耐心、精准，能够适应新的场景，并能有效处理模糊数据[98]。

增强 LLM 的推理能力需要过程监督，即由人类标注员指导推理过程的每个步骤 [75]。然而，这种监督需要大量人工注释的数据，这使得它资源密集且不可持续。

数据注释是一项具有挑战性且资源密集型的任务，特别是在需要复杂操作（例如过滤、识别、组织和重构文本数据）的场景中。这些任务通常繁琐、耗时且需要大量人力，使其成为大规模数据构建工作中代价高昂的瓶颈 [142, 31]。为了应对这些挑战，利用 LLM 进行数据注释是一种经济高效的替代方案。由于上下文窗口长度超过 100k 个标记，LLM 可以毫不费力地处理长文本和大量结构化数据 [2]，以卓越的效率处理数据注释的复杂要求。它们强大的指令跟随能力 [187] 使它们能够灵活地适应多样化和复杂的注释场景，同时实现与人类标注员相当的质量水平。通过自动执行这些艰巨的任务，LLM 显著减少对人力的依赖，简化了注释流程并提高整体生产力 [181]。

在复杂的推理任务中，模型输出的每一步都会对最终结果产生重大影响，因此将中间决策标记为“正确”或“不正确”或分配中间奖励（即过程注释）至关重要。然而，手动标记这些步骤成本高昂且耗时。例如，Lightman [75] 投入大量人工来生成大规模过程注释数据集 PRM800K，它满足训练过程奖励模型 (PRM) 的要求，并大大增强 LLM 的推理能力。因此，越来越需要自动化方法来高效地进行过程注释，确保可扩展性和成本效益。最初的自动化方法聘请外部更强大的 LLM 来注释较小 LLM 生成的中间过程。此外，基于蒙特卡洛的方法减少对外部更强大 LLM 的依赖（包括MCTS），并且可以使用较弱的 LLM 完成数据注释，从而通过自我强化的方式训练更强大的 LLM。

学习推理：从监督到强化微调

虽然预训练模型在各种任务上都表现出色，但它们往往难以进行复杂的推理，也难以使输出符合人类的期望。微调对于解决这些限制、改进模型在特定任务上的表现以及增强其推理能力至关重要。最初，使用监督微调 (SFT) ，其中模型从标记数据集中学习特定于任务的模式。然而，随着推理挑战的增加，强化学习 (RL) 和直接偏好优化 (DPO) 等方法提供一种更有效的方法，使用奖励模型更有效地将模型的输出与类似人类的推理相结合，从而促进更连贯、更负责任和更具上下文意识的输出。

优化预训练的 LLM：监督微调

监督微调是一种学习技术，它使用标记数据改进预训练模型针对特定任务或领域的能力，同时保留模型对预训练知识的理解。虽然预训练允许模型从大量非结构化数据中学习广泛的通用特征，但微调通过将模型暴露给具有清晰输入-输出映射的较小、特定任务数据集来专门化模型。

SFT 是提高 LLM 推理能力的关键步骤，通过将其从通用系统调整为特定领域的工具，使其能够应用于下游任务。例如，GPT [111]、BERT [30] 和 T5 [113] 等 LLM 使用自监督学习在大量文本数据上进行预训练，使其具备广泛的语言理解和生成能力。然而，它们的输出并不总是与特定任务的要求相一致。如果不进行微调，LLM 在某些推理任务上的表现往往很差，例如物体计数 [182]、卫星理解 [91] 和工程问题回答 [154]。通过 SFT，可以根据标记的任务特定数据集细化模型的输出，从而部分解决这些挑战。

然而，直接应用 SFT 可能无法充分探索模型在所需领域的推理能力，特别是在需要更复杂的决策或多步骤问题解决的任务中。CoT 技术 [160] 的引入彻底改变 SFT 过程，通过明确训练模型在得出答案之前生成中间推理步骤。使用基于 CoT 的 SFT，可以鼓励 LLM 明确生成中间推理步骤，从而增强其推理能力，以处理需要更结构化和有组织思维的任务。例如，ReasonBert [29] 表明，通过结合逐步推理过程，带有推理链的微调模型可以显著提高其在数学应用题和逻辑推理等任务上的表现。另一项重要研究 [80] 调查如何通过生成更透明、逐步思维的过程，使用推理对模型进行微调来提高其可解释性并减少复杂决策场景中的错误。通过使用 CoT 进行微调，模型不仅可以改进最终答案，还可以增强其“思考”问题的能力，从而更清晰地洞察模型的推理过程。

尽管 SFT 方法多样、性能出色，但它也存在一些局限性。首先，SFT 严重依赖高质量的标记数据集，而这些数据集的整理成本高昂且耗时，尤其是对于小众领域或需要专家注释的任务而言。其次，SFT 可能导致灾难性遗忘，即模型在微调过程中丢失一些预训练的通用知识，从而降低其在微调领域之外推理任务中的实用性。最后，即使采用参数高效的方法，微调大模型的计算成本仍然可能过高，这对资源有限的组织构成了挑战。解决这些限制需要仔细的数据集管理、正则化技术，以及探索替代方法，例如快速调整或多任务微调，以平衡任务专业化和泛化。

优化预训练的 LLM：强化学习

由于高度依赖昂贵的高质量标记数据集，以及 SFT 的高计算成本，强化学习已成为训练模型掌握推理过程的强大替代框架。与监督学习不同，强化学习使模型能够通过反复试验的奖励信号进行学习，发现实现特定目标的最佳策略。如图 (a) 所示，模型根据其当前状态采取行动，并以奖励信号的形式接收反馈。此反馈指导模型随时间更新其参数，以优化累积奖励。

目前，两种关键方法主导着 LLM 的 RL 训练：基于人类反馈的强化学习 (RLHF) 和基于 AI 反馈的强化学习 (RLAIF)。

经典的强化学习方法依赖于训练奖励模型，以根据人类偏好对输出进行评分。而直接偏好优化（DPO）则通过直接利用偏好数据简化此过程，而无需明确的奖励模型。DPO 不是优化复杂的奖励函数，而是使用成对偏好比较，即指示人类更喜欢两个输出中的哪一个的数据。这种直接方法简化学习流程，同时保留基于强化学习方法的对齐优势，而这种方法通常更简单、更有效。

总之，RL 和 DPO 方法提供一种直接有效的方法来培养 LLM 中的推理能力。通过关注每次行动后的即时奖励，这些方法还将模型与人类偏好相结合。对短期反馈的强调简化了学习过程，避免了在长序列中分配信用的复杂性。这种简化的方法特别适合实时应用和需要清晰、简洁推理的任务，最终增强 LLM 提供连贯且合乎道德结果的能力。

使用结果奖励模型增强多步骤推理能力

对于复杂的推理任务，例如数学问题求解，LLM 需要执行多步骤推理，例如思维链，才能最终得到准确的解决方案。在这些任务中，奖励反馈通常仅在完成所有推理步骤并获得最终解决方案后才可用。如图 (b) 所示，称为结果奖励模型 (ORM)。在这种情况下，提高 LLM 推理能力的关键在于根据结果奖励区分中间推理步骤的正确性和重要性。

基于结果奖励的训练的主要挑战在于区分中间推理步骤的正确性和重要性。当前的方法主要基于蒙特卡罗抽样或蒙特卡罗树搜索，在估计这些中间步骤的重要性方面具有优势，尽管搜索期间的计算成本仍然很高。现有工作主要集中在数学或其他推理问题上，其中最终解决方案可以轻松验证。这些方法可以扩展到更广泛的推理任务，包括那些解决方案难以验证的任务。一种潜在的方法是基于人工注释数据学习奖励模型，并用它来判断最终解决方案的质量。根据奖励模型提供的最终分数，然后可以采用蒙特卡罗抽样或搜索技术来进一步提高性能。

使用过程奖励模型增强多步骤推理

基于过程奖励模型 (PRM) 的强化学习代表 LLM 推理的重大进步，强调对中间步骤的评估，而不是仅仅关注最终状态结果。如图 (c) 所示，PRM 的奖励分布在每个推理步骤中，而不是集中在最终结果上。通过在整个推理轨迹中提供细微的反馈，PRM 使模型能够优化行为，更好地符合人类偏好和复杂的任务要求。这种方法对于涉及顺序决策的任务至关重要，其中中间步骤或决策对最终目标至关重要。 PRM 的演变，通过在复杂任务期间提供步骤级奖励来改进推理的作用。

LLM 的多步骤 RL 技术的发展反映从稀疏的结果反馈到详细面向过程监督的转变。 PRM 现在是 LLM 推理能力发展的核心，提供细致入微的阶梯式奖励，推动推理任务的大幅改进。未来的研究可能侧重于完善这些模型并扩大其在不同任务领域的适用性。

强化微调

强化微调 (RFT) [101] 是 OpenAI 最近提出的一项技术，用于定制针对特定垂直领域的专家 LLM。目前，RFT 仍是一个研究项目的一部分，技术细节尚未完全公布。现有信息表明，RFT 利用用户提供的少量偏好数据以及评分模型来评估 LLM 的输出。该技术可以迭代优化 LLM 的多步推理能力。因此，RFT 技术可以增强 LLM 在优化领域通过类似问题进行推理的策略。

测试时间规模化：从 CoT 到 PRM 引导搜索

提示引发深度的思考

除了通过强化学习等技术进行训练时间优化之外，研究人员还发现，思维链和思维树等测试时间提示技术可以进一步增强 LLM 的能力 [160, 153]。虽然简单地向模型询问直接答案通常会产生次优结果，但在测试时引导它们完成明确的推理过程可以显著提高其性能 [62]。这些提示策略在从数学推理到复杂决策任务等各个领域都表现出显著的有效性 [173, 196]。ReAct 和从 Least-to-Most 提示等结构化提示方法的出现表明，LLM 可以从组织其思维过程的明确指导中受益，从而产生更可靠、更可解释的输出 [189]。虽然这些方法通常会增加 token 消耗和计算开销，但它们通过增强 LLM 的推理能力和解决方案准确性（无需修改模型参数）为训练时方法提供有力的补充 [172, 11]。这表明，通过复杂的测试时干预，而不是仅仅依靠模型架构或训练修改，来提高 LLM 性能，是一个有希望的方向。

PRM 引导搜索

PRM 标志着从稀疏的基于结果反馈到详细的面向过程监督的重大转变。更重要的是，PRM 也可以在测试阶段使用，它可以进一步提高模型的推理能力。OpenAI o1 系列模型，是 PRM 高级应用的一个突出例子。新的测试时规模化定律表明，通过增加测试时计算可以有效增强推理能力，为 LLM 的未来发展提供了明确的方向。推理阶段采用的一些方法，如图所示：红色空心圆圈表示推理阶段算法在探索过程中丢弃的推理路径，绿色空心圆圈表示探索过程中采用的推理路径，绿色实心圆圈标记一旦确定正确答案，推理路径的端点。

走向大型推理模型的道路

OpenAI o1 系列的开发

2024 年 9 月，OpenAI 发布 o1，这是一种突破性的语言模型，代表了人工智能推理能力的重大进步，尤其擅长于数学、编码和科学问题解决等复杂任务。2024 年 12 月，OpenAI 开放 o3 的测试应用程序，o3 是 o1 的升级版 [102]，被认为具有博士级智能 [7]。这些模型在各种具有挑战性的基准上取得显著的成绩，包括在国际数学奥林匹克竞赛中获得金牌 [73] 并在物理、化学和生物问题上达到博士级水平 [48]。通过对 o1 系列基本推理能力的系统分析，广泛的评估显示其独特的推理模式。

有效的知识整合。
系统问题分解。
在复杂任务中进行可靠且连贯的推理。
大型推理模型的新规模化定律。

大型推理模型的开源尝试

开源框架在开发 LLM 的高级推理能力方面也取得了长足进步。这些框架为研究人员和开发人员提供了宝贵的参考，旨在复制或近似 OpenAI 的 o1 等专有模型的推理能力。有四项重要的开源努力，每项努力都采用不同的策略来增强 LLM 推理能力（总结在下表）。

OpenR 项目 [145] 。该项目声称，它是第一个使用强化学习技术探索 OpenAI o1 模型核心方法的开源框架。OpenR 复制的核心是构建分步推理数据，从中获得更精确、更细粒度的反馈，而不是纯粹的最终答案。通过从构建的搜索树中选择推理轨迹，采用自动数据增强算法 OmegaPRM [85]。基于对每个推理步骤进行监督的增强过程数据，在监督学习方案中进一步训练过程奖励模型，该方案基于预训练的 Qwen2.5-Math-7B-Instruct 模型 [168]。PRM 可以在测试时计算期间直接部署，与多数投票、N 中最佳或集束搜索方法集成。它还可以用于在后训练阶段使用 RL 对 LLM 进行微调。其实验证明 PRM 在测试时计算和后训练中的有效性。

Rest-MCTS* [183 ]。他们不是分别训练 PRM 和微调策略模型，而是将这两个更新整合到一个相互的自训练循环中。基于类似设计的 MCTS 算法，提前收集过程奖励作为 PRM 训练的监督，以及策略模型训练的推理轨迹。然后，基于初始策略 π 和初始 PRM 值 V_θ 开始迭代训练过程。策略进一步迭代执行 MCTS 并生成解决方案，而这些值则影响树搜索过程。它们的更新以迭代方式相互补充。

o1 复制之旅项目 [110] 。该项目并没有彻底考虑两个阶段的改进实施，而是旨在通过关注全面的训练策略来复制 OpenAI o1 模型的推理能力。它强调结构化的训练图，结合反复试验、反思和回溯来构建深度因果推理。该项目的一个核心方面是数据生成，设计高质量的训练示例来模拟复杂的推理路径。 o1 复制之旅，使用旅程学习方法，将模型暴露于各种逻辑序列和修正中，鼓励在训练阶段进行探索和适应。然而，o1 复制之旅，在推理阶段不太复杂，缺乏先进的训练后技术，这限制了它在实时推理过程中的适应性。与具有动态推理优化的模型相比，这种对训练而非推理的关注凸显其基础方法。

LLaMA-Berry [185] 。该项目专注于优化推理阶段的推理能力，利用 LLaMA-3.1-8B 架构提供更复杂的实时推理调整。它采用独特的成对优化方法，将蒙特卡洛树搜索与自细化 (SR-MCTS) 相结合，使模型能够在推理过程中动态探索和优化解决方案路径。这种配置赋予 LLaMA-Berry 高度的适应性，使其能够高效灵活地处理复杂、开放式的推理任务。该框架的一个关键组成部分是成对偏好奖励模型 (PPRM)，它成对评估解决方案路径，确保优先考虑高质量的推理路径。LLaMA-Berry 的增强 Borda 计数 (EBC)，随后整合这些偏好排名，以指导模型的决策，进一步增强其推理阶段的复杂性。这种强大的架构使 LLaMA-Berry 成为以推理为中心强化的领先示例，使其有别于 O1 复制之旅以训练为中心的方法。

这四个开源框架不仅展示强化推理的独特实施策略，而且在提高对 OpenAI o1 模型的理解方面发挥着重要作用。它们共同扩展开源社区可用的技术范围，推进开发复杂、透明和适应性强推理模型的共同目标，这些模型将所有权-级的功能带入可公开访问的系统。

其他测试时间增强技术

除了 PRM 引导搜索之外，还有许多其他技术旨在通过更多的测试时间计算来增强 LLM 推理能力。这些技术可以动态地改进推理结果，而无需修改模型本身。如图所示的口头强化搜索、基于记忆的强化和智体系统搜索等方法表明，仅使用现成的 LLM 就可以实现显着的推理改进。

下表总结探索这些方法的一些代表性工作。虽然这些方法没有利用 PRM，但它们为未来研究探索混合模型以进一步提高推理能力奠定了基础。

口头强化搜索 (VRS)

其利用 LLM 的预训练推理和语义功能来探索和优化解决方案空间。与传统的强化学习或训练密集型方法不同，VRS 纯粹通过测试时推理来运行，使用迭代反馈循环来改进解决方案，而无需额外的训练。通过利用 LLM 中编码的语义知识及其遵循复杂指令的能力，VRS 提供一种用于导航各种问题空间的多功能方法。这种推理驱动的框架适用于单个智体、多智体系统和具身智体，支持广泛的任务，包括程序优化、协作决策和现实环境中的交互。

在单智体设置中，VRS 依靠迭代推理和反馈机制来改进结构化问题空间内的解决方案。这种方法非常适合数学优化、符号推理和假设驱动的发现等任务，在这些任务中，系统性的改进可以显著改善问题解决的结果。总体而言，VRS 应用迭代推理和反馈将抽象问题解决与现实世界的应用联系起来，以精确性和适应性应对数学、科学和优化方面的挑战。

在多智体系统中，VRS 通过自然语言通信促进基于 LLM 智体之间的协作。这些系统利用共享推理和迭代细化来处理复杂的解决方案空间，使智体能够交换见解并实现共同目标。

在具身智体设置中，VRS 用于通过将推理与物理交互相结合来解决现实世界的任务，支持实验室环境中的实验规划和执行等活动。这些系统将 VRS 扩展到动态环境中，将语义推理与实际实验相结合。当遇到错误（例如错误的模块调用）时，系统会通过参考文档和迭代任务来修改其方法。这个迭代过程展示了 VRS 如何支持实验工作流程中的适应性和精确性。通过结合推理和实时反馈，具身智体展示 VRS 在动态环境中改进和优化复杂流程的能力。这些系统减少人为干预，同时加速科学发现，使其成为现实世界实验和创新的宝贵工具。

总体而言，VRS 在单个智体、多智体系统和具身智体中具备适应性和有效性。利用 LLM 的语义推理和迭代反馈功能，VRS 无需额外训练即可解决各种任务。从数学和科学环境中的结构化优化到多智体框架中的协作探索，再到实际应用中的动态实验，VRS 提供一种统一的解决问题方法。VRS 是一个多功能框架，能够解决计算和物理领域的复杂挑战，同时推动各个领域的进步。

基于记忆的强化

当应用于创意写作、复杂逻辑推理和开放世界游戏等开放式任务时，解决方案空间往往会急剧扩大，通常变得无界或定义不明确。这些任务通常需要与环境进行持续交互以获取相关信息，这使得简单的解决方案空间搜索效率低下。为了应对这些挑战，一些研究为 LLM 智体加入了

迈向大型推理模型：大语言模型强化推理综述

正文

请到「今天看啥」查看全文