专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

推理语言模型：蓝图

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-02-04 03:43

正文

25年1月来自ETH、Cledar（前欧洲核研究理事会 CERN 的科学家创立，AI/ML咨询公司）、德国化工公司 BASF SE 和波兰超级计算和网络中心 Cyfronet AGH 的论文“Reasoning Language Models: A Blueprint”。

推理语言模型 (RLM) ，也称为大型推理模型 (LRM) ，例如 OpenAI 的 o1 和 o3、DeepSeek-V3 和阿里巴巴的 QwQ，通过使用高级推理机制扩展大语言模型 (LLM)，重新定义 AI 的问题解决能力。然而，它们的高成本、专有性质和复杂的架构（独特地结合强化学习 (RL)、搜索启发式和 LLM）带来可访问性和可扩展性挑战。为了解决这些问题，本文提出一个全面的蓝图，基于对所有 RLM 工作的调查和分析，将 RLM 组件组织成一个模块化框架。该蓝图融合各种推理结构（链、树、图和嵌套形式）、推理策略（例如蒙特卡洛树搜索、波束搜索）、RL 概念（策略、价值模型等）、监督方案（基于结果监督和基于过程监督）和其他相关概念（例如测试-时间计算、检索增强生成、智体工具）。还提供详细的数学公式和算法规范，以简化 RLM 实施。通过展示 LLaMA-Berry、QwQ、Journey Learning 和 Graph of Thoughts 等方案如何作为特殊情况，演示了蓝图的多功能性和统一潜力。为了说明它的实用性，引入 x1，这是一种用于快速 RLM 原型设计和实验的模块化实现。其提供了关键见解，例如策略和价值模型的多阶段训练，以及训练分布重要性。最后，讨论可规模化的 RLM 云部署，并概述 RLM 如何与更广泛的 LLM 生态系统集成。

如图所示本文的结构：

推理语言模型 (RLM)，例如 OpenAI 的 o1 [116]、o3 [76] 和阿里巴巴的 QwQ [148]，也称为大型推理模型 (LRM)，代表了人工智能的变革性突破，与 Chat-GPT [114] 的出现不相上下。这些先进的系统从根本上重新定义了人工智能解决问题的能力，实现了细致入微的推理、更好的语境理解和广泛领域的稳健决策，重塑了科学 [45]、行业 [21]、治理 [52] 和人类生活的许多其他方面 [46]、[75]、[80]、[143]、[144]。通过使用复杂的推理机制扩展标准大语言模型 (LLM) 的功能，RLM 已成为尖端人工智能的新基石，更接近 AGI。然而，最先进的 RLM（例如 OpenAI 开发的 RLM）的高成本和专有性，可能会加剧“富 AI”和“穷 AI”之间的鸿沟，引发人们对可访问性和公平性的严重担忧。即使是公开的 QwQ 也只带有模型权重，阿里巴巴也没有披露有关其训练或数据生成方法的详细信息。无法负担这些先进系统的企业和个人面临着越来越大的劣势，这可能会扼杀创新并加剧系统性不平等。随着 RLM 成为从医疗保健到科学、管理等关键应用不可或缺的一部分，必须解决这些差异并确保广泛获得高级推理能力的好处。

RLM 的技术基础仍然不透明且复杂，加剧可访问性挑战。它们的设计可能集成蒙特卡洛树搜索 (MCTS) 或集束搜索、强化学习 (RL)、基于过程的监督 (PBS) [88]、[88]、[151]、[151] 等元素，以及先进的上下文学习 (ICL) 技术，如思维链 (CoT) [160] 或思维树 (ToT) [169]，甚至可能是检索增强生成 (RAG) [13]、[57]、[83]、[84]。

此外，这些架构采用多个专门的子组件，如合成数据生成引擎和策略、价值和奖励模型，通过某种形式的新型损失函数和可能的几种微调方案进行训练。然而，这些组件之间错综复杂的相互作用以及如何将它们集成到一个有凝聚力和有效的架构中，仍然知之甚少。这里的“圣杯问题”是：RLM 的详细设计是什么，以及如何使其同时实现有效性（即，传递答案的高准确性）、低成本和可规模化？

推理语言模型的基本支柱

具有推理能力的 LLM 的发展代表三个关键线索的融合：(1) GPT-4 等 LLM 的进步，(2) AlphaZero 等 RL 设计，以及 (3) 高性能计算 (HPC) 资源。这些线索共同塑造能够实现高效系统-2 思维的模型——这种推理水平结合明确的思考和新问题解决能力，不同于系统-1 思维的直观、快速和自动启发式方法。RLM 的历史如图所示，比较了这些支柱中的示例设计。

下图左侧进一步讨论这些支柱的细节，而右侧展示语言模型的分层结构。

大型语言模型：知识宝库

GPT-4o [115] 或 Llama [54] 等 LLM 代表了人工智能领域的一次非凡飞跃，构成了一个巨大的世界知识库，这些知识直接编码在其权重中。 LLM 经过来自不同来源大量文本语料库的训练，能够非常流利地理解和生成人类语言。然而，它们的推理能力在很大程度上与快速、自动和直观的系统-1 思维相一致。虽然它们可以生成连贯的响应，甚至执行简单的推理任务，但 LLM 也有局限性。它们表现出的推理通常很肤浅，根植于预测序列中下一个最可能token的简单机制，而不是进行明确的问题解决或结构化分析。虽然 LLM 可能会为问题生成听起来合理的解决方案，但这些输出是统计语言建模的结果，而不是深思熟虑的迭代推理过程。这种区别凸显将能够进行明确推理的更高级机制集成到 AI 系统中的必要性——为将 LLM 知识丰富的基础与结构化推理方法相结合的混合设计铺平道路。

强化学习：探索和创新

在传统环境中，强化学习提供了一个决策和探索框架，在这种环境中，智体必须通过反复试验来学习最佳策略。像 AlphaZero [134] 这样的里程碑式系统，以及 AlphaGo [133] 或 MuZero [130] 等一系列其他系统，通过在国际象棋、将棋和围棋等游戏中实现超越人类的表现，展示了强化学习的巨大潜力。与传统人工智能系统不同，AlphaZero 一开始并没有嵌入式领域知识。相反，它纯粹通过自学掌握这些游戏，发现了甚至人类专家都没有考虑过的新策略。

强化学习创新能力最引人注目的例子之一是在 AlphaZero 比赛中，该系统做出最初被人类观察者认为是错误的举动。这一举措 [105] 后来被证明既令人惊讶又具有战略眼光，表明 RL 智体能够探索超出人类直觉范围的非常规解决方案。这种能力从根本上植根于 RL 有效导航广阔搜索空间的能力。

然而，传统的 RL 系统缺乏编码现实世界知识或处理复杂、多方面推理任务的能力。这一限制促使 RL 原理与 LLM 相结合，将 RL 的结构化探索和优化能力与语言模型知识丰富的推理基础相结合。

HPC：可扩展性和效率

LLM 和 RL 系统的发展受到高性能计算 (HPC) 进步的推动。最初由摩尔定律推动，该定律使晶体管密度大约每两年翻一番，HPC 受益于技术进步和制造更小晶体管的经济可行性。然而，随着进一步小型化的成本急剧上升，摩尔定律已达到实际极限，需要采用并行和异构计算等替代策略。

现代 HPC 系统严重依赖 GPU、TPU 和 AI 加速器的并行处理能力，以及用于顺序和通用任务的 CPU。异构计算利用这些组件来优化特定任务的性能。分布式框架采用数据、模型和流水线并行 [8]、[12]、[16] 等技术，进一步支持在数千个计算节点上训练庞大的模型。

能源效率创新，包括稀疏性、量化和修剪，减轻扩展 AI 系统日益增长的能源需求。这些进步确保 HPC 仍然是开发和部署 AI 模型的基石，支持海量知识、推理能力和计算可扩展性的结合——使 AI 进化能够继续超越传统摩尔定律规模化的限制。

融合：人工智能中的系统 2 思维

这三个线程（LLM、RL 和 HPC）的交汇最终导致了能够进行系统 2 思维的模型出现。这些先进的系统将 LLM 的知识丰富基础与 RL 的探索和优化能力相结合，所有这些都得到现代 HPC 的可扩展性和性能的支持。结果是一种可以参与明确、深思熟虑推理过程的新型人工智能模型。

这些模型拥有一个编码在其 LLM 组件权重中的世界模型，使它们能够推理复杂的场景和上下文。它们的 RL 能力与 HPC 能力相结合，使它们能够驾驭真正巨大的决策空间，评估多种策略，并迭代地改进解决方案。

插值（LLM）与外推（RLM）

标准 LLM 由其自回归token预测机制驱动，主要在解决方案的广阔搜索空间内执行插值。它们擅长生成与训练数据中看到的模式相符的响应，从而有效地综合已知上下文中的知识。但是，此过程限制它们只能产生在其训练分布边界内的输出。相比之下，推理 LM 可以进行超出这些边界的推断。通过结合结构化探索，推理 LM 可以探索解决方案空间中未知的领域，产生超越其训练数据限制的新见解和解决方案。这使得从基本模式完成转变为主动解决问题成为可能。

推理相关模型的层次结构

RLM 的演变可以理解为一个层次结构，早期的模型（如 GPT-4o）在推理方面能力较弱，而类似 o1 的架构则表现出越来越复杂的复杂性和明确的推理能力。这个层次结构反映系统 1（LLM）和系统 2（RLM）思维的融合。根据推理的实现方式，RLM 可以进一步分为隐式 RLM 和显式 RLM。

隐式推理模型

在此子类中，推理结构完全嵌入模型的权重中。诸如 QwQ [148] 之类的模型充当“黑匣子”，其中推理是隐式的，无法明确解开或操纵。虽然这些模型与标准 LLM 相比表现出更好的推理能力，但它们的推理过程是不透明的，并且依赖于训练期间学习到的内部化模式。

显式推理模型

这些模型在模型核心权重之外引入显式推理机制。示例包括 LLaMA-Berry [177]、Marco-o1 [182] 以及可能的 OpenAI o3 等设计，它们结合显式 MCTS 与 RL 相结合的决策机制。这种显式结构使模型能够迭代地模拟、评估和改进解决方案，从而促进新颖的问题解决和推断。通过将推理与权重中编码的静态知识分开，这些模型在推理过程中实现更大的灵活性和可解释性。请注意，显式推理可以通过训练内化，使其变成隐式。

如图所示RLM的通用架构：

基本架构、流水线和概念

一般来说（如图左上部分），整个 RLM 架构由三个主要流水线组成：推理、训练和数据生成。推理使用训练流水线提供的模型（例如，值或策略模型）来满足用户请求。数据生成在其内部设计中反映了推理流水线；主要区别在于它独立于用户请求运行，生成随后用于重新训练模型的数据。因此，训练与来自各个领域的数据生成相结合 [127]、[176] 提供自学习能力，类似于 AlphaZero [134] 的自我博弈设置。

推理

推理过程始于用户提供输入提示 1 ，该提示通常描述 RLM 要解决的问题或疑问。此输入是推理过程的根，并启动组织 RLM 进度的推理结构 2 构建。该结构通常表示为一棵树。这棵树的根对应于用户的输入，随后生成节点以探索搜索空间 - 可能的推理路径或解决方案的域。此推理结构的目的是系统地调查潜在的解决方案，逐步完善和扩展推理路径以收敛到最佳或令人满意的答案。

搜索空间中的单个点（表示为推理结构中的节点）对应于推理步骤 3 。推理步骤被定义为连贯且独立的思维单元 - 一系列tokens，通过探索问题的新分支或基于现有进展来推进解决方案。这些步骤构成了推理过程的构建块。

结构演变的细节通常由 MCTS 方案控制，并通过策略和价值模型进行增强。这种方法受到 AlphaZero 中使用方法的启发，可确保搜索过程既高效又指向有希望的解决方案。策略模型 4 负责在每个节点生成新的推理步骤，预测下一个最可能和最合乎逻辑的步骤以扩展推理过程。同时，价值模型 5 评估从给定节点开始的推理路径质量，帮助系统优先考虑最有希望的步骤。有时，会使用奖励模型 6 来评估单个特定节点及其相应推理步骤的质量。在蓝图中，将模型抽象为更通用的算子概念 7 ，以便在实现它们的方式上具有更大的灵活性。

搜索和推理过程不断迭代，直到到达终止步骤 8 。这个终止步骤代表推理链的完成，形成对所提问题的最终答案。它充当树中的叶节点，结束特定的推理路径。

该架构提供一个统一的框架，可适应各种推理任务。无论推理步骤是细粒度的（例如，单个token序列）还是粗粒度的（例如，将整个推理链视为单个节点），该架构都可以无缝适应。通过明确构建搜索空间并使用策略和价值模型指导探索，RLM 实现一定程度的推理能力，将直观的模式识别与深思熟虑的问题解决连接起来。

如下算法中找到推理流水线的详细规范：

训练

训练细节取决于训练的模型（价值、策略、奖励……）。一般来说，假设对 Llama 之类的模型进行微调。在这里，遵循一种方法，首先利用监督数据 1 ，通常来自现有数据集，例如 PRM800K [88]，这些数据成为框架的监督训练流水线 3 中使用的监督训练数据 2 一部分，用于训练蓝图中考虑的部分或全部模型 4 。RLM 中整体训练框架的第二部分是无监督（自学习）训练流水线，其中不断生成训练数据 5 并用于改进模型。数据可以从推理中获得，假设有质量控制 [56]，也可以从反映推理的专用合成数据生成流水线中获得。为了收集数据，需要针对给定的输入任务执行相应的 RLM 流水线并收集结果 6 ；根据收集过程的详细程度，收集的数据可以仅包含基于结果的标签 7 、基于过程的标签 8 或其他一些变型，例如建议的基于跟踪标签 9 ，这些变型将基于过程的样本泛化到还包含有关任务解决过程中应用算子信息的样本。所有这些数据都成为重放缓冲区 10 的一部分，并用于无监督训练方案 11 ，也可以用于训练 12 将成为隐式 RLM 13 的模型。

如下算法所示：策略模型的SFT训练

涵盖多种 RLM 架构

上述设计适用于许多 RLM 设计。但是，还有许多其他架构变型，其中一些并不完全符合此框架。

在某些 RLM 设计 [177] 中，MCTS 树中的单个节点可以表示整个推理结构，例如完整的推理步骤链。在这种情况下，动作空间涉及不同推理结构之间的转换，而不是单个步骤。这种方法改变搜索的性质，因为重点从迭代构建单个推理路径，转移到评估和细化搜索空间内的整个结构。蓝图通过嵌套概念来适应这一点，其中推理结构中的节点可以包含另一个推理结构。

其他架构引入了更多范例。例如，Journey Learning [119] 通过合并“重连接”搜索或推理结构的转换步骤增加了额外的复杂性。此转换合并树中的多条路径，将它们合成为新形式，用作后续推理迭代的输入。

尽管存在这些变化，但蓝图足够通用，可以涵盖所有这些情况以及其他情况，正如我们在下面更正式地说明的那样。这种通用性确保蓝图不仅适用于现有设计，而且还为 RLM 开发的未来创新奠定基础。

与更广泛的 LLM 智体生态系统集成

将 RLM 集成到更广泛的 LLM 智体生态系统中，使这些模型能够在执行过程中与外部工具、数据库和资源动态交互。这种交互可以发生在推理或数据生成流水线道内，利用价值或策略模型通过访问检索增强生成 (RAG)、Web 查询和专用工具来扩展推理过程。例如，在推理任务中，价值或奖励模型可以查询数据库以验证中间步骤，确保事实正确性或检索其他上下文以完善其推理。同样，这些模型可以利用计算工具进行数学或符号计算，从而扩大其推理的范围和准确性。

本文提出的 RLM 蓝图，可用于开发推理模型，并为此类设计的分析、评估和比较提供依据。如图概述 LM 推理的蓝图：

概述和主要组件

蓝图指定一个组件工具箱，可用于构建任意 RLM。其中有几类这样的组件。首先，RLM 包括一个推理方案，该方案指定一个推理结构（例如，树）以及一个推理策略（例如，MCTS），该策略说明该结构如何演变以解决给定的输入任务。其次，有一组算子（例如，Refine）可应用于推理结构（由推理策略指定），演变并在解决输入任务方面取得进展。算子是根据它们的作用（即，对推理结构有什么影响）来指定的。如何实现这种效果取决于如何实现给定的算子。在这里，许多算子依赖于神经模型（例如，策略模型），神经模型与它们的训练范例一起构成蓝图组件的第三类。最后，一组流水线，即操作的详细规范，这些操作协调推理方案和算子之间的交互，以实现特定目标，例如训练、推理或数据生成。因此，RLM 可以定义为推理方案、一组算子和相关模型以及一组流水线的组合。

推理方案

推理方案是蓝图的一部分，它指定走向解决方案的推理步骤细节，它们如何相互连接以形成连贯的链、树或更复杂的推理结构，以及这些结构在解决输入任务的过程中如何演变。

推理步骤

推理步骤是推理结构的基本单位——一系列tokens，使 RLM 朝着解决方案前进。推理步骤的长度可以有所不同，从单个token到整个文本段。其粒度的变化取决于用户的设计选择。在现有方案中，推理步骤通常被概念化为“连贯且独立的思维单元”。例如，在数学证明中，这可能对应于单个逻辑论证或推论。

定义推理步骤的灵活性，使模型能够适应不同的问题域，平衡细粒度和粗粒度推理。粗略步骤，例如逻辑论证（甚至是完整的推理路径 [177]），简化训练数据的准备和采用，增强可解释性，并且——减少计算开销。另一方面，单token步骤能够利用token熵 [101] 等概念来纳入模型的不确定性，以及将高级解码方案（例如推测解码 [82] 或对比解码 [85]）明确集成到 RLM 设计中。然而，虽然使推理步骤更细粒度可以更详细地探索解决方案路径，但这种增加的灵活性会导致更大的计算需求，尤其是与 MCTS 等搜索算法结合使用时。

推理结构

推理结构指定各个推理步骤如何连接和组织。常见结构包括链（线性序列）、树（分层分支）和图（任意连接）。

链是顺序推理流程，其中每个步骤都直接建立在前一步之上。链结构在基于 CoT 的模型中很普遍，其中每个推理步骤都以线性进程的形式从前一步逻辑上进行。在树结构中，每个推理步骤都可以分支成多个延续，形成决策树。这种结构通常用于基于 MCTS 的框架，在选择将进一步研究的分支之前，会探索多条潜在路径。它能够更有效地探索推理步骤的空间，但同时也使 RLM 设计更加复杂和昂贵。最后，图结构允许推理步骤之间存在任意依赖关系，从而实现基于图的推理，例如在思维图 (GoT) 框架 [9] 中发现的推理。

进一步的泛化涉及嵌套结构，其中推理节点本身可能包含子结构。例如，树结构中的节点可能表示 CoT 链，如 LlaMa-Berry [177] 中所述。这种层次结构对于多步骤任务尤其有用，因为高级决策指导低级计算，例如元推理框架 [177]。人们可以利用任何其他高阶结构，例如超图（hypergraph）、motif 或者其他 [10]、[11]、[14]、[17]。

推理策略

推理策略控制推理结构如何演变，指定添加和集成新推理步骤的过程。示例策略包括：

• MCTS [77] 。一种流行的方法，通过模拟多条推理路径并根据评分函数选择最有希望的路径来平衡探索和开发。
• 集束搜索 [137] 。一种广度受限的搜索，在每个步骤中保持固定数量的顶级延续。虽然集束搜索通常用于解码标记序列，但它也可以应用于推理步骤。
• 集成。这些方法涉及聚合多个独立的推理策略，例如结合链和树来增强鲁棒性和准确性。一个例子是 Best-of-N [48], [158] - 一种生成多个独立推理路径的策略，并根据预定义的标准（例如准确性或完整性）选择最有效的解决方案。另一个例子是树集成（森林）[18]，其中推理“森林”不是单一的推理树，而是由多个不相连的树组成，这些树最终可能收敛于一个共享的解决方案节点。这种方法支持并行探索的多种推理路径。

推理策略与解码策略。区分推理策略和 token 级解码策略至关重要。虽然解码策略（如贪婪搜索和核采样 [64]）在推理步骤中生成内部 token 序列，但推理策略侧重于在推理结构中集成和扩展推理步骤的更高级别过程。

算子

算子指定可应用于推理结构各个部分以推进推理过程的操作。提供一个广泛的算子工具箱，其中许多算子已广泛应用于 RLM 相关设计，但有些算子仍未得到探索，可纳入其中以促进创新并推动更有效、更高效的 RLM 设计。

结构算子

结构算子将推理结构作为输入并生成修改后的版本，这样转换推理结构，通常是通过添加或改进推理步骤来实现的。例如，它们可能会向特定节点添加新的子节点，从而促进对替代推理路径的探索。

• 生成。向推理结构添加一个或多个新的推理步骤。在 MCTS 推理策略中，此算子通常作为生成新步骤的策略模型来实现。在其他策略中，生成算子可能涉及按顺序附加步骤 (CoT) 或并行探索多个候选步骤 (Beam Search)。

• 细化。可增强给定的单个推理步骤。例如，它可以解决歧义、纠正错误和优化效率低下的问题，从而产生更强大的步骤版本 [99]。它还可以整合自我批评[128]（评估步骤以识别弱点并提出有针对性的改进建议）、总结[186]（将关键要素浓缩为简洁的表征以简化推理结构）或改述[43]（重新制定步骤以提高清晰度和连贯性，同时保持其逻辑完整性）的建议。

• 聚合。将多个推理步骤、路径或结构组合到下一个单独的步骤中。这可以整合信息或提高连贯性。它用于集成方法[18]或思维图[9]。

• 修剪。根据评估指标从结构中删除被视为次优或不相关的节点或推理步骤。它可以优化推理结构，例如，降低token成本。

• 重构。将任意转换应用于推理结构，从而可以灵活地重组其组件。一个值得注意的例子是通过将推理树的分支重新排列为一系列连续的步骤，将其转换为线性链，如 Journey Learning [119] 中所做的那样。这种重构有助于将来不同分支的见解整合到一个有凝聚力的流程中，“扁平化”，使模型更容易在单一、统一的环境中处理和利用信息。

在结构算子中，有一个关于算子结果多样性的概念。例如，在生成 k 个新的推理步骤时，可能希望使这些步骤的内容尽可能彼此不同。虽然存在不同的引导多样性机制，但典型的方法是使用策略模型温度。也可以考虑多样化束搜索 [152]，它通过在解码过程中维护多个不同的候选序列来促进多样性。在 MCTS 中，开发（通过在已建立的树分支中应用生成算子来扩展结构）和探索（生成新分支）之间也有区别。这里通过操纵开发-探索权衡，可影响多样性，这由树置信上界 (UCT) 公式 [77] 或其变型确定。

遍历算子

遍历算子定义推理过程如何在现有推理结构中导航。这些算子通过确定要遵循的路径，在塑造推理流程方面发挥着至关重要的作用。

• 选择。确定在推理过程中选择哪些推理步骤进行进一步探索、评估或改进。它根据预定义的标准（例如启发式分数、可能性估计、性能指标或搜索策略，如 PUCT [123] 或 UCT [77]）评估现有元素，选择最有希望的候选者来指导下一阶段的推理。通过平衡探索（考虑不同的替代方案）和开发（专注于高潜力路径），选择算子优化资源分配并确保高效的推理进程。
• 回溯。使模型能够明确返回到上一个推理步骤，并继续沿着不同的推理路径前进。该算子通过放弃无效的方向而选择替代轨迹，支持错误更正、发散处理和假设重新修订。 QwQ 模型输出表明，此模型中用作训练数据的推理结构利用回溯。

更新算子

更新算子增强推理结构的特定部分，而不会改变结构本身。一个常见的例子是 MCTS 中的反向传播阶段，其中评估分数沿着现有的推理步骤传播和更新，以告知未来的决策。另一种更新形式，涉及细化单个节点或节点子集的内容，用改进的迭代替换其原始版本，例如思维图 [9] 中的“增强”思维转换。

评估算子

评估算子将推理结构的一段作为输入，并在不对结构进行任何修改的情况下输出一个值。它们广泛用于推理策略，例如 MCTS。

一种重要的评估类型发生在推理结构达到终止状态时，允许根据已知解决方案评估整个推理序列——适用于具有明确答案的任务，例如数学问题。这种终端性评估验证最后一步是否提供正确和完整的解决方案。

人们还可以评估中间步骤（即非终端步骤）。这可能涉及估计与特定推理步骤相关的奖励，使用启发式方法、聚合模拟结果或训练有素的奖励模型进行更有效的评估。其他方法，如基于嵌入的验证，也可能被利用[15]。

另一种评估形式采用价值估计器，它根据给定推理步骤对正确最终结果的预期贡献来判断。这种方法评估步骤的正确性及其与总体解决方案目标的一致性。这种评估可以通过模拟来执行，就像在原始 MCTS 算法中一样，或者更有效地使用学习的价值模型[135]。

评估的一个关键方面是选择适当的指标。例如，在价值评估中，理想的指标既考虑推理步骤的正确性，也考虑它对最终解决方案的进展程度，确保对其贡献进行平衡评估。

讨论：测试-时计算

下一代 LLM [100]、[153] 的最新趋势之一是从仅仅增加模型大小转向增强推理过程中的计算策略，这一概念称为测试-时计算 (TTC)。这种方法在模型执行期间分配额外的计算资源以提高性能，特别是在复杂的推理任务中。这种方法反映人类的认知过程，其中更多的思考应用于更具挑战性的问题。

最近的研究 [137] 表明，优化测试-时计算可能比仅仅增加模型大小更有效。例如，采用计算优化策略（根据问题的复杂性自适应地分配计算资源）可以将效率提高四倍以上，而传统方法则不然。此外，在较小基础模型实现中等成功率的情况下，增加测试-时计算能力可使它们的表现优于大 14 倍的模型。

虽然测试-时计算具有显著的优势，但也带来诸多挑战，其中包括资源分配（确定每个推理任务的最佳计算资源量需要复杂的策略来平衡性能提升和计算成本）、动态规模化（实施自适应计算策略需要模型能够实时评估问题难度并相应地调整计算工作量）[102] 和硬件影响（向增加测试-时计算的转变可能会影响硬件要求，给提供专门以推理为重点的硬件解决方案带来更大压力）。

在蓝图上下文的测试-时计算。蓝图提供在推理过程中动态分配计算资源的机制，以提高性能，特别是对于更复杂的问题。利用蓝图的模块化结构，TTC 可以通过为推理任务设计的特定算子有效实现。比如：

• 生成算子可用于实现 TTC，方法是动态增加针对较难问题生成的下一个推理步骤的数量。
• 细化算子为实现 TTC 提供另一种途径，即针对较难的问题多次增强给定的推理步骤。
• 遍历算子（例如 Select）可以在测试-时探索多条推理路径，为实现 TTC 提供了另一种关键机制 [179]。
• 聚合算子评估生成的推理路径，并根据预定义的标准（例如正确性的可能性或中间步骤的质量）选择最有希望的路径。

模型

模型用于实现各种类型的算子。最常见的是价值模型（实现价值评估算子）和策略模型（实现生成算子）。

训练范式

每个模型都必须根据指定的范式进行训练，该范式概述优化其性能的方法。该范式定义关键的训练组件，例如损失函数、数据生成、标记程序以及其他关键的训练细节。

已经为 RLM 中使用的模型开发广泛的训练方案，早期的基础工作源于与 AlphaZero 相关的进步。这些方案后来发展为支持 LLM 中推理任务的复杂要求。常见的训练范式包括监督微调 (SFT) ，其中模型在标有 q 值的推理序列上进行训练；拒绝抽样 [23]、[140]，涉及根据质量标准过滤生成的输出；以及基于 RL 的方法，例如近端策略优化 (PPO) [131]、直接偏好优化 (DPO) [121] 和特定推理变型，如推理策略优化 (RPO) [117]。几种训练范式还结合了自学习，其中模型通过生成和评估自己的推理序列来迭代改进，从而模拟竞争或合作推理场景。

训练数据范围

RLM 的训练数据，在推理结构捕获量方面可能存在很大差异。有两种既定方法，基于结果的监督 (OBS) 和基于过程的监督 (PBS)。

在基于结果的监督（也称为稀疏训练信号）[36]、[151] 中，每个训练样本仅由输入和相应的输出组成。例如，在数学问题解决中，样本可能包括任务陈述和最终解决方案，标记为正确或不正确。这种方法很容易实现，所需的数据也相对容易收集。然而，它会限制模型的推理准确性，因为它对导致解决方案的中间步骤提供的洞察最少 [88]。

另一种方法是基于过程的监督（也称为密集训练信号）[88]、[155]，其中训练样本反映整个推理结构。在这种情况下，样本不仅包含输入和最终输出，还包含所有中间推理步骤，并标注指示每个步骤质量的标签。这种更丰富的训练数据，使模型能够学习更细粒度的推理模式，通过详细了解推理过程，提高其生成准确且可解释解决方案的能力。然而，生成或收集此类数据要困难得多 [88]。

OBS 与 PBS 通过改变训练数据范围，开发人员可以在数据收集的简易性和为模型提供的推理洞察力深度之间取得平衡，密集监督通常以增加数据复杂性为代价来提高性能。

基于Trace的监督 (TBS) 是一种扩展 PBS 的潜在方法，它通过在推理结构中合并有关应用算子（包括遍历）序列的详细信息。通过捕获推理步骤的生成、改进或重新访问的完整trace，TBS 将提供更丰富的监督，教会模型不仅内化推理步骤，而且还内化导航和操纵推理结构本身的过程。这种方法可以引导隐式 RLM 复制显式结构的推理动态，从而提高其灵活、高效的推理能力，从而训练更强大的隐式 RLM。

流水线

一个流水线是操作的详细规范，它协调推理方案与运算符和模型之间的交互细节，以实现特定目标。通常，RLM 将包含一个用于推理的流水线和一个用于训练 RLM 中每个模型的单独流水线。此外，还有用于训练模型合成数据生成的流水线。需要区分一种流水线，其采用来自显式 RLM的推理trace，训练隐式 RLM。

如表所示，总结如何使用蓝图来对广泛的现有 RLM 和其他相关工作进行建模。

显式 RLM

从最广泛的 RLM 变型开始，如 TS-LLM [48]、AlphaLLM [149]、MCTS-DPO [163] 以及其他模型 [24]、[56]、[153]、[177]、[178]、[182]，通常采用显式树结构，其中每个节点代表一个不同的推理步骤。推理策略基于 MCTS，侧重于树内节点的迭代探索、扩展和评估。通过结合价值机制（如基于提示的评估或专用价值模型），系统可以识别并优先考虑有希望的分支，促进更明智的决策和推理过程的细化。所有基于 MCTS 的推理模型都至少实现下一步生成算子、评估算子和用于反向传播值的更新算子。此外，ReST-MCTS*、LLaMA-Berry 和 Marco-o1 支持细化算子，以进一步改进产生的推理步骤。

Journey Learning [119] 与典型的基于 MCTS 的 RLM 有两个主要区别。首先，它利用线性化结构算子，其中树推理结构被转换为链，通过从中提取几个选定的推理链并将它们组合成一个单独的长链。通过这种方式，该方案试图利用来自不同树分枝的见解。通过维护基于链的结构，Journey Learning 保留线性推理的简单性，同时嵌入自我纠正和探索多种假设的能力。此外，Journey Learning 引入一条流水线，用于将这种长推理链内化到其权重中。这使得最终模型能够直接从其权重生成这种可能包含不同推理分支的长推理链，使其成为隐式 RLM。

隐式 RLM

Qwens 的 QwQ [148] 体现一种完全隐式推理模型，其特点是隐式推理结构直接由模型权重自回归生成。QwQ 中的推理策略（如模型输出所示）利用下一步生成、回溯、总结和批评生成来得出最终解决方案。在每个步骤中，模型都会通过使用这四个隐式生成算子之一来隐式生成链中的新节点，这些运算符可能是使用特殊tokens实现的。

结构化提示方案

高级结构化提示方案（例如 CoT、ToT 和 GoT）构成完全显式的 RLM 结构，除了最初在所用 LLM 中呈现的隐式推理之外，没有了任何隐式推理，即没有模型、训练或数据生成流水线。

CoT [160] 采用由一系列推理步骤组成的隐式推理结构。 CoT 所采用的推理策略旨在构建单一连贯的推理链，最终得到一个单独的解决方案，因此只需要生成算子。CoT 是一系列高级推理策略的基础框架，包括诸如自洽性和自我改进等提示方法。

自洽性 (SC) [158] 通过在推理过程中引入冗余来扩展 CoT 框架。它生成多个推理链，并采用多数表决机制来确定最一致的解决方案，这实现蓝图中的选择算子。

ToT [169] 采用以分层、基于树格式组织的显式推理结构。在这个框架中，每个节点对应一个不同的推理步骤，分支便于跨多个推理路径进行探索（生成数字）。此外，通过专门的提示和 LLM 本身实现的评估算子会评估树的分支。

GoT [9] 通过采用基于图的显式表示引入更复杂的推理结构。在这个框架中，节点代表单个推理步骤，图架构支持这些步骤之间的非线性、相互依赖的关系。在这个框架中，节点代表单个推理步骤，图架构支持这些步骤之间的非线性、相互依赖关系。GoT 中的推理策略由外部控制器协调，该控制器实现为单独的 LLM，用于指导图节点的探索、细化和聚合。

定义推理方案

使用蓝图的第一步是定义推理方案，该方案指定 RLM 的基础结构和策略。首先选择推理结构。就token成本而言，链是最实惠的，至少在 ICL [14] 方面是如此。树虽然最昂贵，但提供丰富的分支，可以增强探索性推理。图虽然比树稍微便宜一些，但在实施过程中带来额外的挑战，但由于其灵活性，可以显著提高准确性。

接下来，决定推理步骤的粒度。粗粒度步骤（例如思维或句子）由于其简单性和易于扩展而被广泛使用。但是，基于token的粒度（在单个token级别运行）提供更高精度和未开发准确性改进的潜力。这种方法虽然很有希望，但需要更多的计算资源和精心设计。此决策定义动作空间（可能的操作）和状态空间（推理结构的配置）。

另一个决策是选择一种推理策略来控制推理结构的演变方式。MCTS 与一些策略和价值模型的变型相结合，由于其在探索和利用之间的平衡，仍然是最广泛采用的方法。然而，尚未深入研究的替代策略，例如推理结构的集合，可能会提供尚未开发的潜力。

最后，确定所选策略的具体细节，包括探索系数、解码策略、评分函数和步骤评估方法等参数。这些选择将显著影响模型的推理动态、可扩展性和整体有效性。此阶段的每个决策，都为根据特定应用要求定制 RLM 奠定了基础。

定义算子

下一步是指定将控制推理过程的算子集。对于基于 MCTS 的设计，最简单的方法是实现核心算子：生成（通常称为 MCTS 的扩展）、选择和反向传播。这些基本操作足以满足许多场景的需求，为推理提供一个简单的框架。

除了基本操作之外，还要考虑是否要合并不太主流的算子，例如回溯。通过明确包含回溯，可以更清楚地跟踪搜索树中的进度，从而更容易重新访问和改进早期的推理步骤。这种方法还可以通过生成更丰富、更结构化的数据来促进高级训练方案，例如基于trace的监督。考虑在工具箱中使用此算子和其他算子。

还需要确定每个算子的实现细节。决定哪些算子将实现为神经模型（例如使用策略模型来指导选择或使用价值模型进行反向传播），哪些将依赖于非神经方法。这种选择会影响系统的计算复杂性和灵活性，因此将这些决策与推理方案和性能目标保持一致非常重要。

确定训练细节

在此阶段，需要概述将实施算子的模型训练细节。对于基于 MCTS 的设计，使用策略模型实施生成（扩展）和使用价值模型实施模拟的典型方法。如有必要，训练单独的模型来计算各个节点的奖励，从而提高奖励信号的精度。

确定应用程序或训练领域以满足泛化要求。此步骤可确保模型在处理所需任务的数据上进行训练。

定义模型，包括其架构和合适基础模型的选择。考虑这些模型的设计（例如基于Transformer的架构或更专业的设计）如何与推理结构和总体目标保持一致。

收集策略和价值模型的训练数据。对于策略模型，考虑使用诸如 CoT 提示之类的方案自动生成数据，并包含一个特殊的步骤结束token以确保清晰的分段。对于价值模型，通过 MCTS 完整模拟生成数据，这提供有关推理路径和结果的丰富、结构化信息。

根据需要微调模型。如果使用粗推理步骤，则对策略模型执行监督微调 (SFT)，以教它如何逐步推理。同样，将 SFT 应用于价值模型，将其初始化为可靠的评估器。

使用初始化模型运行 MCTS 以收集更多数据。过滤这些数据，只保留高质量推理路径（终端状态）或强信号（绝对高优势）以供进一步训练。

最后，通过额外的 SFT 轮次或使用强化学习方法（如PPO）训练这两个模型。这确保模型不仅针对准确性进行优化，还针对复杂推理任务所需的效率和稳健性进行优化。

本文提议的 x1，是一个可扩展且极简的框架，可以作为设计和试验 RLM 的基础，在此提供一个蓝图示例，框架的概述如图所示。

推理语言模型：蓝图

正文

请到「今天看啥」查看全文