Search-o1：智体搜索增强的大型推理模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-15 00:14

正文

25年1月来自人大和清华的论文“Search-o1: Agentic Search-Enhanced Large Reasoning Models”。

大型推理模型 (LRM) （例如 OpenAI-o1）已通过大规模强化学习展示长步推理能力。然而，它们的扩展推理过程通常会受到知识不足的影响，从而导致频繁出现不确定性和潜在错误。为了解决这一限制，引入 Search-o1，这是一个使用智体检索增强生成 (RAG) 机制和用于细化检索文档的 Reason-in-Documents 模块增强 LRM 的框架。Search-o1 将智体搜索工作流集成到推理过程中，当 LRM 遇到不确定的知识点时，可以动态检索外部知识。此外，由于检索文档的冗长性质，设计一个单独的 Reason-in-Documents 模块，在将检索的信息注入推理链之前对其进行深入分析，从而最大限度地减少噪声并保持连贯的推理流程。在科学、数学和编码领域的复杂推理任务以及六个开放域 QA 基准上进行的大量实验，证明 Search-o1 的强大性能。这种方法提高 LRM 在复杂推理任务中的可信度和适用性，为更可靠、更通用的智能系统铺平道路。

最近出现的大型推理模型 (LRM)，以 OpenAI 的 o1 [22]、Qwen-QwQ [54] 和 DeepSeek-R1 [7] 为代表，采用大规模强化学习，培养长序列逐步推理能力，为复杂推理问题提供有希望的解决方案 [46, 31, 59, 84, 73, 74, 67]。这一进步激发一系列基础性努力，旨在探索和重现 o1 类推理模式，以将其应用拓展到更广泛的基础模型 [49, 19, 77, 80, 71, 25, 45]。值得注意的是，o1 类推理模式通过隐式分解复杂问题、生成长内部推理链，然后逐步发现合适的解决方案，引导 LRM 参与较慢的思考过程 [6, 61]。虽然这一特点增强逻辑连贯性和推理的可解释性，但延长的思维链可能会导致过度思考[4]并增加知识不足的风险[60, 51, 2]，任何知识差距都可能传播错误并破坏整个推理链[79, 40, 44, 41]。

大型推理模型。大型推理模型专注于通过利用扩展的推理步骤来提高测试时的性能，这与传统的大型预训练模型形成对比，后者通过增加模型大小或扩展训练数据来实现训练期间的可扩展性 [17, 66, 50, 85, 76]。研究表明，测试-时规模化可以提高小型模型在复杂任务上的推理能力 [15, 75]。最近，OpenAI-o1 [22]、Qwen-QwQ [54] 和 DeepSeek-R1 [7] 等模型明确展示思维链推理 [59]，模仿人类在数学、编码等领域解决问题的方法。

人们探索各种方法来实现类似 o1 的推理能力。一些方法将策略和奖励模型与蒙特卡洛树搜索 (MCTS) [25] 相结合，但这并不能将推理内化在模型中。其他研究在训练期间在推理路径中加入故意的错误，以部分内化这些能力 [49, 71]。此外，研究表明，蒸馏训练数据可以增强模型的 o1 类推理能力 [45]。o1 类推理范式已在不同领域表现出色，包括视觉语言推理 [65、11、48、69]、代码生成 [81、32]、医疗保健 [3] 和机器翻译 [57]。然而，这些方法受限于对静态参数化模型的依赖，当内部知识不足时，这些模型无法利用外部世界知识。

检索增强生成。检索增强生成 (RAG) 引入检索机制来解决生成模型中静态参数的局限性，允许访问外部知识来解决更复杂的问题 [30、82、35、86]。该领域的先进研究从多个方面增强 RAG 系统，包括检索的必要性 [53]、查询的预处理 [43, 58]、检索文档压缩 [64]、去噪 [42, 12]、细化 [24, 27, 88]、指令遵循 [9, 8, 87] 等。此外，一些研究探索端到端模型训练以实现 RAG 系统 [1, 36, 33, 34] 和基于知识图谱的 RAG 系统 [14, 37]。

最近，智体 RAG 系统使模型能够根据需要自主确定何时检索哪些知识，从而展示增强的规划和解决问题的能力 [5, 56, 70]。还有研究将基于智体的系统与 MCTS 相结合，以优化复杂的工作流程，利用检索器和其他工具来完成任务 [78]。然而，现有的 RAG 方法并没有结合 o1 类模型的强大推理能力，限制了进一步提高系统解决复杂任务性能的潜力。

为了解决上面的限制，进行一些初步实验，评估由于知识差距导致 LRM 解码不确定词的频率。如图所示，扩展的思维过程导致 LRM 在具有挑战性的推理问题中频繁解码大量不确定术语，其中“也许”在每个推理过程中平均出现 30 多次。值得注意的是，这些问题的高度专业化也使手动推理验证变得复杂，往往会产生大量成本 [63]。因此，自动补充 o1 类推理过程所需的知识已成为一项重大挑战，限制 LRM 在实现普遍可信推理方面的进展。

为了阐明这个问题，本文核心动机是通过自主检索增强具有 o1 类推理模式的 LRM。Search-o1，将 LRM 的推理过程与两个核心组件集成在一起：代理检索增强生成 (RAG) 机制和知识细化模块。

考虑一个复杂的推理任务，它需要多步推理和检索外部知识来得出解决方案。目标是为每个问题 q 生成一个全面的解决方案，包括逻辑推理链 R 和最终答案 a。这项工作使推理模型能够在推理过程中利用外部知识源。具体来说，考虑问题解决过程中的三个主要输入：任务指令 I、问题 q 和外部检索文档 D。这里，I 提供推理任务的总体描述，q 是需要回答的特定复杂问题，D 包括从相关知识库动态检索的背景知识。

目标是设计一种推理机制，有效地整合 I、q 和 D，以产生连贯的推理链 R 和最终答案 a。这可以形式化为映射 (I, q, D) → (R, a)。

Search-o1 框架

Search-o1 框架通过将外部知识检索无缝集成到推理过程中，同时保持思路连贯性，解决大型推理模型 (LRM) 中知识不足的问题。如图所示，对三种方法进行比较分析：原始推理、代理检索增强生成 (RAG) 和 Search-o1 框架。

• 原始推理模式：考虑图 (a) 中的示例，其中任务涉及确定三步化学反应最终产物中的碳原子数。原始推理方法在遇到知识缺口时会失败（例如，“反式肉桂醛 transCinnamaldehyde 的结构”）。如果无法获得准确的信息，模型必须依赖假设，这可能会导致后续推理步骤中出现连锁错误。
• 代理 RAG：为了弥补推理过程中的知识空白，构建智体 RAG 机制（图 (b)），使模型能够在需要时自主检索外部知识。当出现不确定性时（例如关于化合物的结构），模型会生成有针对性的搜索查询（例如，“反式肉桂醛 transCinnamaldehyde 的结构”）。但是，直接插入检索文档（通常包含冗长且不相关的信息）可能会扰乱推理流程并损害连贯性。
• Search-o1：我Search-o1 框架（图 (c)）通过合并 Reason-in-Documents 模块扩展智体 RAG 机制。该模块将检索文档压缩为重点推理步骤，这些步骤整合外部知识，同时保持推理链的逻辑流程。它考虑当前搜索查询、检索文档和现有的推理链以生成连贯的步骤。这个迭代过程持续到得出最终答案。

智体检索增强生成机制

智体 RAG 机制是 Search-o1 框架的关键组成部分，使推理模型能够在推理过程中自主确定何时检索外部知识。该机制允许模型本身决定是否继续生成推理步骤或启动检索步骤。

在推理链 R 生成过程中，模型可能会间歇性地生成搜索查询 q_search^(i)，这些搜索查询被封装在特殊符号“”和“”之间，其中 i 表示第 i 个搜索步骤。每个搜索查询都是根据推理过程的当前状态和之前检索知识生成的。

一旦在推理序列中检测到一对新的搜索查询特殊符号，就暂停推理过程，并提取搜索查询 q_search^(i)。

随后将检索文档 D^(i) 注入到推理链 R^(i−1) 中特殊符号“”和“”之间，让推理模型利用外部知识继续推理过程。

这种智体机制使模型能够动态有效地整合外部知识，保持推理过程的连贯性和相关性，同时避免因过多或不相关的检索结果而造成信息过载。

通过文档推理进行知识细化

虽然智体 RAG 机制解决推理中的知识空白，但直接插入完整文档可能会由于篇幅长且冗余而破坏连贯性。为了克服这个问题，Search-o1 框架包含知识细化模块，该模块通过使用原始推理模型的单独生成过程，选择性地将相关且简洁的信息集成到推理链中。该模块处理检索文档以符合模型的特定推理需求，将原始信息转换为细化的相关知识，同时保持主推理链的连贯性和逻辑一致性。

提供文档推理的细化指南，指导模型根据先前的推理步骤、当前搜索查询和搜索网页内容分析检索网页。目标是提取相关且准确的信息，这些信息直接有助于推进原始问题的推理过程，确保无缝集成到现有的推理链中。

对于每个搜索步骤 i，让 R^(

然后根据此分析，生成细化知识 r_final^(i)。然后将细化知识 r_final^(i) 纳入推理链 R^(i)，使模型能够继续生成连贯的推理步骤并访问外部知识。这种细化知识集成，确保每个推理步骤都可以访问相关的外部信息，同时保持推理过程的简洁性和重点。

Search-o1：智体搜索增强的大型推理模型

正文

请到「今天看啥」查看全文