25年1月来自人大和清华的论文“Search-o1: Agentic Search-Enhanced Large Reasoning Models”。
大型推理模型 (LRM)
(例如 OpenAI-o1)已通过大规模强化学习展示长步推理能力。然而,它们的扩展推理过程通常会受到知识不足的影响,从而导致频繁出现不确定性和潜在错误。为了解决这一限制,引入 Search-o1,这是一个使用智体检索增强生成 (RAG) 机制和用于细化检索文档的 Reason-in-Documents 模块增强 LRM 的框架。Search-o1 将智体搜索工作流集成到推理过程中,当 LRM 遇到不确定的知识点时,可以动态检索外部知识。此外,由于检索文档的冗长性质,设计一个单独的 Reason-in-Documents 模块,在将检索的信息注入推理链之前对其进行深入分析,从而最大限度地减少噪声并保持连贯的推理流程。在科学、数学和编码领域的复杂推理任务以及六个开放域 QA 基准上进行的大量实验,证明 Search-o1 的强大性能。这种方法提高 LRM 在复杂推理任务中的可信度和适用性,为更可靠、更通用的智能系统铺平道路。
最近出现的大型推理模型 (LRM),以 OpenAI 的 o1 [22]、Qwen-QwQ [54] 和 DeepSeek-R1 [7] 为代表,采用大规模强化学习,培养长序列逐步推理能力,为复杂推理问题提供有希望的解决方案 [46, 31, 59, 84, 73, 74, 67]。这一进步激发一系列基础性努力,旨在探索和重现 o1 类推理模式,以将其应用拓展到更广泛的基础模型 [49, 19, 77, 80, 71, 25, 45]。值得注意的是,o1 类推理模式通过隐式分解复杂问题、生成长内部推理链,然后逐步发现合适的解决方案,引导 LRM 参与较慢的思考过程 [6, 61]。虽然这一特点增强逻辑连贯性和推理的可解释性,但延长的思维链可能会导致过度思考[4]并增加知识不足的风险[60, 51, 2],任何知识差距都可能传播错误并破坏整个推理链[79, 40, 44, 41]。
大型推理模型
。大型推理模型专注于通过利用扩展的推理步骤来提高测试时的性能,这与传统的大型预训练模型形成对比,后者通过增加模型大小或扩展训练数据来实现训练期间的可扩展性 [17, 66, 50, 85, 76]。研究表明,测试-时规模化可以提高
小型模型
在复杂任务上的推理能力 [15, 75]。最近,OpenAI-o1 [22]、Qwen-QwQ [54] 和 DeepSeek-R1 [7] 等模型明确展示思维链推理 [59],模仿人类在数学、编码等领域解决问题的方法。
人们探索各种方法来实现类似 o1 的推理能力。一些方法将策略和奖励模型与蒙特卡洛树搜索 (MCTS) [25] 相结合,但这并不能将推理内化在模型中。其他研究在训练期间在推理路径中加入故意的错误,以部分内化这些能力 [49, 71]。此外,研究表明,蒸馏训练数据可以增强模型的 o1 类推理能力 [45]。o1 类推理范式已在不同领域表现出色,包括视觉语言推理 [65、11、48、69]、代码生成 [81、32]、医疗保健 [3] 和机器翻译 [57]。然而,这些方法受限于对静态参数化模型的依赖,当内部知识不足时,这些模型无法利用外部世界知识。
检索增强生成
。检索增强生成 (RAG) 引入检索机制来解决生成模型中静态参数的局限性,允许访问外部知识来解决更复杂的问题 [30、82、35、86]。该领域的先进研究从多个方面增强 RAG 系统,包括检索的必要性 [53]、查询的预处理 [43, 58]、检索文档压缩 [64]、去噪 [42, 12]、细化 [24, 27, 88]、指令遵循 [9, 8, 87] 等。此外,一些研究探索端到端模型训练以实现 RAG 系统 [1, 36, 33, 34] 和基于知识图谱的 RAG 系统 [14, 37]。
最近,智体 RAG 系统使模型能够根据需要自主确定何时检索哪些知识,从而展示增强的规划和解决问题的能力 [5, 56, 70]。还有研究将基于智体的系统与 MCTS 相结合,以优化复杂的工作流程,利用检索器和其他工具来完成任务 [78]。然而,现有的 RAG 方法并没有结合 o1 类模型的强大推理能力,限制了进一步提高系统解决复杂任务性能的潜力。
为了解决上面的限制,进行一些初步实验,评估由于知识差距导致 LRM 解码不确定词的频率。如图所示,扩展的思维过程导致 LRM 在具有挑战性的推理问题中频繁解码大量不确定术语,其中“也许”在每个推理过程中平均出现 30 多次。值得注意的是,这些问题的高度专业化也使手动推理验证变得复杂,往往会产生大量成本 [63]。因此,自动补充 o1 类推理过程所需的知识已成为一项重大挑战,限制 LRM 在实现普遍可信推理方面的进展。
为了阐明这个问题,本文核心动机是通过自主检索增强具有 o1 类推理模式的 LRM。Search-o1,将 LRM 的推理过程与两个核心组件集成在一起:代理检索增强生成 (RAG) 机制和知识细化模块。
考虑一个复杂的推理任务,它需要多步推理和检索外部知识来得出解决方案。目标是为每个问题 q 生成一个全面的解决方案,包括逻辑推理链 R 和最终答案 a。这项工作使推理模型能够在推理过程中利用外部知识源。具体来说,考虑问题解决过程中的三个主要输入:任务指令 I、问题 q 和外部检索文档 D。这里,I 提供推理任务的总体描述,q 是需要回答的特定复杂问题,D 包括从相关知识库动态检索的背景知识。
目标是设计一种推理机制,有效地整合 I、q 和 D,以产生连贯的推理链 R 和最终答案 a。这可以形式化为映射 (I, q, D) → (R, a)。
Search-o1 框架
Search-o1 框架通过将外部知识检索无缝集成到推理过程中,同时保持思路连贯性,解决大型推理模型 (LRM) 中知识不足的问题。如图所示,对三种方法进行比较分析:原始推理、代理检索增强生成 (RAG) 和 Search-o1 框架。
-
• 原始推理模式:考虑图 (a) 中的示例,其中任务涉及确定三步化学反应最终产物中的碳原子数。原始推理方法在遇到知识缺口时会失败(例如,“反式肉桂醛 transCinnamaldehyde 的结构”)。如果无法获得准确的信息,模型必须依赖假设,这可能会导致后续推理步骤中出现连锁错误。
-
• 代理 RAG:为了弥补推理过程中的知识空白,构建智体 RAG 机制(图 (b)),使模型能够在需要时自主检索外部知识。当出现不确定性时(例如关于化合物的结构),模型会生成有针对性的搜索查询(例如,“反式肉桂醛 transCinnamaldehyde 的结构”)。但是,直接插入检索文档(通常包含冗长且不相关的信息)可能会扰乱推理流程并损害连贯性。
-
• Search-o1:我Search-o1 框架(图 (c))通过合并 Reason-in-Documents 模块扩展智体 RAG 机制。该模块将检索文档压缩为重点推理步骤,这些步骤整合外部知识,同时保持推理链的逻辑流程。它考虑当前搜索查询、检索文档和现有的推理链以生成连贯的步骤。这个迭代过程持续到得出最终答案。
智体检索增强生成机制
智体 RAG 机制是 Search-o1 框架的关键组成部分,使推理模型能够在推理过程中自主确定何时检索外部知识。该机制允许模型本身决定是否继续生成推理步骤或启动检索步骤。
在推理链 R 生成过程中,模型可能会间歇性地生成搜索查询 q_search^(i),这些搜索查询被封装在特殊符号“”和“”之间,其中 i 表示第 i 个搜索步骤。每个搜索查询都是根据推理过程的当前状态和之前检索知识生成的。
一旦在推理序列中检测到一对新的搜索查询特殊符号,就暂停推理过程,并提取搜索查询 q_search^(i)。
随后将检索文档 D^(i) 注入到推理链 R^(i−1) 中特殊符号“”和“”之间,让推理模型利用外部知识继续推理过程。
这种智体机制使模型能够动态有效地整合外部知识,保持推理过程的连贯性和相关性,同时避免因过多或不相关的检索结果而造成信息过载。
通过文档推理进行知识细化
虽然智体 RAG 机制解决推理中的知识空白,但直接插入完整文档可能会由于篇幅长且冗余而破坏连贯性。为了克服这个问题,Search-o1 框架包含知识细化模块,该模块通过使用原始推理模型的单独生成过程,选择性地将相关且简洁的信息集成到推理链中。该模块处理检索文档以符合模型的特定推理需求,将原始信息转换为细化的相关知识,同时保持主推理链的连贯性和逻辑一致性。
提供文档推理的细化指南,指导模型根据先前的推理步骤、当前搜索查询和搜索网页内容分析检索网页。目标是提取相关且准确的信息,这些信息直接有助于推进原始问题的推理过程,确保无缝集成到现有的推理链中。
对于每个搜索步骤 i,让 R^(
然后根据此分析,生成细化知识 r_final^(i)。然后将细化知识 r_final^(i) 纳入推理链 R^(i),使模型能够继续生成连贯的推理步骤并访问外部知识。这种细化知识集成,确保每个推理步骤都可以访问相关的外部信息,同时保持推理过程的简洁性和重点。