专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

北大团队提出LongRePS框架：面向长上下文场景的思维链过程监督方案

PaperWeekly · 公众号 · 科研 · 2025-03-13 12:32

正文

©PaperWeekly 原创 · 作者 | 韦锡宇

单位 | 北京大学计算语言所

研究方向 | 长上下文建模

研究简介

当前大语言模型（LLMs）在处理长上下文任务时面临核心挑战：如何在超长输入中有效检索和聚合分散信息。思维链（Chain of Thought CoT）是一种常见的激发模型思考的技术，能够通过引导模型逐步推理来提升其在复杂任务中的表现，在这篇文章中我们对思维链在长下文任务中的作用进行探究。

如下图所示，我们首先验证了 CoT 在长下文中的有效性，在 32k-128k 文本中，CoT 使模型推理准确率平均提升 3.5%，且增益随文本长度增加，表明 CoT 对长上下文任务具有显著促进作用。

更进一步的，在 Musique 数据集上，同样是推理时间成本增大（test-time scaling）的操作，我们发现 CoT 带来的收益远超多数投票（Majority Voting）的收益，并且 CoT 与理论上限（Oracle）之间仍然有将近 20% 的性能差异。

受上述观察启发，为了引导模型生成高质量 CoT，并用其提升模型长下文能力，我们提出了 LongRePS（Long-context Resoning Path Supervision, LongRePS）框架，一个面向长上下文场景的思维链过程监督方案。

LongRePS 框架包含一个自采样机制，用于从模型中生成多样化的推理路径，以及一个专门为长上下文场景设计的质量评估方案。实验结果表明，LongRePS 在多个长上下文基准测试中均取得了显著的性能提升。

论文标题 ：

Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision

论文链接 ：

https://arxiv.org/pdf/2502.20790

代码链接 ：

https://github.com/lemon-prog123/LongRePS

方法描述

LongRePS 框架的核心在于如何生成和筛选高质量的推理路径。首先，我们通过自采样机制从模型中生成多样化的推理路径。

在采样过程中，模型被要求将回答分解为可验证的部分，并从长文本中提取相关信息，最终基于这些信息得出结论。为了确保推理路径的质量，我们设计了一个质量评估方案，该方案从 答案正确性 和 过程可靠性 两个维度对推理路径进行评估。

答案正确性（Answer Correctness AC）: 要求推理路径最终得出的答案与标准答案一致，简单的来说，我们从模型的输出中分离出推理路径和问题回答，并将问题回答与标准答案比较，决定是否抛弃采样样本。

过程可靠性（Process Reliability）: 则要求推理路径在逻辑上连贯、简洁且忠实于输入文本中的信息。在长上下文场景中，评估推理路径的可靠性尤其具有挑战性，因为它需要引用大量的输入文本。即使使用能够处理长输入的 llm，确保评估准确性仍然很困难，而且计算成本很高。为了解决这一难点，我们将过程可靠性分解为两个验证方面：

源文本忠实性（Source Faithfulness SF）保证了推理路径对源文本的忠实性，可以通过进行简单的字符串匹配来有效地测量。

内在一致性（Intrinsic Consistency IC）高质量的 CoT 应该表现出逻辑一致性（适当的问题分解、信息的逻辑使用和健全的推理链）、完整性（主要依赖于检索到的信息，而不是模型的内部知识），以及简洁性（避免不相关或过多的细节）。

考虑到评估这些维度的复杂性，我们采用 LLM 评分来度量。由于 LLM 只需要接受模型输出的推理路径作为打分依据，这一分解极大减少了评估方案的计算成本。

实验分析

3.1 训练过程

我们使用 LLaMA-3.1-8B 和 Qwen-2.5-7B 作为基模型，采用两阶段训练方案：先使用 300 条数据对基座模型进行指令跟随预热，在预热后模型上进行自采样，生成 3000 条推理路径，再基于筛选后的 2,100 条优质路径对预热后模型进行监督微调。所有训练流程都在 8 张 A100 上完成，训练数据来自 MuSiQue 数据集。

Baseline:

基础预训练模型（Base Model）
结果监督模型（Model with Outcome Supervision）：在预热后模型上用相同的数据进行结果监督微调。

3.2 实验结果

我们采用 F1-Score 作为性能评价指标，并选取了来自 LongBenchV1 和 LongBenchV2 的不同 QA 任务进行测试，括号内的数字显示了使用 LongRePS 后模型性能相比于结果监督的变化（绿色表示改善，红色表示退化）。

过程监督优于结果监督： 相较于结果监督的传统方法，使用过程监督的模型域内数据集上表现更佳，这一现象在 LLaMA 上尤其明显，使用 LongRePS 为 LLaMA 带来了 13.6 分的显著性能提升，这表明，过程监督能够更有效地引导模型在复杂任务中生成高质量的推理路径。