清华团队提出HiAR-ICL：基于蒙特卡洛树搜索的全新上下文学习推理范式

数据派THU · 公众号 · 大数据 · 2024-12-11 17:00

正文

本文约2700字，建议阅读9分钟




    
HiAR-ICL 通过其高级自动推理范式和 MCTS 的应用，在推理性能和计算效率上都取得了显著的成果。

结论写在前面（太长不看版）

HiAR-ICL 通过引入高级推理模式到上下文学习（In-context Learning, ICL）中，扩展了“上下文”概念，使大语言模型（LLMs）具备了真正的推理能力，而不仅仅是模仿示例。

借助蒙特卡洛树搜索（MCTS），HiAR-ICL 大幅拓展了推理空间，捕获了丰富的思维模式，进而确保了推理的广泛性与深度。该方法也可以看作是将思维模式作为先验信息融入到 MCTS 中，形成高效的树形搜索。

相比于传统方法，HiAR-ICL 不仅在复杂推理任务中表现优异，还有效减少了计算复杂度，为未来 ICL 领域及复杂推理任务的研究提供新的思路。

论文标题：

HiAR-ICL: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

论文链接：

https://arxiv.org/pdf/2411.18478

项目主页：

https://jinyangwu.github.io/hiar-icl/

HuggingFace Daily Paper：

https://huggingface.co/papers/2411.18478

一、引言

在大型语言模型（LLMs）的应用中，上下文学习（In-context Learning, ICL）常通过精心设计的提示和高质量示例来解决特定任务。然而，传统的 ICL 方法在面对复杂推理任务时往往力不从心，主要原因在于其过度依赖示例的质量，并且在处理具有挑战性的场景时往往需要人类的干预。

为了克服这些限制，论文提出了 HiAR-ICL，一种结合蒙特卡洛树搜索（MCTS）的高级自动推理方法。HiAR-ICL 将关注点从具体示例转向抽象的思维模式，扩展了上下文学习的内涵，推动了推理能力的进一步发展。

二、研究动机

本研究的动机源于传统上下文学习（ICL）方法的局限性及精确推理范式对模型潜力的释放。首先，ICL 面临的问题包括示例偏差、高昂的人工成本和泛化能力的不足。通过以下类比，可以更直观地理解这些问题：

在场景（a）中，教师仅提供逐步指导，而不解释每个步骤背后的推理过程或适当的思维模式。这导致学生（特别是参数低于100亿的小型模型）难以理解教师的意图并内化问题解决方法。

在场景（b）中，教师必须精心构建高质量的示例供学生模仿。这些示例至关重要，因为轻微的变化可能会影响模型对问题的理解。虽然这种方法有助于学生学习解决类似问题，但学生在面对与原始格式不同的新问题时往往会遇到困难。这需要教师额外干预，提供新的、相关的示例，非常耗时耗力。

相比之下，在场景（c）中，更有经验的教师可能会专注于培养通用的思维模式，而不是解决个别问题。这种方法为学生提供了强大的问题解决策略，使他们能够有效地应对新颖和复杂的挑战，即使在不熟悉的场景中也是如此。这种长远的视角使学生能够独立适应并高效解决类似问题。

其次，精确的推理范式能够激发大型语言模型（LLMs）的潜力，提升其推理能力。例如，OpenAI 的 o1 模型在解决复杂推理问题时展现出了显著的优势，进一步凸显了推理范式的重要性。链式推理（CoT）已被扩展到树形结构，以增加潜在的推理空间并提升推理精度，如 ToT、rStar 和 ReST-MCTS* 等方法。

受到这些研究的启发，论文采用了 MCTS 结构来探索更全面的推理路径，同时将已知的认知模式引入到 ICL 中，极大地减少了搜索空间的计算复杂度，同时保持了高效的推理性能。因此，论文提出的 HiAR-ICL 方法，充分平衡了推理效率和准确性。

三、HiAR-ICL方法概述

HiAR-ICL 通过引入五种原子推理动作来构建链式结构模式，这些动作模拟了类人的认知过程，如问题分解与推理反思。MCTS 被用于探索可能的推理路径并构建“思维卡片”（thought cards），这些卡片为后续推理提供指导。

此外，文章还设计了一个认知复杂度框架，能够动态匹配问题与适当的思维卡片。具体包含以下四步：

Step 1: Define Atom Reasoning Actions（原子推理动作的定义）

HiAR-ICL 首先定义了五种原子推理动作，这些动作是构建链式结构推理模式（称为“思维卡片”）的基础。这些动作包括系统分析（System Analysis, SA）、一步思考（One-Step Thought, OST）、链式思考（Chain-of-Thought, CoT）、分而治之（Divide and Conquer, DC）和自我反思与修正（Self-Reflection and Refinement, SRR）。

这些动作的设计旨在模拟人类的高阶认知行为，使得模型能够更有效地进行问题分解、逻辑推理和自我修正。

Step 2: Construct Thought Cards via MCTS（通过MCTS构建思维卡片）

利用 MCTS，HiAR-ICL 从小样本数据中探索和构建参考推理路径，形成多个思维卡片。这一过程包括选择（Selection）、扩展（Expansion）、模拟（Simulation）和反向传播（Backpropagation）四个阶段。

通过这种方式，HiAR-ICL 能够在没有外部监督的情况下，自适应地生成和优化推理路径，提高了模型的泛化能力和推理效率。

Step 3: Select Reasoning Patterns（推理模式选择）

HiAR-ICL 引入了一个认知复杂度框架，包括子问题数量、问题条件复杂度和语义相似度三个指标。基于这个框架，HiAR-ICL 能够动态匹配问题与适当的思维卡片，选择最适合目标问题认知复杂度的思维卡片作为推理模板。

Step 4: Solve and Verify（推理和验证）

在推理阶段，HiAR-ICL 利用选定的思维卡片指导推理过程，并生成候选解决方案。验证阶段则通过过程奖励模型（Process Reward Model, PRM）、输出奖励模型（Output Reward Model, ORM）和一致性检查等机制来确保推理结果的高质量和准确性。

实际上，上述推理过程也可以看作是高度优化的树搜索。通过引入先验信息--即推理模式，模型能够迅速定位树搜索结构中每一层的节点，迅速向下找到较优路径。因此，HiAR-ICL 在保证潜在答案空间基本不变的情况下，极大压缩了探索时间，提升了计算效率，实现了性能和效率的双重保证。

四、实验结果分析

HiAR-ICL 的实验结果分析显示了该方法在多个复杂推理基准上的有效性和优越性能。以下是实验结果的几个关键点：

4.1 性能提升

HiAR-ICL 在多个推理基准上取得了显著的性能提升，显著超过了现有 CoT 等方法，且针对小模型的提升效果明显。例如，Llama3-8B-Instruct 在 MATH 基准上的准确率从 17.8%（few-shot CoT）提高到使用 HiAR-ICL 的 43.2%，Qwen2-7B-Instruct 从 52.9% 提高到 63.8%，Yi-1.5-6B-Chat 从 40.5% 提高到 54.0%。