专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

阿里提出Marco-o1：探索开放推理模型在复杂问题解决中的应用与突破

深度学习自然语言处理 · 公众号 · · 2024-11-22 19:51

正文

这篇论文介绍了Marco-o1模型，旨在通过结合Chain-of-Thought（CoT）微调、蒙特卡罗树搜索（MCTS）、反思机制和创新推理策略，增强大型语言模型（LLM）在复杂现实世界问题解决任务中的推理能力。

论文：Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
链接：https://arxiv.org/pdf/2411.14405

这篇文章要解决的问题是：能否将o1模型有效地推广到没有明确标准且奖励难以量化的更广泛的领域中？

该问题的 研究难点 包括：在没有明确标准和奖励的情况下，如何使模型能够泛化并解决复杂问题；如何在多语言和翻译领域中实现推理能力的提升。

相关工作 包括OpenAI的o1模型在数学、物理和编程等有标准答案的学科中的出色表现，以及Chain-of-Thought（CoT）微调、蒙特卡罗树搜索（MCTS）等技术的应用。

这篇论文提出了Marco-o1模型。具体来说，

CoT微调 : 使用开源CoT数据集和自开发的合成数据进行全参数微调，以增强模型的推理能力。
MCTS集成 : 将LLM与MCTS集成，利用模型输出的置信度来指导搜索并扩展解空间。每个节点代表一个推理状态，可能的动作是LLM的输出，通过softmax函数计算每个token的置信度，并计算平均置信度作为整体奖励信号。
推理动作策略 : 实现了不同的推理动作粒度（步骤和迷你步骤），并在MCTS框架内探索这些粒度，以提高搜索效率和准确性。
反思机制 : 在每个推理过程结束后，添加反思提示，促使模型自我反思和重新评估其推理步骤，从而提高解决复杂问题的能力。

数据集 : 使用了多种数据集进行监督微调，包括过滤后的Open-O1 CoT数据集、Marco-o1 CoT数据集（合成）和Marco指令数据集。数据集样本数量分别为45,125、10,000和5,141，总计60,266个样本。
模型配置 : 基于Qwen2-7B-Instruct进行微调，创建了Marco-o1-CoT模型，并在MCTS树搜索框架内进行了不同动作粒度的实验，包括步骤级动作和32/64个token的迷你步骤动作。
测试 : 在MGSM数据集的英语和中文子集上测试了不同配置的模型，使用CoT提示确保推理过程的一致性。

英语子集上，Marco-o1-CoT的准确率为85.60%，MCTS增强的模型（如Marco-o1-MCTS(step)）的准确率达到了90.40%。
中文子集上，Marco-o1-CoT的准确率为71.20%，MCTS增强的模型（如Marco-o1-MCTS(mini-step of 32 tokens)）的准确率为82.40%。