这篇论文介绍了Marco-o1模型,旨在通过结合Chain-of-Thought(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新推理策略,增强大型语言模型(LLM)在复杂现实世界问题解决任务中的推理能力。
论文
:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
链接
:https://arxiv.org/pdf/2411.14405
研究背景
这篇文章要解决的问题是:能否将o1模型有效地推广到没有明确标准且奖励难以量化的更广泛的领域中?
该问题的
研究难点
包括:在没有明确标准和奖励的情况下,如何使模型能够泛化并解决复杂问题;如何在多语言和翻译领域中实现推理能力的提升。
相关工作
包括OpenAI的o1模型在数学、物理和编程等有标准答案的学科中的出色表现,以及Chain-of-Thought(CoT)微调、蒙特卡罗树搜索(MCTS)等技术的应用。
研究方法
这篇论文提出了Marco-o1模型。具体来说,
-
CoT微调
: 使用开源CoT数据集和自开发的合成数据进行全参数微调,以增强模型的推理能力。
-
MCTS集成
: 将LLM与MCTS集成,利用模型输出的置信度来指导搜索并扩展解空间。每个节点代表一个推理状态,可能的动作是LLM的输出,通过softmax函数计算每个token的置信度,并计算平均置信度作为整体奖励信号。
-
推理动作策略
: 实现了不同的推理动作粒度(步骤和迷你步骤),并在MCTS框架内探索这些粒度,以提高搜索效率和准确性。
-
反思机制
: 在每个推理过程结束后,添加反思提示,促使模型自我反思和重新评估其推理步骤,从而提高解决复杂问题的能力。
实验设计
-
数据集
: 使用了多种数据集进行监督微调,包括过滤后的Open-O1 CoT数据集、Marco-o1 CoT数据集(合成)和Marco指令数据集。数据集样本数量分别为45,125、10,000和5,141,总计60,266个样本。
-
模型配置
: 基于Qwen2-7B-Instruct进行微调,创建了Marco-o1-CoT模型,并在MCTS树搜索框架内进行了不同动作粒度的实验,包括步骤级动作和32/64个token的迷你步骤动作。
-
测试
: 在MGSM数据集的英语和中文子集上测试了不同配置的模型,使用CoT提示确保推理过程的一致性。
结果与分析
-
MGSM数据集:
-
英语子集上,Marco-o1-CoT的准确率为85.60%,MCTS增强的模型(如Marco-o1-MCTS(step))的准确率达到了90.40%。
-
中文子集上,Marco-o1-CoT的准确率为71.20%,MCTS增强的模型(如Marco-o1-MCTS(mini-step of 32 tokens))的准确率为82.40%。
-
翻译任务: