专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
国家外汇管理局  ·  习近平对四川宜宾市筠连县山体滑坡作出重要指示 ·  昨天  
手游那点事  ·  全球手游收入Top20:《王者荣耀》空降第一 ... ·  3 天前  
手游那点事  ·  又是腾讯?一款收入超10亿美金的二游出现了 ·  3 天前  
国家外汇管理局  ·  习近平和彭丽媛为出席哈尔滨第九届亚洲冬季运动 ... ·  2 天前  
国家外汇管理局  ·  国家外汇管理局公布2025年主要统计数据发布时间表 ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

阿里提出Marco-o1:探索开放推理模型在复杂问题解决中的应用与突破

深度学习自然语言处理  · 公众号  ·  · 2024-11-22 19:51

正文

这篇论文介绍了Marco-o1模型,旨在通过结合Chain-of-Thought(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新推理策略,增强大型语言模型(LLM)在复杂现实世界问题解决任务中的推理能力。

论文 :Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
链接 :https://arxiv.org/pdf/2411.14405

研究背景

这篇文章要解决的问题是:能否将o1模型有效地推广到没有明确标准且奖励难以量化的更广泛的领域中?

该问题的 研究难点 包括:在没有明确标准和奖励的情况下,如何使模型能够泛化并解决复杂问题;如何在多语言和翻译领域中实现推理能力的提升。

相关工作 包括OpenAI的o1模型在数学、物理和编程等有标准答案的学科中的出色表现,以及Chain-of-Thought(CoT)微调、蒙特卡罗树搜索(MCTS)等技术的应用。

研究方法

这篇论文提出了Marco-o1模型。具体来说,

  • CoT微调 : 使用开源CoT数据集和自开发的合成数据进行全参数微调,以增强模型的推理能力。
  • MCTS集成 : 将LLM与MCTS集成,利用模型输出的置信度来指导搜索并扩展解空间。每个节点代表一个推理状态,可能的动作是LLM的输出,通过softmax函数计算每个token的置信度,并计算平均置信度作为整体奖励信号。
  • 推理动作策略 : 实现了不同的推理动作粒度(步骤和迷你步骤),并在MCTS框架内探索这些粒度,以提高搜索效率和准确性。
  • 反思机制 : 在每个推理过程结束后,添加反思提示,促使模型自我反思和重新评估其推理步骤,从而提高解决复杂问题的能力。

实验设计

  • 数据集 : 使用了多种数据集进行监督微调,包括过滤后的Open-O1 CoT数据集、Marco-o1 CoT数据集(合成)和Marco指令数据集。数据集样本数量分别为45,125、10,000和5,141,总计60,266个样本。
  • 模型配置 : 基于Qwen2-7B-Instruct进行微调,创建了Marco-o1-CoT模型,并在MCTS树搜索框架内进行了不同动作粒度的实验,包括步骤级动作和32/64个token的迷你步骤动作。
  • 测试 : 在MGSM数据集的英语和中文子集上测试了不同配置的模型,使用CoT提示确保推理过程的一致性。

结果与分析

  1. MGSM数据集:
  • 英语子集上,Marco-o1-CoT的准确率为85.60%,MCTS增强的模型(如Marco-o1-MCTS(step))的准确率达到了90.40%。
  • 中文子集上,Marco-o1-CoT的准确率为71.20%,MCTS增强的模型(如Marco-o1-MCTS(mini-step of 32 tokens))的准确率为82.40%。
  1. 翻译任务:






请到「今天看啥」查看全文