专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
丁香医生  ·  想老得慢一点,劝你先把脸皮「变厚」! ·  昨天  
营养师顾中一  ·  你其实从没吃过「香芋」,不信来看! ·  2 天前  
丁香医生  ·  得了关节炎,真的是行走的「晴雨表」吗? ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

Marco-o1:面向开放端解决方案的开放推理模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-01-29 00:03

正文

24年11月来自阿里 MacroPolo 团队的论文“Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions”。

目前,OpenAI o1 引发人们对大型推理模型 (LRM) 研究的极大兴趣。在此基础上,Marco-o1 不仅专注于具有标准答案的学科,例如数学、物理和编码(这些学科非常适合强化学习 (RL)),而且还更加重视开放式解决方案。针对以下问题:“o1 模型能否有效地推广到更广泛的领域,这些领域缺乏明确的标准,并且奖励难以量化?” Marco-o1 由思维链 (CoT) 微调、蒙特卡洛树搜索 (MCTS)、反思机制和创新推理策略提供支持,针对复杂的现实世界问题解决任务进行优化。


如图所示,通过对 Qwen2-7B-Instruct [Yang et al., 2024] 进行微调,结合经过过滤的 Open-O1 CoT 数据集 [OpenO1 Team, 2024]、Marco-o1 CoT 数据集和 Marco-o1 Instruction 数据集,Marco-o1 提高其处理复杂任务的能力。MCTS 允许使用从 top-𝑘 替代 tokens 应用 softmax 的对数概率得出置信度分数,探索多条推理路径,从而引导模型找到最佳解决方案。此外,推理行动策略涉及改变步骤动作和小步骤内动作的粒度,以优化搜索效率和准确性。


添加图片注释,不超过 140 字(可选)


为了增强 Marco-o1 模型的推理能力,采用监督微调 (SFT) 策略,并使用如下各种数据集:

  1. • Open-O1 CoT 数据集(已过滤)[OpenO1 团队,2024]:通过应用启发式和质量过滤过程来改进 Open-O1 项目 CoT 数据集。这种增强使模型能够有效地采用结构化推理模式。

  2. • Marco-o1 CoT 数据集(合成):用 MCTS 生成 Marco-o1 CoT 数据集,这有助于制定复杂的推理路径,增强模型的推理能力。

  3. • Marco 指令数据集:认识到指令跟随能力在执行复杂任务中的关键作用,整合一组指令跟随数据。这种集成确保模型在广泛的任务中保持竞争力,保持其总体有效性,同时显着提升其推理能力。

将 LLM 与 MCTS 集成,增强 Marco-o1 模型的推理能力:

  1. • 节点作为推理状态:在 MCTS 框架中,每个节点代表问题解决过程的推理状态。

  2. • 操作作为 LLM 输出:节点可能的操作是 LLM 生成的输出。这些输出代表推理链中的潜步骤或小步骤。

  3. • 展开和奖励计算:在展开阶段,LLM 继续推理过程到终止状态。

  4. • 指导 MCTS:此奖励分数 𝑅 用于评估和选择 MCTS 中有希望的路径,有效地引导搜索走向更自信和更可靠的推理链。

此外,通过计算置信度分数来获得每个状态值。对于展开期间生成的每个token 𝑡/𝑖,通过将 softmax 函数应用于其对数概率和前 5 个替代 tokens 的对数概率来计算其置信度分数。

在获得展开序列中所有 token 的置信度得分后,计算所有 token 的平均置信度得分,得出总体奖励得分 v

该平均值可作为奖励信号,用于评估部署期间所采用的推理路径质量。 𝑣 值越高,表示推理路径越有信心,也越有可能准确。

通过采用这种方法,有效地扩展解决方案空间,使模型能够探索大量推理路径,并根据计算的置信度分数选择最有可能的路径。


动作选择

使用动作作为 MCTS 搜索粒度相对较粗,这通常会导致模型忽略解决复杂问题所必需的细微推理路径。为了解决这个问题,探索 MCTS 搜索中的不同粒度级别。最初,使用步骤作为搜索单位。为了进一步扩大模型的搜索空间并增强其解决问题的能力,尝试将这些步骤划分为 64 或 32 个tokens的较小单元,称为“小步骤”。这种更细的粒度允许模型更详细地探索推理路径。虽然token-级搜索在理论上提供了最大的灵活性和粒度,但由于需要大量计算资源以及在此级别设计有效奖励模型的挑战,目前不切实际。







请到「今天看啥」查看全文