专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
51好读  ›  专栏  ›  AINLP

从"速答"到"深思":揭秘rStar-Math如何追平o1

AINLP  · 公众号  ·  · 2025-01-22 10:10

正文


引言

在人工智能的世界里,数学问题解决能力一直是衡量语言模型智能水平的重要指标。就像从小学算术题到高等数学,语言模型也在不断进化,挑战着越来越复杂的数学难题。然而,传统的大型语言模型(LLMs)在解决数学问题时,往往像学生考试时的"速答",快速但容易出错。为了克服这一限制,研究人员提出了一种新的方法,让模型进行更深入、更细致的思考。

在这一背景下,微软研究院的研究人员提出了一种名为rStar-Math的创新方法。这个方法就像是为小型语言模型(SLMs)开设的一门特殊的数学课程,通过独特的训练方法,让这些"小个子"模型在数学能力上变得"高人一等",甚至能够与OpenAI的o1模型一较高下。本文将为您揭示rStar-Math的秘密武器,探讨它如何通过自我进化的深度思考过程,让SLMs在各种具有挑战性的数学考试中脱颖而出,文章结构如下图所示。

rStar-Math

数据和代码后续会开源出来,目前还处于不可见状态:

rStar-Math:小模型的数学特训营

rStar-Math就是为小型语言模型(1.5B-7B参数)设计的一个"数学特训营",目标是让这些"小模型"在数学推理能力上追平甚至超越OpenAI o1这样的"大块头"。

rStar-Math的核心就像是一个高效的学习系统,包括两个关键部分:

  1. Policy SLM:这就像是模型的"大脑",负责生成数学推理步骤,相当于学生解题时的思考过程。

  2. 过程奖励模型:这相当于一个严格的数学老师,不断评估每个推理步骤的质量,给出及时反馈。

这两个部分通过一种叫做蒙特卡洛树搜索(MCTS)的方法进行深度思考,就像一个学生在解决复杂问题时,不断探索不同的思路,权衡各种可能性,最终找到最佳解决方案。

rstar-math框架

代码增强CoT:数学解题的新武器

rStar-Math的一大创新是提出了代码增强的Chain-of-Thought(CoT)数据合成方法。这就像是给学生配备了一个智能计算器,不仅能写出解题步骤,还能即时验证每一步的正确性。

具体来说,这个方法包括两个关键步骤:

  1. 代码执行验证:对于每个推理步骤,系统不仅生成自然语言描述,还同时生成对应的Python代码。只有能成功运行的代码才会被保留。这就像是学生在解题时,每一步都用计算器验证,确保不会出现错误。

  2. 大规模MCTS rollouts:系统进行大量的模拟,为每个步骤自动分配分数。这些分数反映了每个步骤对最终正确答案的贡献程度,就像是老师在批改作业时,不仅看最终答案,还会评估每一个解题步骤的重要性。

通过这种方法,rStar-Math能够生成高质量的训练数据,有效消除了错误的中间步骤,大大提高了"教学质量"。这种方法比起简单地让大模型生成答案或随机生成步骤,更能保证训练数据的可靠性和有效性。

代码增强COT示例

过程偏好模型(PPM):数学思维的评判官

rStar-Math另一个重要创新是过程偏好模型(PPM)的训练方法。传统的评分方法通常需要为每个解题步骤给出精确的分数,就像老师需要为每个学生的每个解题步骤打分一样,这在实际操作中往往非常困难。

PPM的创新之处在于:

  1. 无需精确的步骤级分数:PPM利用MCTS生成的大致分数来构建步骤级的优劣对比,而不是直接使用精确分数。

  2. 偏好对构建:对于每个步骤,选择分数最高的两个作为好例子,分数最低的两个作为反面教材。这就像老师在课堂上展示优秀答案和常见错误,让学生学会区分。

  3. 训练目标:PPM的目标是学会正确区分高质量和低质量的推理步骤,就像培养学生的数学直觉。

这种方法的优势在于,即使分数本身可能不够精确,但通常足以可靠地区分好的步骤和不好的步骤。这使得PPM能够更加有效地学习评估推理步骤的质量,比直接使用分数作为标准更加可靠和稳定。

PPM训练目标

自我进化配方:数学能力的螺旋上升

rStar-Math的第三个关键创新是设计了一个自我进化的配方,通过4轮迭代不断提升模型的能力。这个过程就像是一个学生通过反复练习和自我反思,不断提高自己的数学水平。

每一轮的自我进化包括以下步骤:

  1. 利用当前的知识解决问题,生成解题过程。
  2. 利用代码增强的CoT方法生成高质量的练习题。
  3. 使用新生成的练习题进行学习,提升能力。
  4. 挑战更难的数学问题,扩大知识范围。

通过这个循环过程,rStar-Math实现了以下进步:

  • 能够生成更高质量、更多样化的解题步骤。
  • 更准确地评估解题步骤的质量。
  • 训练数据不断扩充和优化,覆盖更广泛、更具挑战性的数学问题。

这种自我进化的方法使得rStar-Math能够持续提升其数学推理能力,最终达到甚至超越OpenAI o1的水平。

自我进化评测结果

实验结果:小模型的大突破

实验结果

研究团队在多个具有挑战性的数学考试上测试了rStar-Math的能力,包括MATH、AIME 2024、数学奥林匹克、大学数学、GSM8K和高考英语2023等。结果令人惊喜,主要发现包括:

  1. 小模型的大飞跃:rStar-Math极大地提升了所有测试的小型模型(1.5B-7B参数)的数学能力。例如,将Qwen2.5-Math-7B在MATH考试上的正确率从58.8%提升到了90.0%,这就像是一个普通学生经过特训后成为了年级第一。

  2. 与"大块头"模型一较高下:在多个测试中,rStar-Math达到或超越了OpenAI o1的表现。特别是在AIME 2024测试中,rStar-Math解决了平均53.3%(8/15)的问题,排名相当于最聪明的高中数学生前20%,这堪称是"以弱胜强"的典范。

  3. 举一反三的能力:rStar-Math在未见过的数学竞赛中也表现优异,展示了其强大的泛化能力,就像一个优秀的学生不仅能在考试中取得好成绩,还能灵活应用所学知识解决新问题。

关键发现与讨论:AI数学家的秘密武器

除了令人印象深刻的性能提升,研究团队还有一些有趣的发现和讨论:

  1. 自我反思能力:在深度思考过程中,模型展现出了自然产生的自我反思能力。例如,模型能够识别早期步骤的问题,并重新选择更有效的解题路径,这就像一个成熟的数学家在解题过程中不断自我检查和调整。
自我反思能力示例
  1. PPM的关键作用:实验表明,一旦模型达到一定的能力水平,PPM成为决定深度思考上限的关键因素。这就像是在数学学习中,掌握了基本知识后,关键是要培养正确的思维方法和判断能力。






请到「今天看啥」查看全文

推荐文章
政事儿  ·  可举报正国级、副国级的地方
7 年前