专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

10篇R1相关的研究全面汇总，万字思考！

Datawhale · 公众号 · · 2025-03-20 23:22

正文

Datawhale干货

作者：长琴，Datawhale成员

本文通过10篇R1相关的研究，介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。

本文中的相关阅读，可以在主页找到对应文章：

主页地址： https://yam.gift/

基本框架

首先是整体的框架，如下所示。

• Base+SFT

• R1冷启动
• LIMO (817 Data Selection)
• s1 (1000)

• Base+RL

• GRPO: R1-Zero
• GRPO: oat-zero (Base can Aha、RL enhance）
• PPO: LIMR (Data Selection)
• PPO: orz (Scaling quality, diversity)
• DPO: Online-DPO-R1 (Different RL Algo)
• DPO: LIMD (Data Selection)

• SFT+RL

• R1蒸馏
• DeepScaleR (Length Scaling)
• Self-rewarding correction (LLM can reward itself, explicit Aha)、L1（LCPO）

我将其分成3个部分，前两个部分是Base模型的基础上使用SFT或RL提升效果，最后是SFT结合RL进一步提升效果。每个部分的第一个都是R1论文中的内容，上面没有R1本身，是因为R1本身是一个比较综合的过程。

值得说明的是，关于R1相关的研究肯定不止这些，列出这些一方面是因为我自己精力有限，只仔细阅读了这些；另一方面是逐步整理的过程中感觉到框架基本趋于完善。因此，本文也算是一个阶段性整理的输出。

本文内容相对比较通俗，如果对相关内容感兴趣，可以移步到对应的解读文章。

R1论文

R1我们主要分成三块介绍：R1-Zero、R1和蒸馏，也正好对应论文中的三个部分。

R1-Zero

首先是R1-Zero。它本身过程比较简单，就是在Pretrain的基础上接RL算法，Pretrain论文用的是DeepSeek-V3-Base，RL则是GRPO。GRPO是DeepSeek在 DeepSeek-Math 引入的研究成果，它去掉了PPO的Critic模型，而是采用一组输出的统计指标（Z分数）计算Advantage，比PPO更加简单（当然，计算量可能更大，毕竟需要多个输出）。

第二个要说的是纯规则的奖励。我们知道RL一般需要一个Reward模型，常见的比如ORM、PRM等都是基于深度学习建模的，R1-Zero算是第一个把纯规则的奖励引入LLM。这想想其实还挺神奇，给定一个输入，然后一个简单的规则（R1-Zero是格式和最终答案正确），模型就会自动探索路径，直到找到最终答案。

第三个是Aha Moment，它是说模型在推理过程中会对已经生成的内容进行自我反思和验证。具体表现就是会输出类似re-check、verify、summary、suppose等词，然后当然答案得对。与这种能力相关的一个词是推理时缩放（Test-Time Scaling），又是另一个比较有意思的主题。

最后就是两个比较明显的问题：语言混合和可读性相对较差。我觉得这两个问题其实不算太大的问题，只要最后的答案正确，中间过程其实对人类是否友好并不重要。其实人工智能（AI）这个词多少也有点“拟人化”的，如果AI真的有意识，他未必愿意叫这个名字doge。这中间其实涉及到AI史中著名的IA与AI之争，我之前写过类似文章，感兴趣的读者可以一读。

不管怎么说，R1-Zero都是非常了不起的发现，它为我们打开了新的大门——RL可以与LLM如此亲密合作，这点我本人是非常振奋的。其实我在17、18年那会就像把纯规则的强化学习用在NLP上，当时做了很多尝试都没有成功。说个实际的例子，那会儿搞NLP的多少可能还会看一点语言学相关的知识（比如大家基本都知道齐夫定律），搞计算语言学也是一个方向。我们当时想做的方向是让生成的文本更加简洁（或者具备某种风格），就想把“ 最省力法则 ”（人在这个表达的时候，会尽量省力，用尽可能的简单、节省心智的词汇）作为一条规则用进去。为什么呢？就是当时观察到人类的语言都有“简化”的趋势（可阅读平克的语言本能）。但是没成功，其实还有很多类似的规则，当时除了RL方法，也用GAN做，不过并没有做出什么突破的成果。

R1

接下来是这篇论文的核心：R1。他其实是个综合过程，先搞数据，然后用这些数据SFT和对齐。简单概括如下：

• 搞数据：Pretrain+Cold-Start（SFT）+RL（提升推理能力）生成数据。
• 后训练：用生成数据和SFT监督数据微调Base（SFT）+RL（对齐）。

R1我觉得是LLM得到了再次进化，他变得更加像人。原来我们可能觉得LLM已经很聪明了，就是他能够理解你说的话、你的指令，你说的很多上下文他都能够理解，然后做出相应的回复。现在的话，他可能更进一步了，就是理解的更加好，那这个好体现在哪里，我们可以理解体现在这个“思考”的过程。

很多人现在知道这里涉及到卡尼曼《思考·快与慢》中的慢思考，即系统2思考。这本书认为大脑有快慢两种运作方式，常用的无意识的系统1依赖情感、经验和记忆快速做出判断；而有意识的系统2则通过分析来解决问题，它深思熟虑、比较慢，不容易出错。前者是人类数千万年来进化的本能，比如以前人类遇到危险了，第一反应是大家赶紧跑，而不是站在那里先思考判断一番，当然，肯定有这样的人类，只不过他们的基因没有传下来，所以人类有从众效应是很正常的。其实认知心理学领域处理《思考·快与慢》，还有很多有意思的书，比如《怪诞行为学》系列、《自私的基因》、《清醒思考的艺术》、《判断与决策心理学》、《对伪心理学说不》等等。那会儿看了很多类似的书，不过很多都还没整理出来。当时的老板也算是国内本领域比较有名的大牛了，感兴趣的读者可以搜索心智工具箱公众号进行关注。

说回R1，他的第一阶段和R1-Zero有两个区别：

• 冷启动：在RL前用少量数据SFT可以进一步提升性能。
• 奖励：引入“语言一致性”奖励。毕竟这回生成的数据是要拿来训练后面模型的。

第二个阶段其实和之前LLM的后训练比较类似，也是两个步骤：SFT和强化对齐。这一阶段用了600k的Reasoning数据（数学、代码、逻辑等）和200k的通用数据，数据都是经过第一阶段输出的答案，就是带思考过程的回复。当然，对于很简单的问题，会跳过思考过程，直接回复。

SFT就是用这800k数据进行训练，后面的对齐也是，只不过对齐时Reward信号是综合的：对于Reasoning数据，还是和R1-Zero一样，用纯规则；对通用数据则和之前的LLM一样，用偏好模型。原因是很明显的：人类的偏好是不那么容易规则化的，很多时候只是个“偏好”，没有“对错”。比如拿OpenAI提出的有帮助、真实性和无害性来说，其实很多Case都处在边界位置，即便有非常清晰的规范，也很难做到标注人员100%对齐，感兴趣的读者可以阅读 ChatGPT 标注指南：任务、数据与规范。其实从通俗的角度来看也是可以理解的，小孩子看电视总喜欢把某个人归为好人还是坏人，但成年人就知道大家无非立场不同。站在更高角度，所谓人类觉得有害的（无论是文本内容还是物种），对其他物种未必，对地球、宇宙就更加不是了。

蒸馏

这部分内容论文说的比较少，看起来不复杂，就是利用前面得到的800k数据直接在一个小模型（比如7B、32B等，Base和Instruct均可）上进行SFT。这一类的蒸馏也叫数据蒸馏，准确来说其实就是SFT，算不上“蒸馏”。一般蒸馏包括黑盒和白盒蒸馏，涉及教师和学生模型。对于前者，教师模型是黑盒，我们只能给它输入然后得到输出；对于后者，我们可以拿到模型参数，以及每次生成的过程数据和最后输出的概率分布。关于这部分内容，感兴趣的读者不妨关注 LLM Deploy 的第二章内容。

蒸馏要保证效果，最难的是对齐分布，《LLM、强化、蒸馏讨论 | Yam》一文中对此问题进行了讨论，一些观点包括：

• 让学生模型复述教师模型输出，缓解遗忘问题。就是尽量落在在学生模型的分布上，缓解静态分布采样可能造成的性能损失。
• 使用中间桥接模型加速蒸馏过程。即用一个比学生模型更大的但同系列模型进行转述，然后让学生模型对齐这个分布。
• 蒸馏过程本质就是分布对齐问题，前两种方法可能不太优雅，有更简单的蒸馏方法，比如DeepSeek的数据蒸馏。

看完R1论文，一个很重要的感受就是：好像还是要搞数据。没错，数据和算法都格外重要，数据可能更加重要。这很容易就让我们想起算法领域那句经典的：“数据决定上限，算法逼近上限”。

10篇R1相关的研究全面汇总，万字思考！

正文

基本框架

R1论文

R1-Zero

R1

蒸馏

相关研究

Base+SFT

Base+RL

请到「今天看啥」查看全文