专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  本文创新性地提出了 Tiled Flash ... ·  昨天  
爱可可-爱生活  ·  【[354星]ttt-rl:用C语言实现的强 ... ·  昨天  
机器之心  ·  Cursor重磅上线Claude ... ·  昨天  
爱可可-爱生活  ·  今晚八点!演员已就位~ ... ·  2 天前  
51好读  ›  专栏  ›  量子位

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

量子位  · 公众号  · AI  · 2025-03-20 18:56

正文

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

一个超越DeepSeek GRPO的关键RL算法 出现了!

用上该算法后,Qwen2.5-32B模型只经过RL训练,不引入蒸馏等其他技术,在AIME 2024基准上拿下50分,优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen,且DAPO使用的训练步数还减少了50%。

这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现 已开源

论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人

Qiying Yu,何许人也?

量子位搜罗网络公开资料,整理出以下信息:

禹棋赢 ,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。

我们还从知情人士处得知了禹棋赢的另一重身份——

在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中,禹棋赢是唯一的实习生。

虽然是实习生,但在这个大神云集的小组里, 禹棋赢被委以重任,直接负责RL方向的研究

凭什么?

事情要从去年夏天说起。

去年10月,他在字节第一个跑出aha moment

去年5月,字节启动「Top Seed人才计划」,最终录取多名应届和在读博士组成史无前例的AI研究团队,禹棋赢就在其中。

为期2个月的warm up landing (类似可自由探索的适应期) 后,禹棋赢锚定了自己的方向——大语言模型推理。

几乎定下方向的同时,禹棋赢就和mentor王明轩确定,要做一个聪明的强推理能力模型。

这事儿和豆包大模型主团队的项目并行推进, 主要是禹棋赢一个人在探索。

更为关键的是,看到“采样更多,弱模型准确率也可以很高”的现象后, 他坚定以及肯定要用RL来做

不久之后的9月,RL与CoT结合使逻辑准确性和泛化能力大幅提升的OpenAI-o1就出现了。

方向没错!那就“沿这条路一直往后做”。

知己知彼,百战不殆。禹棋赢开始花式拿o1跑case,比如挨个做IMO题 (其中部分题目得到答案不难,严谨的证明过程才是得分点)

不跑不要紧,一跑起来问题就暴露了。

o1能给出正确答案,但是证明过程缺乏。

基于此,禹棋赢和团队 当时就赌了一把,判断o1是纯基于outcome supervision train出来的。

于是乎,禹棋赢get了一个与当时主流思路不同的强烈技术信号:

用outcome based reward去做 RL

就这么干吧!接着就是基于字节内部小模型和内部代码库,用很少的GPU、学术界开源数据集,疯狂迭代、疯狂跑。

这一干还真给他干出东西来了——

一开始,能把小模型的数学能力提升几十分,超过内部最大、最强的模型。

后来,禹棋赢几乎每天都会发现模型涌现出一些新能力,一些此前大伙儿一直想让它有、但又可望不可即的能力。

现在,不需要构造任何东西, 只需要通过RL,模型自己就能把这些能力涌现出来,甚至涌现复杂的类o1的推理能力

以至于那段时间禹棋赢非常兴奋,每天拽着王明轩疯狂讨论到深夜。

他自己更是直接在会议室摆了张床住在公司。

虽然他和床的关系,在那1个多月里其实是这样的:半夜12点能躺下,但兴奋得根本睡不踏实,凌晨2点又爬起来写代码,可能5点多一个idea灵感乍现就又爬起来。

基本上每一夜都非常兴奋地起来好几次,就这么醒醒睡睡,也不觉得累。

此处出现了一个关键的时间节点。

“大概十月十几号,我们发现要模型输出非常复杂的数学公式时,它会说This is very difficult and seems to lead a very complicated equation. Let’s try another approach。”禹棋赢 觉得大模型这个反思过后换思维的行为很有灵性。

屏息凝神,他和王明轩盯着屏幕反复确认,最终认定——这就是他们所追求的能力的雏形!

根据截图,当时他们在文档里敲下这么一段话:

非常有意思。更加坚定地相信Outcome-based RL一定能激发出非常厉害的行为!!!

没错,DeepSeek-R1引人注目的Aha Moment (顿悟时刻) ,禹棋赢在去年10月在字节内部跑通了。

据说, 此后,禹棋赢被邀请进入LLM攻坚小组,并委以「负责RL方向」的重任

下一战,“研究清楚RL的scaling规律”

以上细节,来自最近互联网冲浪时在一个知乎话题下的意外发现。答主匿名,分享了在字节大模型团队Top Seed实习的经历,从事RL方向。

经量子位求证确认,该答主就是禹棋赢。

沿着这条脉络,我们 在互联网上搜集整理了禹棋赢的更多“战绩”

据HIT计算学部团委公众号资料,禹棋赢是哈尔滨工业大学2018级本科生。

他以材料专业入学,中途转到计算机科学与技术专业,主要研究方向为自然语言处理。

按照目前资料来看, 这应该是名天赋型选手 ——大二才开始学编程,但同年就加入了博导车万翔的科研团队。

大四时,禹棋赢在左旺孟教授团队以一作身份在ECCV上发表了一篇论文。

本科毕业后,禹棋赢直博清华,现在清华AIR博三在读。

此前,他 曾先在智源实习 ,作为核心作者产出了Emu、EVA-CLIP系列工作,跟随的mentor是曹越 (前光年之外联创)







请到「今天看啥」查看全文