昨晚的信息流都被 DeepSeek 刷屏了
#AI创造营#
#ai#
整理了一些大佬们对 R1 论文的发现:
DeepSeek-R1开发过程中遇到的两个失败尝试,包括过程奖励模型(PRM)的尝试和蒙特卡洛树搜索(MCTS)的尝试
从 Deepseek 仍然在使用 GRPO 等 GPU 性能较差的方法推断他们可能没有很多 Hopper GPU。
Livebench 和 Aider 排行榜上的测试结果都是仅次于 O1
成本只有 O1 的三十分之一
DeepSeek-R1 在强化学习阶段没有进行任何微调,但是它学会了自己推理,论文里观察到模型自己学会了高级推理能力。
直接将强化学习(RL)应用于基础模型,而不依赖监督微调(SFT)作为初步步骤。
蒸馏技术非常重要,使用80万个由DeepSeek-R1生成的样本来微调较小的开源模型(包括Qwen和Llama系列),仅使用SFT(无RL阶段)就显著提升了这些小模型的推理能力
DeepSeek R1 671B 在 2 M2 Ultras 上运行的速度比读取速度更快,使用 mlx.distributed 和 mlx-lm,3 位量化(~4 bpw)
MatthewBerman 表示 R1 有他见过的最像人类内心独白
来源:x.com/op7418/status/1881536964916346890
整理了一些大佬们对 R1 论文的发现:
DeepSeek-R1开发过程中遇到的两个失败尝试,包括过程奖励模型(PRM)的尝试和蒙特卡洛树搜索(MCTS)的尝试
从 Deepseek 仍然在使用 GRPO 等 GPU 性能较差的方法推断他们可能没有很多 Hopper GPU。
Livebench 和 Aider 排行榜上的测试结果都是仅次于 O1
成本只有 O1 的三十分之一
DeepSeek-R1 在强化学习阶段没有进行任何微调,但是它学会了自己推理,论文里观察到模型自己学会了高级推理能力。
直接将强化学习(RL)应用于基础模型,而不依赖监督微调(SFT)作为初步步骤。
蒸馏技术非常重要,使用80万个由DeepSeek-R1生成的样本来微调较小的开源模型(包括Qwen和Llama系列),仅使用SFT(无RL阶段)就显著提升了这些小模型的推理能力
DeepSeek R1 671B 在 2 M2 Ultras 上运行的速度比读取速度更快,使用 mlx.distributed 和 mlx-lm,3 位量化(~4 bpw)
MatthewBerman 表示 R1 有他见过的最像人类内心独白
来源:x.com/op7418/status/1881536964916346890