昨晚的信息流都被 DeepSeek 刷屏了#AI创造营##ai#-20250121110623_歸藏的AI工具箱的专栏文章_微信文章

昨晚的信息流都被 DeepSeek 刷屏了#AI创造营##ai#-20250121110623

歸藏的AI工具箱 · 微博 · · 2025-01-21 11:06

正文

2025-01-21 11:06
本条微博链接

昨晚的信息流都被 DeepSeek 刷屏了 #AI创造营# #ai#

整理了一些大佬们对 R1 论文的发现：

DeepSeek-R1开发过程中遇到的两个失败尝试，包括过程奖励模型(PRM)的尝试和蒙特卡洛树搜索(MCTS)的尝试

从 Deepseek 仍然在使用 GRPO 等 GPU 性能较差的方法推断他们可能没有很多 Hopper GPU。

Livebench 和 Aider 排行榜上的测试结果都是仅次于 O1

成本只有 O1 的三十分之一

DeepSeek-R1 在强化学习阶段没有进行任何微调，但是它学会了自己推理，论文里观察到模型自己学会了高级推理能力。

直接将强化学习（RL）应用于基础模型，而不依赖监督微调（SFT）作为初步步骤。

蒸馏技术非常重要，使用80万个由DeepSeek-R1生成的样本来微调较小的开源模型（包括Qwen和Llama系列），仅使用SFT（无RL阶段）就显著提升了这些小模型的推理能力

DeepSeek R1 671B 在 2 M2 Ultras 上运行的速度比读取速度更快，使用 mlx.distributed 和 mlx-lm，3 位量化（~4 bpw）

MatthewBerman 表示 R1 有他见过的最像人类内心独白

来源：x.com/op7418/status/1881536964916346890

昨晚的信息流都被 DeepSeek 刷屏了#AI创造营##ai#-20250121110623

正文

请到「今天看啥」查看全文