专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
目录
相关文章推荐
上海市司法局  ·  依靠AI生成的内容,能够随心使用吗? ·  23 小时前  
阜阳新闻综合频道  ·  歌手周深,传来喜讯! ·  2 天前  
阜阳新闻综合频道  ·  歌手周深,传来喜讯! ·  2 天前  
最高人民检察院  ·  扛起“家本故里”的职责使命 ·  2 天前  
最高人民检察院  ·  第九届全国检察“三微”优秀作品展播|微电影: ... ·  3 天前  
51好读  ›  专栏  ›  歸藏的AI工具箱

昨晚的信息流都被 DeepSeek 刷屏了#AI创造营##ai#-20250121110623

歸藏的AI工具箱  · 微博  ·  · 2025-01-21 11:06

正文

2025-01-21 11:06

昨晚的信息流都被 DeepSeek 刷屏了 #AI创造营# #ai#

整理了一些大佬们对 R1 论文的发现:

DeepSeek-R1开发过程中遇到的两个失败尝试,包括过程奖励模型(PRM)的尝试和蒙特卡洛树搜索(MCTS)的尝试

从 Deepseek 仍然在使用 GRPO 等 GPU 性能较差的方法推断他们可能没有很多 Hopper GPU。

Livebench 和 Aider 排行榜上的测试结果都是仅次于 O1

成本只有 O1 的三十分之一

DeepSeek-R1 在强化学习阶段没有进行任何微调,但是它学会了自己推理,论文里观察到模型自己学会了高级推理能力。

直接将强化学习(RL)应用于基础模型,而不依赖监督微调(SFT)作为初步步骤。

蒸馏技术非常重要,使用80万个由DeepSeek-R1生成的样本来微调较小的开源模型(包括Qwen和Llama系列),仅使用SFT(无RL阶段)就显著提升了这些小模型的推理能力

DeepSeek R1 671B 在 2 M2 Ultras 上运行的速度比读取速度更快,使用 mlx.distributed 和 mlx-lm,3 位量化(~4 bpw)

MatthewBerman 表示 R1 有他见过的最像人类内心独白

来源:x.com/op7418/status/1881536964916346890






请到「今天看啥」查看全文


推荐文章
上海市司法局  ·  依靠AI生成的内容,能够随心使用吗?
23 小时前
阜阳新闻综合频道  ·  歌手周深,传来喜讯!
2 天前
阜阳新闻综合频道  ·  歌手周深,传来喜讯!
2 天前
最高人民检察院  ·  扛起“家本故里”的职责使命
2 天前
包容万象  ·  老外的情趣房间,看完惊呆了...
7 年前
最搞笑笑话王  ·  这小孩,让我笑三天!
7 年前
拆书帮  ·  免费加入21天主题拆书营
7 年前