如何预期DeepSeek R2

Dots机构投资者社区 · 公众号 · · 2025-02-26 08:15

正文

路透今晚报道了DeepSeek可能在5月前发布r2。之前DeepSeek研究员Daya在2月初已经说过： RL还在早期，今年会看“显著进步” （significant progress）

其实在r1论文中也提到过： 由于目前RL训练数据还很少，R1的下个版本会大幅提升。

也就是 r1论文中的下图，以及论文所述：随着RL数据的增加，模型不仅解决复杂推理任务的能力持续稳定提升，且会自然涌现出一些复杂行为能力，比如“反思”、“探索不同方法”。这些能力不是人类设计，而是随着模型在RL环境中训练，自然涌现的。

粗浅的理解， 现在不需要算法上的巨大创新，按照目前路线+更多算力+DS如此强的infra能力，基于目前的V3基座模型，依然可以取得r2/r3。 当看到RL提升边际放缓，再基于新的基座V4，继续做RL，进一步推进推理模型提升 。也就是下面这张图：（左脚踩右脚示意图）

而参考OpenAI的路线图，o3已经决定不发布完整模型，GPT-4.5也成了最后一个独立发布的基座模型， 意味着GPT-5（混合模型）开始，越来越黑盒 。说白了，以后 无论是基座模型还是推理模型本身，都是“原料”而不是“最终产品” ，CloseAI和Anthropic一定会雪藏。

推荐文章

一条漫画 · 她给我发个呵呵...结果把我拉黑了

昨天

鼠绘情报站 · 庵野秀明做的《高达》剧场版，国内定档了！

昨天

赛雷三分钟 · 黑神话实锤？真假美猴王，是孙悟空自导自演的吗？

昨天

统计微讯 · 【漫话统计】哪些是粮食？馒头、米饭还是面条？答案在这里！

2 天前

一条漫画 · 我女朋友是不是要有新男友了？

3 天前

班主任家园 · 鸡年到！这6个“鸡”的成语典故一定要告诉孩子！

8 年前

奥斯CAR · 除了4S送的礼包，你的新车还该买点啥？

7 年前

四川日报 · 重磅！成都尾号限行拟扩大至绕城内，今起征求意见！

7 年前

新身体 · 一样流汗，让你比别人练得更好！

7 年前

读史 · 中国唯一富过15代的家族，靠什么传承至今？

7 年前