专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
一条漫画  ·  她给我发个呵呵...结果把我拉黑了 ·  昨天  
鼠绘情报站  ·  庵野秀明做的《高达》剧场版,国内定档了! ·  昨天  
一条漫画  ·  我女朋友是不是要有新男友了? ·  3 天前  
51好读  ›  专栏  ›  Dots机构投资者社区

如何预期DeepSeek R2

Dots机构投资者社区  · 公众号  ·  · 2025-02-26 08:15

正文

路透今晚报道了DeepSeek可能在5月前发布r2。 之前DeepSeek研究员Daya在2月初已经说过: RL还在早期,今年会看“显著进步” (significant progress)

其实在r1论文中也提到过: 由于目前RL训练数据还很少,R1的下个版本会大幅提升。

也就是 r1论文中的下图,以及论文所述:随着RL数据的增加,模型不仅解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力,比如“反思”、“探索不同方法”。这些能力不是人类设计,而是随着模型在RL环境中训练,自然涌现的。

粗浅的理解, 现在不需要算法上的巨大创新,按照目前路线+更多算力+DS如此强的infra能力,基于目前的V3基座模型,依然可以取得r2/r3。 当看到RL提升边际放缓,再基于新的基座V4,继续做RL,进一步推进推理模型提升 。也就是下面这张图:(左脚踩右脚示意图)

而参考OpenAI的路线图,o3已经决定不发布完整模型,GPT-4.5也成了最后一个独立发布的基座模型, 意味着GPT-5(混合模型)开始,越来越黑盒 。说白了,以后 无论是基座模型还是推理模型本身,都是“原料”而不是“最终产品” ,CloseAI和Anthropic一定会雪藏。







请到「今天看啥」查看全文