转发微博-20250122004343_宝玉xp的专栏文章_微信文章

转发微博-20250122004343

宝玉xp · 微博 · AI · 2025-01-22 00:43

正文

2025-01-22 00:43
本条微博链接

转发微博

#模型时代# Jim Fan：DeepSeek就是OpenAI最初的样子。

英伟达科学家刚发的一个长推，盛赞DeepSeek：
***
我们正身处这样的时间线上：一家非美国公司正在延续 OpenAI 最初的使命——真正的开源、前沿研究，惠及所有人。这听上去匪夷所思。但往往最有趣的结果才是最可能的。

DeepSeek-R1 不仅公开了一大批模型，还披露了所有训练细节。或许他们是首个在强化学习“飞轮”上实现重大且持续增长的开源项目。

产生影响的方式可以是“内部实现 ASI”或者那些带有神秘色彩的名字（例如“Project Strawberry”）。
同样也可以通过简单地泄露原始算法和 matplotlib 学习曲线来产生影响。

我正在阅读这篇论文：

完全依靠强化学习驱动，没有任何 SFT（“冷启动”）。让人联想到 AlphaZero——从零开始精通围棋、日本将棋和国际象棋，而并未先模仿人类大师的棋步。这是全文中最重要的一点。

使用基于硬编码规则计算的真实奖励，避免了任何可能被强化学习策略“破解”的学习型奖励模型。

随着训练的进行，模型的“思考时间”会稳步增加——这不是预先编程的，而是一种涌现属性！

出现了自我反思与探索行为的涌现。

使用 GRPO 而不是 PPO：它去掉了 PPO 的价值网络（critic），改为采用多次采样的平均奖励。这是一种减少内存使用的简单方法。值得注意的是，GRPO 也是 DeepSeek 在 2024 年 2 月发明的……真是支神仙团队。