终于有时间认真读一下这篇文章了，推荐↓《一场关于DeepSeek-20250131202353_黄建同学的专栏文章_微信文章

终于有时间认真读一下这篇文章了，推荐↓

《一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景》

每个要点都值得反复品味几次，
摘录一下有意思的如下：

- DeepSeek 把所有精力都放在了一个很窄的点，把后续很多东西都放弃了，比如多模态。

- 蒸馏的坏处是模型 diversity 下降，影响模型上限，无法超越最强的模型。但短期看，蒸馏也是一条路线。

- 第一，DeepSeek 是从 base model 逼出来的，还是遵循 Scaling Law，第二，从蒸馏角度，DeepSeek 蒸馏还是先大后小，对于越做越大的闭源模型是好事，第三，对技术发展中，还没有出现反规模指标，如果出现，那对于 Scaling Law 可能是一个比较大的打击，而且开源模型的所有东西都可以在闭源模型做一遍，同时还可以降低成本，对于闭源模型也是利好。

- 开发者角度来说，Claude-3.5-Sonnet 是做了 tool use（工具使用）专门训练，对于做 agent 非常有利，但 DeepSeek 之类模型暂时没有提供，但 DeepSeek 带来的空间很大。

- 人类对智能的需求是远远被低估的，比如癌症问题、SpaceX 上的隔热材料都还没有被解决。现有的任务是自动化的问题，还有很多问题，对未来增量的爆发非常乐观，智能是不能停下来的。

- DeepSeek 的事情和算力没有太大关系，更多让美国觉得中国比较厉害，比较有效率，英伟达的软肋不在 DeepSeek，只要 AI 还在发展，英伟达就能发展，

- DeepSeek 的出圈让外界意识到了中国的 AI 很强。以前外界认为中国的 AI 进展落后美国两年，但 DeepSeek 表明其实差距在 3-9 个月，甚至某些方面更强。

：

一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景

#ai创造营##美国打压DeepSeek的后果##deepseek#

终于有时间认真读一下这篇文章了，推荐↓《一场关于DeepSeek-20250131202353

正文

2025-01-31 20:23
本条微博链接

请到「今天看啥」查看全文