专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
黄建同学  ·  不得了了……Replit ... ·  23 小时前  
黄建同学  ·  2025 AI ... ·  昨天  
爱可可-爱生活  ·  【[70星]Extract-chat:通过聊 ... ·  3 天前  
量子位  ·  DeepSeek华为火线联手!硅基流动首发即 ... ·  4 天前  
黄建同学  ·  Y Combinator ... ·  4 天前  
51好读  ›  专栏  ›  黄建同学

终于有时间认真读一下这篇文章了,推荐↓《一场关于DeepSeek-20250131202353

黄建同学  · 微博  · AI  · 2025-01-31 20:23

正文

2025-01-31 20:23

终于有时间认真读一下这篇文章了,推荐↓

《一场关于DeepSeek的高质量闭门会:比技术更重要的是愿景 》

每个要点都值得反复品味几次,
摘录一下有意思的如下:

- DeepSeek 把所有精力都放在了一个很窄的点,把后续很多东西都放弃了,比如多模态。

- 蒸馏的坏处是模型 diversity 下降,影响模型上限,无法超越最强的模型。但短期看,蒸馏也是一条路线。

- 第一,DeepSeek 是从 base model 逼出来的,还是遵循 Scaling Law,第二,从蒸馏角度,DeepSeek 蒸馏还是先大后小,对于越做越大的闭源模型是好事,第三,对技术发展中,还没有出现反规模指标,如果出现,那对于 Scaling Law 可能是一个比较大的打击,而且开源模型的所有东西都可以在闭源模型做一遍,同时还可以降低成本,对于闭源模型也是利好。

- 开发者角度来说,Claude-3.5-Sonnet 是做了 tool use(工具使用)专门训练,对于做 agent 非常有利,但 DeepSeek 之类模型暂时没有提供,但 DeepSeek 带来的空间很大。

- 人类对智能的需求是远远被低估的,比如癌症问题、SpaceX 上的隔热材料都还没有被解决。现有的任务是自动化的问题,还有很多问题,对未来增量的爆发非常乐观,智能是不能停下来的。

- DeepSeek 的事情和算力没有太大关系,更多让美国觉得中国比较厉害,比较有效率,英伟达的软肋不在 DeepSeek,只要 AI 还在发展,英伟达就能发展,

- DeepSeek 的出圈让外界意识到了中国的 AI 很强。以前外界认为中国的 AI 进展落后美国两年,但 DeepSeek 表明其实差距在 3-9 个月,甚至某些方面更强。

一场关于DeepSeek的高质量闭门会:比技术更重要的是愿景

#ai创造营##美国打压DeepSeek的后果##deepseek#