专栏名称: 信号与噪声
财经观察官 互联网科技博主 应该是美股等海外投资信息最多的号了吧~当笔记本用的,看到有用的海外投资信息都往这里放~另,《信号与噪声》是一本很值得看的书啊~
目录
相关文章推荐
田俊国讲坛  ·  【3月15日】田俊国老师线下公开课《教学引导 ... ·  14 小时前  
食品论坛  ·  培训通知 | ... ·  3 天前  
田俊国讲坛  ·  田俊国:当你不害怕失去时,你才真正拥有 ·  4 天前  
田俊国讲坛  ·  【2月22-23日】心智突围工作坊第九期(北 ... ·  4 天前  
51好读  ›  专栏  ›  信号与噪声

马斯克说,这是他看过的对#DeepSeek#最透彻的分析~~~~-20250128014144

信号与噪声  · 微博  ·  · 2025-01-28 01:41

正文

2025-01-28 01:41

马斯克说,这是他看过的对 #DeepSeek# 最透彻的分析
~~~~~~~~~~
DeepSeek r1存在重要技术细节需要澄清。

值得注意的是地缘政治因素,该模型恰好在川普"星际之门"计划后发布并非巧合。5000亿美元市值的泡沫或将破灭。

🔥 真实情况:

1) 在应用商店相关类别下载量第一,超越ChatGPT,这是Gemini和Claude未能做到的

2) 质量与o1相当,但落后于o3

3) 算法突破带来训练和推理效率革命: FP8训练、MLA架构和多token预测技术是关键

4) 6百万美元训练成本虽属实,但具有严重误导性

5) 硬件架构创新,使用PCI-Express进行扩展

最关键的是r1的推理成本比o1低93%,这并非基于6百万美元训练成本的数字,而是实际API使用成本。r1可在高端工作站本地运行且未遇速率限制,这很惊人。简单计算显示FP8精度下每10亿活跃参数需1GB内存,因此r1需要37GB内存。批量处理可大幅降低成本,更多算力可提升token/秒,云端推理仍有优势。

🔥 技术细节:
1) 6百万美元不包含"前期架构研究、算法验证和数据实验成本"(技术文件原话)。这相当于说"只要实验室已投入数亿美元前期研究并拥有超大规模集群(DeepSeek早期论文提及10,000块A100集群),就能用6百万复现r1"。普通团队无法仅凭2000块GPU和6百万获得相同成果

2) 大量依赖模型蒸馏技术,必须借助GPT-4o和o1才能完成训练。这暴露了美国GPU出口管制的漏洞:限制先进GPU却放任中国通过蒸馏获取顶尖模型能力,无异于自毁管制措施

🔥 结论:
1) 降低训练成本将提升AI投资回报率

2) 短期内对训练资本支出和"电力需求"主题不利

3) 最大风险在于:经蒸馏的r1可在高端工作站(如Mac Studio Pro)本地运行,预示两年内超级手机将具备同等能力。若边缘计算成为主流,将引发史上最大PC/手机升级潮,重塑行业格局

4) 人工超级智能(ASI)已近在咫尺,但其经济回报尚不明确。若耗资千亿的o5/Gemini3/Grok4能治愈癌症甚至发明曲速引擎,ASI将带来超高回报,训练支出和能耗将持续增长

5) 利好AI应用层企业:软件、互联网等

6) 提升独特数据和分发渠道价值:YouTube、Facebook等平台受益

7) 美国实验室可能停止发布尖端模型防止被蒸馏,但可能为时已晚(r1已可训练r2)

🔥 关于Grok-3的潜在影响:

作为GPT-4以来首个验证扩展定律的模型,其表现至关重要。Grok-3已展示超越o1的能力(如Tesseract演示),其强化学习后的推理能力提升程度将决定行业走向。正如《双塔奇兵》中半兽人所言:"肉或许很快会重回菜单"。最终结论将随事实演变而调整。






请到「今天看啥」查看全文