马斯克说，这是他看过的对#DeepSeek#最透彻的分析～～～～-20250128014144_信号与噪声的专栏文章_微信文章

马斯克说，这是他看过的对 #DeepSeek# 最透彻的分析
～～～～～～～～～～
DeepSeek r1存在重要技术细节需要澄清。

值得注意的是地缘政治因素，该模型恰好在川普"星际之门"计划后发布并非巧合。5000亿美元市值的泡沫或将破灭。

🔥 真实情况:

1) 在应用商店相关类别下载量第一，超越ChatGPT，这是Gemini和Claude未能做到的

2) 质量与o1相当，但落后于o3

3) 算法突破带来训练和推理效率革命: FP8训练、MLA架构和多token预测技术是关键

4) 6百万美元训练成本虽属实，但具有严重误导性

5) 硬件架构创新，使用PCI-Express进行扩展

最关键的是r1的推理成本比o1低93%，这并非基于6百万美元训练成本的数字，而是实际API使用成本。r1可在高端工作站本地运行且未遇速率限制，这很惊人。简单计算显示FP8精度下每10亿活跃参数需1GB内存，因此r1需要37GB内存。批量处理可大幅降低成本，更多算力可提升token/秒，云端推理仍有优势。

🔥 技术细节:
1) 6百万美元不包含"前期架构研究、算法验证和数据实验成本"(技术文件原话)。这相当于说"只要实验室已投入数亿美元前期研究并拥有超大规模集群(DeepSeek早期论文提及10,000块A100集群)，就能用6百万复现r1"。普通团队无法仅凭2000块GPU和6百万获得相同成果

2) 大量依赖模型蒸馏技术，必须借助GPT-4o和o1才能完成训练。这暴露了美国GPU出口管制的漏洞：限制先进GPU却放任中国通过蒸馏获取顶尖模型能力，无异于自毁管制措施

🔥 结论:
1) 降低训练成本将提升AI投资回报率

2) 短期内对训练资本支出和"电力需求"主题不利

3) 最大风险在于：经蒸馏的r1可在高端工作站(如Mac Studio Pro)本地运行，预示两年内超级手机将具备同等能力。若边缘计算成为主流，将引发史上最大PC/手机升级潮，重塑行业格局

4) 人工超级智能(ASI)已近在咫尺，但其经济回报尚不明确。若耗资千亿的o5/Gemini3/Grok4能治愈癌症甚至发明曲速引擎，ASI将带来超高回报，训练支出和能耗将持续增长

5) 利好AI应用层企业：软件、互联网等

6) 提升独特数据和分发渠道价值：YouTube、Facebook等平台受益

7) 美国实验室可能停止发布尖端模型防止被蒸馏，但可能为时已晚(r1已可训练r2)

🔥 关于Grok-3的潜在影响:

作为GPT-4以来首个验证扩展定律的模型，其表现至关重要。Grok-3已展示超越o1的能力(如Tesseract演示)，其强化学习后的推理能力提升程度将决定行业走向。正如《双塔奇兵》中半兽人所言："肉或许很快会重回菜单"。最终结论将随事实演变而调整。

马斯克说，这是他看过的对#DeepSeek#最透彻的分析～～～～-20250128014144

正文

2025-01-28 01:41
本条微博链接

请到「今天看啥」查看全文