专栏名称: 孤独大脑
关于思考的思考。
目录
相关文章推荐
学习曾国藩  ·  对付无底线的小人,用这三个方法! ·  4 天前  
孤独大脑  ·  杰文斯悖论:DeepSEEK干掉英伟达588 ... ·  2 天前  
51好读  ›  专栏  ›  孤独大脑

杰文斯悖论:DeepSEEK干掉英伟达5888亿美元

孤独大脑  · 公众号  · 学习  · 2025-01-28 07:50

正文


本文由我和ChatGPT、Claude、DeepSeek共同完成



一. 一场中国技术引发的华尔街“地震”

2025年1月27日,中国AI公司 DeepSeek 横空出世,一拳击碎了硅谷的宁静:


英伟达股价暴跌近17%,单日市值蒸发高达5888亿美元,创下美股史上单日市值蒸发新纪录。


Meta、微软、谷歌等科技巨头也随之大幅下挫,整个科技板块陷入恐慌情绪。


投资者开始质疑:硅谷过去以高算力、高成本为核心的发展路径,是否已经走到尽头?

华尔街投行花旗分析师阿提夫·马利克评论道:“DeepSeek 的成就或许极具开创性,这无疑会冲击美国公司在最先进 AI 模型方面的既有优势。” 


一时之间,深度恐慌与强烈好奇并存,围绕 DeepSeek 的真实水平与成本争议不绝于耳。


在X.com上,国外网友们纷纷调侃,这帮人(DeepSeek)没有搞各种高大上的东西,也没有上播客讲哲学,就把这么牛的东西搞出来了。


华尔街的人心里有点儿紧张了:硅谷这帮家伙把钱花哪儿去了?



二. 为何 DeepSeek 能掀起轩然大波?

DeepSeek 的最核心“杀手锏”,在于其颠覆性的成本与效率。

• 据官方数据,仅用 2048 块英伟达 H800 GPU 和 557.6 万美元的投入,DeepSeek 就训练出规模达 6710 亿参数的 DeepSeek-V3;


• 而市面上同等参数规模的 GPT-4 训练花费被认为高达 10 亿美元左右。


• 后续推出的 DeepSeek-R1 模型,推理成本仅为 OpenAI 最新模型(o1)的三十分之一。

这一系列数据意味着,过去在硅谷被视为“唯有斥巨资拼算力才可达顶尖”的大模型研发模式,可能并不是唯一解。


投资者猛然意识到,这种“降本增效”的技术路径或许会动摇硅谷多年构筑的 AI 护城河,引发对现有产业估值和商业逻辑的集体反思。



三. Who:神秘的东方力量

DeepSeek 的创始人梁文峰,2023 年在杭州创建公司,拥有信息与电子工程背景,同时也是支持 DeepSeek 的对冲基金创始人。


据说他曾在美国严格管控前,囤积了大量英伟达 A100 芯片,据传多达 5 万块。


对外界而言,DeepSeek 更多像是一支低调却“蓄谋已久”的团队:

• 他们在算法优化和工程实现上有深厚积累;


• 善用开源社区与前沿研究的成果,再加上大规模 GPU 资源;


• 秉持“算法+工程”双重驱动,迅速在 2024 年至 2025 年期间蹿升为全球瞩目的新锐力量。

梁文峰曾在 2024 年 7 月接受采访时说:“我们没想到定价会成为如此敏感的话题。我们只是在按自己的节奏计算成本,并以此来定价。” 


这番话看似平淡,却让业界对其背后的低成本、高效率算法模型投来更多猜测和研究。



四. 让世界震惊的AI技术突破

DeepSeek 的崛起迅速成为全球关注焦点:

• BBC 报道:DeepSeek 官方 App 在数天内登顶美国应用商店下载榜,超越了 ChatGPT 等明星应用。


• 硅谷多位风投大佬将 DeepSeek 称为“AI 的斯普特尼克时刻”,意指其象征意义类似 1957 年苏联人造卫星发射对美国的冲击。


• 花旗、摩根士丹利等投行纷纷发报告指出,DeepSeek 的低成本模式,可能迫使市场重新评估 AI 芯片和大模型公司的盈利预期。

在下游行业来看,DeepSeek 的出现不仅是对芯片巨头英伟达的短期重击,也让更多创业团队看见了大模型的另一种可能:


不必堆数万块高端 GPU,也有望获得近似 GPT-4 的性能。这样的冲击力堪称“地震级”。


五. How:创新的技术路径

DeepSeek 的核心在于多项关键技术和工程策略:

1. 混合专家模型 (MoE)


将大模型拆分为多个专家模块,只在需要时激活相应模块,借助“自然负载均衡”来避免单个专家过载。大幅减少无效计算,实现高度稀疏化训练与推理。


2. 多头潜注意力 (MLA)


与传统多头注意力相比,额外引入潜向量,动态调整注意力分配,从而减少内存占用,并提升训练效率。


3. 双重流水线 (DualPipe)


把 GPU 计算和数据传输交替运行,提高资源利用率,避免 GPU 在等待数据或通信时出现空转。


4. 强化学习与监督微调相结合


在少量 SFT(监督微调)数据的基础上,多轮强化学习 (RL) 的策略让模型能自发学会复杂推理(CoT)和自我反思(reflection),最终推动模型整体质量逼近甚至超过 GPT-4 在部分领域的表现。

形象地说,硅谷的主流做法好比用 5 升排量的“大肌肉车”暴力驱动;DeepSeek 则像岛国车厂,通过涡轮增压、轻量化设计等精密工程,让 2.5 升排量跑出了 5 升排量的性能。

六. But:被高估的光环?

面对如此惊艳的数字,一些质疑声随之而起:

1. 真正的成本?


官方声称 557.6 万美元只是训练开销,但可能未包含人力、消融实验、数据清洗等隐形成本。真实总支出尚无定论。


2. 站在巨人肩膀上


DeepSeek 并非从零开始发明新技术,而是充分利用了 OpenAI、Meta 等公司在大模型领域打下的基础,然后专注“工程放大”。它的贡献更多在“从 1 到 10”的优化,而非“从 0 到 1”的颠覆。


3. 是否存在炒作?


英伟达股价的断崖式下跌,让许多人怀疑这是对冲基金与媒体的刻意配合,用“廉价大模型”来制造恐慌,从而大举做空美股科技板块。


七. 长期利好:杰文斯悖论再现

19 世纪时,杰文斯在研究蒸汽机时发现:


当效率提高、成本下降,人们反而会使用更多煤炭。


这就是所谓杰文斯悖论


类似地,AI 成本的急剧下降,可能刺激更多企业、机构部署大模型,从而整体算力需求不降反升。

• 短期看,英伟达和部分科技股大跌,投资者恐慌;


• 长远看,随着 AI 应用扩展到更多领域,GPU 及相关算力的需求量或会爆发式增长。

“低成本” 并不意味着对硬件的永远利空;


相反,它可能正是让 AI 普及走向全行业、日常化的关键一步。


八. 颠覆性影响已现

截至目前,DeepSeek 的模型已在多项标准基准测试中取得突破,更重要的是,它启示了整个行业:

• AI 初创公司 无需与大厂在硬件规模上硬碰硬,也能通过算法和工程手段绕出一条新道路;


• 下游产业 可以更快、更低门槛地享受到大模型红利;


• OpenAI、Meta 等巨头 需要重新定义竞赛策略,或转向更灵活、更轻量的技术路径来维持领先。

DeepSeek 亦证明了纯粹的结果奖励 (outcome reward RL) 就能将大模型推向接近 GPT-4 的水平,这是对“过程监督”必要性的挑战,其学术与产业价值不容小觑。



九. AI 泡沫的警钟

DeepSeek 这一事件短期内刺破了部分 AI 估值的“泡沫感”。


英伟达单日蒸发 5888 亿美元市值,Meta、微软、谷歌等科企也大幅下跌,表明市场对“烧钱堆算力、利润必然滚滚而来”的逻辑开始动摇。

硅谷数年里高举的“只要有算力就能赢”论断,正面临剧烈震荡。


美国科技行业被迫思考:


当有人找到另一条更廉价、更高效的路,还能继续依赖硬件制裁或大额融资拉开差距吗?


还是说必须在软件算法、工程调度等层面重新下功夫?


十. 一朵“便宜而美丽的郁金香”?

17世纪的荷兰,郁金香球茎一度被炒至天价。传说中,某个被随意扔在地上后压坏的球茎,让投机者如梦初醒,“郁金香泡沫”自此轰然倒塌。


现如今,DeepSeek 有点儿像那朵“便宜而美丽的郁金香”,似乎正扮演类似的“泡沫刺破者”角色。


但要警惕的是,AI 并非纯粹的投机产物,其价值并不只在“炒作”与“稀缺”,而是真真切切能赋能产业、提升效率、变革社会。

所以,AI 并不是17世纪荷兰的郁金香。它的真正意义在于技术革命与产业升级,而非一时的狂热投机。


DeepSeek 确实像一朵“廉价却惊艳”的新式郁金香,引得市场震动,却也可能预示新的时代风潮:

• 若其低成本模式被进一步验证,将大幅降低 AI 入场门槛;


• 整个行业可能因这次“低成本冲击”而演化出多元化路线,更大规模的 AI 落地也将随之加速;


• 那些仍在盲目烧钱、单纯依赖算力壁垒的巨头,或将重新评估自身定位。

最终,DeepSeek 能否持续带来改变,尚需时间检验。


但毫无疑问,它让我们看到了 AI 的另一种未来:


不只有昂贵的 GPU、大规模融资才能推动变革,以巧妙的工程与算法创新,一朵“便宜而美丽”的 AI 郁金香也能在国际舞台上绽放。


这或许正是 2025 年开年以来,最值得铭记的一幕。

从技术走向现实,谁能以更合理的成本、更具创造力的思路,将 AI 力量释放到千行百业?


DeepSeek 已经给出它的答案,未来尚有更多可能,等待我们共同见证。