专栏名称: 格上财富

中国专业的高端财富管理机构，专注于高净值客户服务和大类资产配置。百万精英人士都在关注，多次入选全国自媒体20强榜单。每日精选7篇文章与您分享，涵盖政经、投资、历史和生活，让您畅享思想与财富的盛宴。公司网址：www.licai.com

杰文斯悖论：DeepSEEK干掉英伟达5888亿美元

格上财富 · 公众号 · 理财 · 2025-01-28 20:51

正文

作者：老喻的

来源：孤独大脑（ID:lonelybrain）

一

一场中国技术

引发的华尔街“地震”

2025年1月27日，中国AI公司 DeepSeek 横空出世，一拳击碎了硅谷的宁静：

英伟达股价暴跌近17%，单日市值蒸发高达5888亿美元，创下美股史上单日市值蒸发新纪录。

Meta、微软、谷歌等科技巨头也随之大幅下挫，整个科技板块陷入恐慌情绪。

投资者开始质疑：硅谷过去以高算力、高成本为核心的发展路径，是否已经走到尽头？

华尔街投行花旗分析师阿提夫·马利克评论道：“DeepSeek 的成就或许极具开创性，这无疑会冲击美国公司在最先进 AI 模型方面的既有优势。”

一时之间，深度恐慌与强烈好奇并存，围绕 DeepSeek 的真实水平与成本争议不绝于耳。

在X.com上，国外网友们纷纷调侃，这帮人（DeepSeek）没有搞各种高大上的东西，也没有上播客讲哲学，就把这么牛的东西搞出来了。

华尔街的人心里有点儿紧张了：硅谷这帮家伙把钱花哪儿去了？

二

为何 DeepSeek

能掀起轩然大波？

DeepSeek 的最核心“杀手锏”，在于其颠覆性的成本与效率。

• 据官方数据，仅用 2048 块英伟达 H800 GPU 和 557.6 万美元的投入，DeepSeek 就训练出规模达 6710 亿参数的 DeepSeek-V3；

• 而市面上同等参数规模的 GPT-4 训练花费被认为高达 10 亿美元左右。

• 后续推出的 DeepSeek-R1 模型，推理成本仅为 OpenAI 最新模型（o1）的三十分之一。

这一系列数据意味着，过去在硅谷被视为“唯有斥巨资拼算力才可达顶尖”的大模型研发模式，可能并不是唯一解。

投资者猛然意识到，这种“降本增效”的技术路径或许会动摇硅谷多年构筑的 AI 护城河，引发对现有产业估值和商业逻辑的集体反思。

三

Who：神秘的东方力量

DeepSeek 的创始人梁文峰，2023 年在杭州创建公司，拥有信息与电子工程背景，同时也是支持 DeepSeek 的对冲基金创始人。

据说他曾在美国严格管控前，囤积了大量英伟达 A100 芯片，据传多达 5 万块。

对外界而言，DeepSeek 更多像是一支低调却“蓄谋已久”的团队：

• 他们在算法优化和工程实现上有深厚积累；

• 善用开源社区与前沿研究的成果，再加上大规模 GPU 资源；

• 秉持“算法+工程”双重驱动，迅速在 2024 年至 2025 年期间蹿升为全球瞩目的新锐力量。

梁文峰曾在 2024 年 7 月接受采访时说：“我们没想到定价会成为如此敏感的话题。我们只是在按自己的节奏计算成本，并以此来定价。”

这番话看似平淡，却让业界对其背后的低成本、高效率算法模型投来更多猜测和研究。

四.

让世界震惊的AI技术突破

DeepSeek 的崛起迅速成为全球关注焦点：

• BBC 报道：DeepSeek 官方 App 在数天内登顶美国应用商店下载榜，超越了 ChatGPT 等明星应用。

• 硅谷多位风投大佬将 DeepSeek 称为“AI 的斯普特尼克时刻”，意指其象征意义类似 1957 年苏联人造卫星发射对美国的冲击。

• 花旗、摩根士丹利等投行纷纷发报告指出，DeepSeek 的低成本模式，可能迫使市场重新评估 AI 芯片和大模型公司的盈利预期。

在下游行业来看，DeepSeek 的出现不仅是对芯片巨头英伟达的短期重击，也让更多创业团队看见了大模型的另一种可能：

不必堆数万块高端 GPU，也有望获得近似 GPT-4 的性能。这样的冲击力堪称“地震级”。

五

How：创新的技术路径

DeepSeek 的核心在于多项关键技术和工程策略：

1. 混合专家模型 (MoE)

将大模型拆分为多个专家模块，只在需要时激活相应模块，借助“自然负载均衡”来避免单个专家过载。大幅减少无效计算，实现高度稀疏化训练与推理。

2. 多头潜注意力 (MLA)

与传统多头注意力相比，额外引入潜向量，动态调整注意力分配，从而减少内存占用，并提升训练效率。

3. 双重流水线 (DualPipe)

把 GPU 计算和数据传输交替运行，提高资源利用率，避免 GPU 在等待数据或通信时出现空转。

4. 强化学习与监督微调相结合

在少量 SFT（监督微调）数据的基础上，多轮强化学习 (RL) 的策略让模型能自发学会复杂推理（CoT）和自我反思（reflection），最终推动模型整体质量逼近甚至超过 GPT-4 在部分领域的表现。

形象地说，硅谷的主流做法好比用 5 升排量的“大肌肉车”暴力驱动；DeepSeek 则像岛国车厂，通过涡轮增压、轻量化设计等精密工程，让 2.5 升排量跑出了 5 升排量的性能。

六

But：被高估的光环？

面对如此惊艳的数字，一些质疑声随之而起：

1. 真正的成本？

官方声称 557.6 万美元只是训练开销，但可能未包含人力、消融实验、数据清洗等隐形成本。真实总支出尚无定论。

2. 站在巨人肩膀上

DeepSeek 并非从零开始发明新技术，而是充分利用了 OpenAI、Meta 等公司在大模型领域打下的基础，然后专注“工程放大”。它的贡献更多在“从 1 到 10”的优化，而非“从 0 到 1”的颠覆。

3. 是否存在炒作？

英伟达股价的断崖式下跌，让许多人怀疑这是对冲基金与媒体的刻意配合，用“廉价大模型”来制造恐慌，从而大举做空美股科技板块。

七.

长期利好：杰文斯悖论再现

19 世纪时，杰文斯在研究蒸汽机时发现：

当效率提高、成本下降，人们反而会使用更多煤炭。

这就是所谓杰文斯悖论。

类似地，AI 成本的急剧下降，可能刺激更多企业、机构部署大模型，从而整体算力需求不降反升。

• 短期看，英伟达和部分科技股大跌，投资者恐慌；

• 长远看，随着 AI 应用扩展到更多领域，GPU 及相关算力的需求量或会爆发式增长。

“低成本” 并不意味着对硬件的永远利空；

相反，它可能正是让 AI 普及走向全行业、日常化的关键一步。

八

颠覆性影响已现

截至目前，DeepSeek 的模型已在多项标准基准测试中取得突破，更重要的是，它启示了整个行业：

• AI 初创公司无需与大厂在硬件规模上硬碰硬，也能通过算法和工程手段绕出一条新道路；

• 下游产业可以更快、更低门槛地享受到大模型红利；

• OpenAI、Meta 等巨头需要重新定义竞赛策略，或转向更灵活、更轻量的技术路径来维持领先。

DeepSeek 亦证明了纯粹的结果奖励 (outcome reward RL) 就能将大模型推向接近 GPT-4 的水平，这是对“过程监督”必要性的挑战，其学术与产业价值不容小觑。

九‍

AI 泡沫的警钟

DeepSeek 这一事件短期内刺破了部分 AI 估值的“泡沫感”。

英伟达单日蒸发 5888 亿美元市值，Meta、微软、谷歌等科企也大幅下跌，表明市场对“烧钱堆算力、利润必然滚滚而来”的逻辑开始动摇。

硅谷数年里高举的“只要有算力就能赢”论断，正面临剧烈震荡。

美国科技行业被迫思考：

当有人找到另一条更廉价、更高效的路，还能继续依赖硬件制裁或大额融资拉开差距吗？

还是说必须在软件算法、工程调度等层面重新下功夫？

十‍

一朵“便宜而美丽的郁金香”？

17世纪的荷兰，郁金香球茎一度被炒至天价。传说中，某个被随意扔在地上后压坏的球茎，让投机者如梦初醒，“郁金香泡沫”自此轰然倒塌。

现如今，DeepSeek 有点儿像那朵“便宜而美丽的郁金香”，似乎正扮演类似的“泡沫刺破者”角色。

但要警惕的是，AI 并非纯粹的投机产物，其价值并不只在“炒作”与“稀缺”，而是真真切切能赋能产业、提升效率、变革社会。

所以，AI 并不是17世纪荷兰的郁金香。它的真正意义在于技术革命与产业升级，而非一时的狂热投机。

DeepSeek 确实像一朵“廉价却惊艳”的新式郁金香，引得市场震动，却也可能预示新的时代风潮：

• 若其低成本模式被进一步验证，将大幅降低 AI 入场门槛；

• 整个行业可能因这次“低成本冲击”而演化出多元化路线，更大规模的 AI 落地也将随之加速；

• 那些仍在盲目烧钱、单纯依赖算力壁垒的巨头，或将重新评估自身定位。

最终，DeepSeek 能否持续带来改变，尚需时间检验。

但毫无疑问，它让我们看到了 AI 的另一种未来：

不只有昂贵的 GPU、大规模融资才能推动变革，以巧妙的工程与算法创新，一朵“便宜而美丽”的 AI 郁金香也能在国际舞台上绽放。

这或许正是 2025 年开年以来，最值得铭记的一幕。

从技术走向现实，谁能以更合理的成本、更具创造力的思路，将 AI 力量释放到千行百业？

DeepSeek 已经给出它的答案，未来尚有更多可能，等待我们共同见证。

作者：孤独大脑（lonelybrain），可能是最烧脑的公众号。