作者:老喻的
来源:孤独大脑(ID:lonelybrain)
一
一场中国技术
引发的华尔街“地震”
2025年1月27日,中国AI公司 DeepSeek 横空出世,一拳击碎了硅谷的宁静:
英伟达股价暴跌近17%,单日市值蒸发高达5888亿美元,创下美股史上单日市值蒸发新纪录。
Meta、微软、谷歌等科技巨头也随之大幅下挫,整个科技板块陷入恐慌情绪。
投资者开始质疑:硅谷过去以高算力、高成本为核心的发展路径,是否已经走到尽头?
华尔街投行花旗分析师阿提夫·马利克评论道:“DeepSeek 的成就或许极具开创性,这无疑会冲击美国公司在最先进 AI 模型方面的既有优势。”
一时之间,深度恐慌与强烈好奇并存,围绕 DeepSeek 的真实水平与成本争议不绝于耳。
在X.com上,国外网友们纷纷调侃,这帮人(DeepSeek)没有搞各种高大上的东西,也没有上播客讲哲学,就把这么牛的东西搞出来了。
华尔街的人心里有点儿紧张了:硅谷这帮家伙把钱花哪儿去了?
二
为何 DeepSeek
能掀起轩然大波?
DeepSeek 的最核心“杀手锏”,在于其颠覆性的成本与效率。
• 据官方数据,仅用 2048 块英伟达 H800 GPU 和 557.6 万美元的投入,DeepSeek 就训练出规模达 6710 亿参数的 DeepSeek-V3;
• 而市面上同等参数规模的 GPT-4 训练花费被认为高达 10 亿美元左右。
• 后续推出的 DeepSeek-R1 模型,推理成本仅为 OpenAI 最新模型(o1)的三十分之一。
这一系列数据意味着,过去在硅谷被视为“唯有斥巨资拼算力才可达顶尖”的大模型研发模式,可能并不是唯一解。
投资者猛然意识到,这种“降本增效”的技术路径或许会动摇硅谷多年构筑的 AI 护城河,引发对现有产业估值和商业逻辑的集体反思。
三
Who:神秘的东方力量
DeepSeek 的创始人梁文峰,2023 年在杭州创建公司,拥有信息与电子工程背景,同时也是支持 DeepSeek 的对冲基金创始人。
据说他曾在美国严格管控前,囤积了大量英伟达 A100 芯片,据传多达 5 万块。
对外界而言,DeepSeek 更多像是一支低调却“蓄谋已久”的团队:
• 他们在算法优化和工程实现上有深厚积累;
• 善用开源社区与前沿研究的成果,再加上大规模 GPU 资源;
• 秉持“算法+工程”双重驱动,迅速在 2024 年至 2025 年期间蹿升为全球瞩目的新锐力量。
梁文峰曾在 2024 年 7 月接受采访时说:“我们没想到定价会成为如此敏感的话题。我们只是在按自己的节奏计算成本,并以此来定价。”
这番话看似平淡,却让业界对其背后的低成本、高效率算法模型投来更多猜测和研究。
四.
让世界震惊的AI技术突破
DeepSeek 的崛起迅速成为全球关注焦点:
• BBC 报道:DeepSeek 官方 App 在数天内登顶美国应用商店下载榜,超越了 ChatGPT 等明星应用。
• 硅谷多位风投大佬将 DeepSeek 称为“AI 的斯普特尼克时刻”,意指其象征意义类似 1957 年苏联人造卫星发射对美国的冲击。
• 花旗、摩根士丹利等投行纷纷发报告指出,DeepSeek 的低成本模式,可能迫使市场重新评估 AI 芯片和大模型公司的盈利预期。
在下游行业来看,DeepSeek 的出现不仅是对芯片巨头英伟达的短期重击,也让更多创业团队看见了大模型的另一种可能:
不必堆数万块高端 GPU,也有望获得近似 GPT-4 的性能。这样的冲击力堪称“地震级”。
五
How:创新的技术路径
DeepSeek 的核心在于多项关键技术和工程策略:
1. 混合专家模型 (MoE)
将大模型拆分为多个专家模块,只在需要时激活相应模块,借助“自然负载均衡”来避免单个专家过载。大幅减少无效计算,实现高度稀疏化训练与推理。
2. 多头潜注意力 (MLA)
与传统多头注意力相比,额外引入潜向量,动态调整注意力分配,从而减少内存占用,并提升训练效率。
3. 双重流水线 (DualPipe)
把 GPU 计算和数据传输交替运行,提高资源利用率,避免 GPU 在等待数据或通信时出现空转。
4. 强化学习与监督微调相结合
在少量 SFT(监督微调)数据的基础上,多轮强化学习 (RL) 的策略让模型能自发学会复杂推理(CoT)和自我反思(reflection),最终推动模型整体质量逼近甚至超过 GPT-4 在部分领域的表现。
形象地说,硅谷的主流做法好比用 5 升排量的“大肌肉车”暴力驱动;DeepSeek 则像岛国车厂,通过涡轮增压、轻量化设计等精密工程,让 2.5 升排量跑出了 5 升排量的性能。
六
But:被高估的光环?
面对如此惊艳的数字,一些质疑声随之而起:
1. 真正的成本?
官方声称 557.6 万美元只是训练开销,但可能未包含人力、消融实验、数据清洗等隐形成本。真实总支出尚无定论。
2. 站在巨人肩膀上
DeepSeek 并非从零开始发明新技术,而是充分利用了 OpenAI、Meta 等公司在大模型领域打下的基础,然后专注“工程放大”。它的贡献更多在“从 1 到 10”的优化,而非“从 0 到 1”的颠覆。
3. 是否存在炒作?
英伟达股价的断崖式下跌,让许多人怀疑这是对冲基金与媒体的刻意配合,用“廉价大模型”来制造恐慌,从而大举做空美股科技板块。
七.
长期利好:杰文斯悖论再现
19 世纪时,杰文斯在研究蒸汽机时发现:
当效率提高、成本下降,人们反而会使用更多煤炭。
这就是所谓杰文斯悖论。
类似地,AI 成本的急剧下降,可能刺激更多企业、机构部署大模型,从而整体算力需求不降反升。
• 短期看,英伟达和部分科技股大跌,投资者恐慌;
• 长远看,随着 AI 应用扩展到更多领域,GPU 及相关算力的需求量或会爆发式增长。
“低成本” 并不意味着对硬件的永远利空;
相反,它可能正是让 AI 普及走向全行业、日常化的关键一步。
八
颠覆性影响已现
截至目前,DeepSeek 的模型已在多项标准基准测试中取得突破,更重要的是,它启示了整个行业:
• AI 初创公司 无需与大厂在硬件规模上硬碰硬,也能通过算法和工程手段绕出一条新道路;
• 下游产业 可以更快、更低门槛地享受到大模型红利;
• OpenAI、Meta 等巨头 需要重新定义竞赛策略,或转向更灵活、更轻量的技术路径来维持领先。
DeepSeek 亦证明了纯粹的结果奖励 (outcome reward RL) 就能将大模型推向接近 GPT-4 的水平,这是对“过程监督”必要性的挑战,其学术与产业价值不容小觑。
九
AI 泡沫的警钟
DeepSeek 这一事件短期内刺破了部分 AI 估值的“泡沫感”。
英伟达单日蒸发 5888 亿美元市值,Meta、微软、谷歌等科企也大幅下跌,表明市场对“烧钱堆算力、利润必然滚滚而来”的逻辑开始动摇。
硅谷数年里高举的“只要有算力就能赢”论断,正面临剧烈震荡。
美国科技行业被迫思考:
当有人找到另一条更廉价、更高效的路,还能继续依赖硬件制裁或大额融资拉开差距吗?
还是说必须在软件算法、工程调度等层面重新下功夫?
十
一朵“便宜而美丽的郁金香”?
17世纪的荷兰,郁金香球茎一度被炒至天价。传说中,某个被随意扔在地上后压坏的球茎,让投机者如梦初醒,“郁金香泡沫”自此轰然倒塌。
现如今,DeepSeek 有点儿像那朵“便宜而美丽的郁金香”,似乎正扮演类似的“泡沫刺破者”角色。
但要警惕的是,AI 并非纯粹的投机产物,其价值并不只在“炒作”与“稀缺”,而是真真切切能赋能产业、提升效率、变革社会。
所以,AI 并不是17世纪荷兰的郁金香。它的真正意义在于技术革命与产业升级,而非一时的狂热投机。
DeepSeek 确实像一朵“廉价却惊艳”的新式郁金香,引得市场震动,却也可能预示新的时代风潮:
• 若其低成本模式被进一步验证,将大幅降低 AI 入场门槛;
• 整个行业可能因这次“低成本冲击”而演化出多元化路线,更大规模的 AI 落地也将随之加速;
• 那些仍在盲目烧钱、单纯依赖算力壁垒的巨头,或将重新评估自身定位。
最终,DeepSeek 能否持续带来改变,尚需时间检验。
但毫无疑问,它让我们看到了 AI 的另一种未来:
不只有昂贵的 GPU、大规模融资才能推动变革,以巧妙的工程与算法创新,一朵“便宜而美丽”的 AI 郁金香也能在国际舞台上绽放。
这或许正是 2025 年开年以来,最值得铭记的一幕。
从技术走向现实,谁能以更合理的成本、更具创造力的思路,将 AI 力量释放到千行百业?
DeepSeek 已经给出它的答案,未来尚有更多可能,等待我们共同见证。
作者:孤独大脑(lonelybrain),可能是最烧脑的公众号。
版权声明:部分文章推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。