Stratechery 的这篇万字长文全面梳理了 DeepSeek 相关的核心问题,包括 V3 和 R1 的意义、对英伟达的影响、以及是否应当进行监管等关键议题。此外,文章深入探讨了 DeepSeek 高效且开源的模型对大型科技公司的影响。微软和亚马逊将因此受益,苹果将在边缘推理能力方面获利,而 Meta 则因推理成本的降低受惠。相比之下,谷歌可能因业务商品化趋势加剧及 TPU 优势减弱而面临损失。
整篇文章尊重事实,逻辑清晰,论述客观理性。我们已将其翻译,以下为全文。
最近几天,DeepSeek 可谓搅动风云、震荡乾坤。今天咱们就来系统聊聊关于这位后起之秀的一切。
围绕 DeepSeek,激起了无数关于由纯强化学习构建思维链、知识蒸馏大放异彩、低成本下打造顶尖模型的可能性以及美国芯片禁令影响的讨论。但令人意外的是,DeepSeek 的火爆也引发了更底层的广泛冲击,甚至为中美两国的科技发展格局勾勒出新的可能性。
之前有没有哪些事件能跟 DeepSeek 相提并论?
有的。2023 年 9 月,华为宣布推出搭载中芯国际制造的 7 纳米芯片的 Mate 50 Pro。关注技术资讯的朋友肯定了解,这款芯片的存在其实早有预兆:中芯国际一年之前就曾制造过一款 7 纳米芯片,而台积电也单凭 DUV(深紫外)光刻技术就实现了 7 纳米芯片量产(在后续 7 纳米迭代芯片中则首次开始使用 EUV 极紫外光刻技术)。甚至在几年之前,英特尔也实现了单凭 DUV 制造 10 纳米(对打台积电 7 纳米工艺)的芯片,只是良品率无法保证。所以综合种种过往情报,只要在良品率方面稍作放宽,中芯国际利用现有设备量产 7 纳米芯片完全在情理之中。
真正让人意外的是,美国政府方面对此做出的过度反应。芯片禁令范围开始急剧扩大,最终导致拜登政府将芯片销售转为许可制。很明显,当政者既不了解芯片生产的复杂性,也没有预料到华为 Mate 60 Pro 居然迅速实现了自主可控。这一波 DeepSeek 事件的情况也差不多,与其说是技术成就本身令人震撼,倒不如说是 DeepSeek 打破了很多人之前根深蒂固的刻板印象。
那么,DeepSeek 到底证明了什么?
这波讨论的核心,在于 R1 大模型的发布。这是一款类似于 OpenAI o1 的推理模型,但不少相关细节早在圣诞节期间发布的 V3 公告中就可见端倪,特别是在训练成本层面。而 V3 模型中的一系列突破,实际早在去年 1 月发布的 V2 模型时就已有展露。
所以说,冲突的核心在于 OpenAI 给我们塑造了错误的大模型训练认知?
这只是其二,稍后我们会聊聊 OpenAI 最大的“遗毒”所在。
那就从一切的起源说起:V2 模型是什么,又为何如此重要?
DeepSeek V2 模型引入了两大重要突破:DeepSeekMoE 与 DeepSeekMLA,这里的 MoE 是指“混合专家”。以 GPT-3.5 为例,不少大模型在训练和推理过程中都会激活整个模型;但事实证明,对于当前主题来说模型中的很多部分并非必要。因此 MoE 会将模型拆分为多个“专家”,只针对特定问题激发必要专家;GPT-4 就是一款 MoE 模型,据信共包含 16 个专家,每专家对应约 110B 参数。
DeepSeekMoE 在 V2 中的实现对这一概念做出了重要创新,包括以更细粒度方式对专业专家和通用型共享专家进行区分。更关键的是,DeepSeekMoE 还引入了训练期间的负载均衡与路由新方法;传统上,MoE 会增加训练中的通信开销以换取更高的推理效率,但 DeepSeek 的新方法也让训练效率同样更上一层楼。
DeepSeekMLA 则是个更大的突破。推理过程中最大的限制之一就是内存占用量:除了需要将模型加载到内存中,我们还需要加载整个上下文窗口。上下文窗口特别特别消耗内存,这是因为每个 token 都对应一个键及其对应值。DeepSeekMLA——也就是多头潜在注意力——能够压缩键值存储量,从而大大降低推理期间的内存占用量。
还是听得有点云里雾里……
总之只需要明确一点:这些具体技术突破直到 V3 版本开始正式成熟,增加了新的负载均衡方法(进一步降低通信开销)和训练中的多 token 预测(进一步实现训练步骤密集化,把开销压得更低),因此让 V3 的训练成本来到令人震惊的低廉水平。DeepSeek 宣称其模型训练只消耗了 278.8 万个 H800 GPU 时,以每 GPU 时 2 美元成本计算,仅仅为 557.6 万美元。
这似乎低得不可思议。
DeepSeek 在 V3 论文中明确表示,这些成本仅针对最终训练周期,不包括其他前期准备工作:
最后,我们要再次澄清 DeepSeek-V3 训练过程的经济成本。表 1 对此进行了汇总,良好的成绩来自我们高度优化算法、框架及硬件之间的协同设计。在预训练阶段,在每万亿个 token 上训练 DeepSeek V3 只需要 18 万个 H800 GPU 时,就是说在我们包含 2048 张 H800 GPU 的集群上,仅需 3.7 天。
因此,我们的预训练阶段在两个月之内顺利完成,共耗费 266.4 万个 GPU 时。再加上上下文长度扩展的 11.9 万个 GPU 时和后训练的 0.5 万个 GPU 时,DeepSeek V3 的完整训练仅耗费 278.8 万个 GPU 时。假设 H800 GPU 的租赁价格为每 GPU 时 2 美元,则我们的总训练成本仅为 557.6 万美元。请注意上述成本仅涵盖 DeepSeek V3 的正式训练阶段,不涉及与架构、算法或数据相关的先前研究与消融实验相关成本。
也就是说,单靠 557.6 万美元是不足以重现 DeepSeek 的。
还是很难相信这样的数字……
实际上,谁质疑就该由谁举证。至少在了解了 V3 架构之后,实在没理由继续怀疑。
DeepSeekMoE 的效率极其惊人:V3 拥有 671B 参数,但活跃专家中每 token 只需计算 37B 参数,相当于每 token 对应 3333 亿次浮点运算。这里还要提到另一项 DeepSeek 创新:虽然参数是以 BF16 或 FP32 的精度进行存储,但在计算时会降低至 FP8 精度;而 2048 张 H800 GPU 的算力容量为 3.97 百亿亿次,即 397 亿亿次浮点运算。同时,训练集由 14.8 万亿个 token 组成;因此计算下来,就能发现 280 万个 H800 时确实足以完成 V3 模型训练。再次强调,这只是最后一轮运行的成本、而非总成本,但数字本身是绝对合理的。
Scale AI 公司 CEO Alexandr Wang 说,DeepSeek 手里有 5 万张 H100。
我不知道他是从哪得到的消息,估计是 Dylan Patel 在 2024 年 11 月 发布的推文,其中提到 DeepSeek 拥有“超过 5 万张 Hopper GPU”。没错,H800 确实也算 Hopper GPU,只是受美国禁令限制,其内存带宽要比 H100 低得多。
而且很明显,前面提到的很多创新都是为了克服 H800 相较于 H100 内存带宽不足这一先天顽疾。另外,如果真的对前面提到的数字进行验证,大家就会发现 DeepSeek 其实还留有算力余量;这是因为 DeepSeek 专门对每张 H800 上的 20 个处理单元(总计 132 个)进行了编程,专门用于管理跨芯片通信。这在 CUDA 层面根本就做不到,所以 DeepSeek 不得不下探到 PTX,也就是英伟达 GPU 的低级指令集,类似于汇编语言。这样的优化深度堪称疯狂,也只在使用 H800 的情况下才有意义。
与此同时,DeepSeek 还要留出 GPU 资源支持模型的推理服务——这里需要的硬件量甚至要远远超过训练阶段。
那这是不是违反了芯片禁令?
完全没有,芯片禁令管控的是 H100,但 H800 除外。之前,人人都误以为训练顶尖模型必须要依托于更大的芯片间内存带宽。而 DeepSeek 针对这个方向入手,通过模型结构与基础设施优化顺利克服了难题。
再次强调,DeepSeek 在模型设计过程中做出的所有决策,都只在使用阉割版 H800 GPU 时才有意义。如果 DeepSeek 手中真的握有 H100,他们可能会使用更大的训练集群,完全没必要揪着带宽不足做这么深层的优化。
所以说,V3 是一款顶尖模型?
绝对能跟 OpenAI 的 4o 和 Anthropic 的 Sonnet-3.5 掰掰手腕,而且似乎比 Llama 家族的旗舰级模型还更胜一筹。就目前的情况看,DeepSeek 很可能对这些主流顶尖模型进行了蒸馏,利用得到的高质量 token 支持 V3 模型的训练。
蒸馏是什么?
所谓蒸馏,是一种从模型当中提取理解成果的方法。我们可以将输入发送至教师模型并记录输出,再用这些输出来训练学生模型。GPT-4 Turbo 就是用这样的方式脱胎于原版 GPT-4。对于企业来说,在自家模型上进行蒸馏难度更低,毕竟拥有完全访问权嘛。但通过别家厂商开放的 API 以相对笨拙的方式实现蒸馏也没问题,甚至单纯经由聊天客户端同样能够实现。
蒸馏显然违反了各家大模型的服务条款,但唯一的阻止方法就是封禁 IP、限制访问速率之类。而且大家心知肚明,谁家的模型训练不蒸馏别家的大模型呢?也正因为如此,才会有越来越多的模型在质量上愈发趋近 GPT-4o。这里要强调一句,我们并不确定 DeepSeek 是否蒸馏了 4o 或者 Claude,但坦率地讲,不这么做反而才是有违行业惯例。
靠蒸馏提升质量,对顶尖模型来说好像不是好事……
这事要分两面看。从积极角度出发,OpenAI、Anthropic 和谷歌几乎肯定会用蒸馏的方式来优化自家面向消费者的应用级推理模型;而从消极的一面来看,主流 AI 大厂承担了训练前沿技术的全部成本,其他人则可以直接搭便车。
事实上,这可能也是微软和 OpenAI 关系愈发疏离的核心经济因素。微软希望为自家客户提供推理服务,但对资助 1000 亿美元的数据中心来训练顶尖模型却热情不高,毕竟由此带来的技术优势维持不了多久就会被他人“抄去”,大大贬损千亿投入的真实回报。
就是因为这点,各大科技巨头的股价才会应声狂跌吗?
从长远来看,DeepSeek 用实力证明的模型商品化与低成本推理,对科技巨头其实是件好事。如果微软真能以极低的成本为客户提供推理任务,那就能大大减少在数据中心和 GPU 层面的支出;换个角度讲,随着推理成本的降低,受众群体也将迅速扩张。另一位大赢家则是亚马逊:总的来讲,亚马逊云科技并没能打造出自家的专属高质量模型;但如果有顶尖开源模型以远低于预期的成本过来支援,那么直接贯彻拿来主义就好。
苹果同样可以从中获利。推理对于内存容量需求的大幅降低,使得边缘推理用例更具可行性,而苹果拥有着市面上最好的终端硬件。Apple Silicon 使用统一内存,意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享内存池,因此苹果的高端硬件平台实际上拥有着最强大的消费级推理芯片(英伟达游戏 GPU 的最大显存为 32 GB,而苹果芯片则高达 192 GB)。
但要说获益最大的,还得是 Meta。AI 的发展对于 Meta 旗下的各条业务线都有积极的推进什么作用,而实现这一愿景的核心障碍就是推理成本。也就是说,要想继续保持领先地位,Meta 必须找到大幅降低训练、特别是推理成本的可行路径。而 DeepSeek 的成果,证明这条路径真实存在。
另一方面,谷歌的情况可能比较被动。硬件要求的降低削弱了谷歌从自家 TPU 中获取的相对优势。更重要的是,零成本推理的新时代也让更多产品有望取代谷歌搜索。当然,谷歌自己的推理成本也会随之降低,所以是忧是喜仍在未定之天。
别跑题哦,之前问提各大巨头为什么股价下跌,但你却忙着憧憬未来!
我讲的是长期影响,而当前的种种波动只是暂时变化,顶多算 R1 发布掀起的点点涟漪。
终于说到 R1 了,具体聊聊吧。
R1 是类似于 OpenAI o1 那样的推理模型。它能够深入思考问题并产生更高质量的结果,特别是在编码、数学和逻辑等领域。
那 R1 要比 V3 更强、更让人眼前一亮吗?
前面之所以一直在讨论 V3,是因为当前很多讨论和争议的根源都来自于它。而 R1 之所以引人注目,则是因为在它前面市面上就只有 o1 这棵推理独苗,也是 OpenAI 维持其市场领导者地位的典型标志。
R1 在好几个重要方面都打破了 o1 的神话。首先,它确实存在,证明 OpenAI 并没有什么无法为他人掌握的魔力。其次,R1 与 DeepSeek 家的其他模型一样,都对外开放权重(之所以对其「开源」身份有争议,主要是集中在未开放训练数据上)。就是说大家无需向 OpenAI 付费,也能在自己的服务器甚至本地设备上运行 R1,大大降低推理成本。
DeepSeek 是怎么开发出 R1 的?
DeepSeek 实际上开发了两款模型:R1 和 R1-Zero。我个人觉得 R1-Zero 其实更重要,下面援引 DeepSeek 的论文:
在本文中,我们迈出了使用纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索大语言模型在不借助任何监督数据的情况下,发展出推理能力的潜在可能性,且重点关注大模型通过纯强化学习过程的自我进化。具体来讲,我们使用 DeepSeek-V3-Base 作为基础模型,并使用 GRPO 作为强化学习模型以提高模型在推理方面的性能。
在训练过程中,DeepSeek-R1-Zero 自然而然地展现出诸多强大且有趣的推理行为。经过数千个强化学习步骤之后,DeepSeek-R1-Zero 在推理基准测试上表现出超强的性能。例如,其 AIME 2024 的 pass@1 得分从 15.6% 提升至 71.0%;在配合多数投票法之后,其得分进一步提升至 86.7%,与 OpenAI-o1-0912 的表现相当。
强化学习是一种技术手段,强调为机器学习模型设置大量数据与奖励函数。经典的例子就是 AlphaGo,DeepMind 为该模型输入了围棋规则,并以刻比赛作为奖励函数,而后放手让模型自主解决其他所有问题。众所周知,这种方法比其他强调人为介入的技术效果更好。
但迄今为止,大语言模型一直依赖于带有人类反馈的强化学习(RLHF)——即人类参与其中、帮助指导模型,在奖励不明显的情况下引导其做出艰难选择。RLHF 正是 GPT-3 跃升为 ChatGPT 的关键创新方法,将原本呓语梦话般的输出转化为格式良好、简洁清晰的段落。
然而,R1-Zero 放弃了人类反馈的部分,纯粹采用强化学习。DeepSeek 为该模型提供一组数学、编码和逻辑问题,并设置了两个奖励函数:其一用于奖励正确答案,其二用于奖励思考过程中的正确格式。此外,这项技术本身还非常简单:DeepSeek 并不会逐步评估(过程监督)或者搜索所有潜在答案(AlphaGo 就属于这一类),而是鼓励模型一次尝试多个不同答案,再根据两条奖励函数对其进行评分。
一款能够自主开发推理与思维链的模型就此诞生,DeepSeek 甚至在其中观察到了“顿悟时刻”:
在 DeepSeek-R1-Zero 训练期间,我们观察到了一种特别有趣的现象,即“顿悟时刻”。如表 3 所示,顿悟时刻出现在模型的中间版本。在此阶段,DeepSeek-R1-Zero 通过重新评估其初始方法学会了为问题分配更多思考时间。这种行为不仅证明模型的推理能力在不断增强,同时也有力展现出强化学习产出预料之外的复杂结果的可能性。
这代表的不仅是模型自身的“顿悟时刻”,更是观察其行为的研究人员们的“顿悟时刻”。这一瞬间,强化学习的魅力与潜能得到充分体现:我们无需明确指导模型如何解决问题,而只需为其提供正确激励,它就会自主探索出高级问题的解决策略。“顿悟时刻”再次明确提醒我们,强化学习完全有可能在 AI 系统中启发出新的智能水平,为未来自主程度更高、适应性更强模型的诞生铺平道路。
这也是自生成式 AI 浪潮兴起以来,我们学到的最重要的一课:不需要教 AI 如何推理,只需提供充足的计算和数据资源,它自己就能掌握!
更准确地讲,R1-Zero 表现出了类似于推理的能力,只是具体方式无法为人类所理解。让我们回到论文:
然而,DeepSeek-R1-Zero 也遇到了可读性、语言杂糅等挑战。为了解决这些问题并进一步提高推理性能,我们发布了 DeepSeek-R1,强调将少量冷启动数据与多阶段训练管线结合起来。
具体来讲,我们首先收集了数千条冷启动数据来微调 DeepSeek-V3-Base 模型。之后,我们执行面向推理的强化学习,例如 DeepSeek-R1-Zero。在强化学习接近收敛之后,我们通过对检查点进行拒绝采样以创建新的 SFT 数据,同时辅以 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,借此重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调之后,检查点经历了额外的强化学习过程,充分考虑到各类提示词应用场景。完成这些步骤之后,我们获得了名为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 基本相当。
这似乎跟 OpenAI 当初开发 o1 的流程颇为相似:DeepSeek 从大量思维链示例出发以建立模型,确保其能够学习适合人类使用的格式,而后进行强化学习以增强其推理能力,再辅以一系列编辑与细化步骤。最终得到的,就是一款在能力上几乎与 o1 不相上下的强大推理模型。
这再次表明 DeepSeek 从蒸馏当中获益良多,R1 的训练过程和诞生几乎就是标准的蒸馏模板。这本身就是一种重要收获:现在 AI 模型能够教导 AI 模型,就如同上一次工业革命期间机器能够制造出更强的机器。
那我们是不是离通用人工智能(AGI)越来越近了?
看起来确实如此。这也解释了为什么软银集团愿意为 OpenAI 提供资金,但微软不愿意。历史的转折点似乎越来越近,而谁能率先冲线,谁就能获得难以想象的回报。
但现在不是 R1 略占优势吗?
这倒不一定,我觉得人们对 R1 的表现有点言过其实。R1 确实能跟 o1 比划比划,但其功能中仍存在不少缺陷,似乎也证明了它就是从 o1-Pro 中蒸馏而来。与此同时,OpenAI 那边又公布了 o3,一款更加强大的推理模型。DeepSeek 在效率方面确实是最强王者,但距离绝对领先还有很长的路要走。
既然如此,为什么人们一幅惊惶失措的样子?
我觉得这背后有很复杂的原因。首先,人们之前一直觉得中国在软件方面落后于美国,而这次在前沿 AI 领域迎头赶上不啻于一记当头棒喝。事实上,中国其实拥有极其成熟的软件开发行业,而且在 AI 模型构建方面也一直表现出色。
其次就是 V3 的低训练成本和 DeepSeek 低推理成本让人意外。这对我个人来讲也是份巨大的惊喜,但数字本身又合情合理。消息一出,大家对于英伟达稳固的江湖地位产生了怀疑,怀疑情绪又进一步引起了市场震荡。
第三,尽管芯片禁令看似狠辣,但仍挡不住 DeepSeek 迈向成功的脚步。虽然众说纷纭,但我个人认为 DeepSeek 很可能就是依靠合法进口的芯片达成了这个目标。
那买了英伟达股票的朋友应该害怕吗?
不好说,但 DeepSeek 的成功确实对英伟达造成了双重冲击。目前,英伟达想要维持其天价市值,依靠的是两大护城河:CUDA 是所有大语言模型开发者的首选语言,而 CUDA 仅适用于英伟达芯片。英伟达在将多块芯片组合成大型虚拟 GPU 的能力方面,拥有着巨大的领先优势。
这两条护城河相互缠绕,共同构成了坚固的防御工事。前面也提到过,如果 DeepSeek 能够用上 H100,就可以构建更大的集群来训练自己的模型,而这也是更简单、更符合逻辑的直观选择。但他们用不上,对中国合法出口的 H800 GPU 带宽受限,因此 DeepSeek 被迫在模型架构和训练基础设施方面做出一系列深层优化。至于美国这边的实验室,因为英伟达一直在发布更强大的 GPU 系统来满足需求,所以他们根本不需要花太多时间考虑优化。就是说,最省时省力的办法就是向英伟达付费。然而,DeepSeek 刚刚证明了另一条技术路线的可行性:在较弱的硬件和较低的内存带宽之下,深度优化完全可以产生显著效果。换言之,纯粹砸钱采购英伟达顶尖硬件并不是开发高质量大模型的唯一方法。
需要强调的是,有三大因素仍然牢牢支撑着英伟达的业务体系。首先,如果把 DeepSeek 的方法应用在 H100 或者即将推出的 GB100 上,其能力会提升到何种程度?有人找到了更高效的计算方式,并不代表多堆算力就没用了。其次,从长远来看,更低的推理成本应该会拉动更高的普及率。微软公司 CEO Satya Nadella 还专门深夜发布推文做出说明:
杰文斯悖论又来了!随着 AI 技术越来越高效和普及,我们将见证其使用量猛增,成为一种供永远不足以应求的商品。
第三,像 R1 和 o1 这样的推理模型,原则上仍然是在用更多算力来换取更强的性能。AI 靠更多计算资源实现自身提升的发展本质并没有变化,所以英伟达仍然可以从中受益!
但必须承认,坏消息也是有的。至少在短期之内,DeepSeek 那强大的效率和广泛普及可能会让人们对英伟达之前过度乐观的发展叙事产生怀疑。模型和基础设施优化的回报也表明,探索替代性推理实现方法可以带来显著回报。例如,在独立 AMD GPU 上运行推理可能更为合理,这就回避了 AMD 阵营相对较差的芯片间通信能力。此外,推理模型在英伟达之外的专用型推理芯片上,也将拥有更好的效益表现。
简而言之,英伟达的优势地位不会动摇;只能说市场反应是非更改的,英伟达股价震荡体现的更多是新增变量带来的不确定性,并且在人群之间不断被传播和放大。
那么,芯片禁令还有用吗?
简单来讲,考虑到美国在软件领域的领先地位正迅速消失,芯片禁令的重要性只会更加突出。软件和专有技术无法被禁运,但拥有物理实体的芯片可以,美国有充分的理由不允许其进入中国。与此同时,我们也应当客观承认,此前的芯片禁令似乎反而导致了 DeepSeek 的深度创新。此外,这些创新不仅会渗透至经由走私渠道外流的英伟达芯片或者阉割版芯片(如 H800),还会延伸至华为的 Ascend 昇腾芯片。更粗暴地讲,如今英伟达股价暴跌的起点,就在于当初的芯片禁令。
更令人担心的还有芯片禁令背后的畸形心态:美国不再通过鼓励创新来参与国际竞争,而是通过否定创新来维持领先地位。没错,这在短期之内可能有所帮助——毕竟如果算力更强,那么 DeepSeek 的表现没准会更好——但从长远来看,这也为美国占据主导地位的芯片和半导体行业的整体衰落埋下了祸根。
就像现在的 AI 模型?
AI 模型确实是个典型案例。文章开头,我就提到后面会具体讲讲 OpenAI 的最大“遗毒”,这就是拜登于 2023 年签发的 AI 行政命令。我曾经评论称:
重点在于:如果接受了靠监管手段帮助领先者继续保持领先这个逻辑,大家就能很快意识到,天天在政府层面鼓吹 AI 威胁论的反而就是那帮在 AI 领域占据了优势的早期赢家。虽然他们的担忧还不足以阻止整个行业的发展,但从收效来看,这首先表明他们都是负责任的从业者、是那种关注公益并愿意呼吁监管的好人;其次,如果能够借此机会顺便打压一下那帮潜在竞争对手,那就更好了。
没错,这里说的就是 OpenAI,当然也适用于旧金山周边的广泛 AI 社区。多年以来,正是这帮致力于构建并控制 AI 的家伙们天天大呼小叫,强调自己担心 AI 的潜在威胁。正是出于对这些所谓“危险”的考虑,他们才在 2019 年发布 GPT-2 时让 OpenAI 成了“CloseAI”:
由于担心大语言模型会被用于大规模生成欺骗性、偏见性或者辱骂性语言,我们只发布了较小版本的 GPT-2 及部分采样代码。我们不会发岂有此理数据集、训练代码或者 GPT0-2 模型权重……这是为了避免某些研究人员重现并开源我们的成果。我们希望用这样的发布策略限制重现和开源速度,让整个 AI 社区有更多时间认真讨论此类系统可能造成的影响。我们还认为,政府应当考虑扩大或启动一些计划,以更系统的方式监控 AI 技术的社会影响和传播,并衡量此类系统的能力进展。如果继续实施,这些努力可以为 AI 实验室和政府在发布决策并围绕 AI 制定广泛指导时提供更好的证据基础。
看看,多么傲慢、狂妄而且无知:短短六年之后,世界上就出现了人人可用而且效率明显更高的模型。OpenAI 这套经由美国政府强制执行的控制策略已经彻底失败。与此同时,由于顶尖模型拒绝开放权重,有多少创新不得不中道崩殂?总而言之,我们都知道大厂们花了无数时间和精力去游说政府为其建立强制性的政策护城河,而 DeepSeek 的出现瞬间摧毁了这些障壁,让更多人意识到巨头们本该把这部分资源投入到实际创新当中。
所以,你不担心 AI 引发世界末日?
我能理解很多人对此抱有忧虑,但前面提到,我们正处于 AI 训练 AI 并自主学习推理的阶段。而且必须承认,这列火车一旦动起来就不会再停下了。既然如此,开放才显得如此重要且迫切:与其让某个不负责任的董事会统治所有人,还不如让这个世界孕育出更多 AI 方案。
既然如此,为什么中方要开源他们的模型?
确实,DeepSeek 就选择了开源路线,公司 CEO 梁文锋在一次采访中提到,开源是吸引人才的关键:
面对颠覆性技术,闭源创造的护城河始终是暂时的。即使是 OpenAI 的闭源方法,也无法阻止其他人迎头赶上。所以我们决定把价值锚定在自身团队上——我们的同事在过程中迅速成长、积累专业知识并形成以创新为中心的组织结构和文化体系。这才是我们真正的护城河。事实上,开源和发表论文并不会造成真正的损失。对于技术人才来说,让他人追随自己的创新成果是这个世界上最有成就感的事情。而且开源更多是一种文化行为、而非商业行为,为开源做贡献能够赢得尊重。所以愿意参与开源项目的企业,也会在文化上得到优秀人才的肯定。
采访中,记者向梁文锋提出这样一个问题:如今的 DeepSeek 明显笼罩着一层理想主义光环,不禁让人想起早期的 OpenAI,那时他们也在走开源路线。您以后会转向闭源吗?毕竟 OpenAI 和 Mistral 都经历了这样的转变。
我们不会转向闭源,因为我们认为建立强大技术生态系统才是重中之重。
这不只是纯粹的理想主义。如果把大模型看作商品——也确实是这样——那么要想长期维持差异化优势,就必须拥有优越的成本结构,而这正是 DeepSeek 乃至中国在所主导的各个产业当中秉持的一贯原则。这也跟大多数美国企业对于差异化优势的看法相反,美方总是强调依靠差异化优势维持更高的溢价和利润率。
那么,OpenAI 是不是快完了?
这可不一定。ChatGPT 的出现让 OpenAI 意外成为一家消费科技厂商,或者说一家做产品的厂商。有了这条途径,OpenAI 可以把自己的成果嵌入到订阅服务和广告营销中去,在具有商品化潜力的模型之上建立起可持续的消费者业务。因此,把握住这种可持续性,就意味着 OpenAI 始终拥有 AI 决赛圈的入场券。
另一方面,Anthropic 可能才是最近这段时间最大的输家。DeepSeek 在苹果 App Store 中排名第一,而 Claude 在硅谷以外的关注度则仍然极其有限。虽然其 API 业务有所好转,但半途而废,API 业务才最容易受到这股已经势不可挡的商品化趋势的冲击(请注意,OpenAI 和 Anthropic 的推理成本明显比 DeepSeek 高得多,之前能生存是因为他们拥有更大的利润空间,但这种空间正在急速萎缩)。
所以说,DeepSeek 带来的全都是坏消息喽?
绝对不是。我认为 DeepSeek 其实是给每个人提供了一份丰厚的新年礼物。最大的赢家,一定是那些能够以几乎免费的方式享受顶尖 AI 产品和服务的消费者与企业。从长远来看,杰文斯悖论将成为主流,让每个能用上 AI 的人都成为时代发展的受益者。
除此之外,大型消费科技公司也将从中获益。在 AI 免费的新时代,产品和分销渠道才是核心资源,而这些公司已经牢牢把握住了消费的出口。
中国也将成为大赢家,而且我相信这种优势会随着时间推移而逐渐显现。这不仅体现在中国人能够更顺畅地使用 DeepSeek,这位后起之秀在与美国领先 AI 实验室的竞争中取得相对领先,应该也会进一步激发中国的创新能力,让更多人意识到自己在世界最顶尖的竞技场上也有一战之力。现在压力来到了美国这边,是时候做出选择了。最直接的选项当然就是继续加大防御力度,例如推动芯片禁令扩大化,并对芯片和半导体设备实施许可形式的严格监管;当然,美国也可以放下架子,在承认自己已经并非绝对领先的同时全身心投入到新一轮竞争当中。不要再鼓吹焦虑、也不要再为设立监管壁垒而奔走游说了——勇敢选择正确的道路,清除组织体系中与达成技术胜利无关的一切垃圾。拒绝竞争,美国只会慢性死亡;参与竞争,就还有一半的获胜机会。而如果美国未来能够复兴,应当感谢 DeepSeek 这家来自中国、此前寂寂无名的公司。
原文链接:
https://stratechery.com/2025/deepseek-faq/