专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250201224216 ·  昨天  
看金坛  ·  DeepSeek眼中的金坛是这样的 ·  昨天  
看金坛  ·  DeepSeek眼中的金坛是这样的 ·  昨天  
爱可可-爱生活  ·  【[6星]llmdifftracker:用A ... ·  2 天前  
宝玉xp  ·  转发微博-20250129032706 ·  5 天前  
51好读  ›  专栏  ›  宝玉xp

推荐阅读:《DeepSeek 常见问题解答》本文基于最新的 De-20250131135312

宝玉xp  · 微博  · AI  · 2025-01-31 13:53

正文

2025-01-31 13:53

推荐阅读:《DeepSeek 常见问题解答》

本文基于最新的 DeepSeek 模型发布,探讨了从高效训练、推理成本到美国和中国在 AI 领域的竞争格局等多重话题。文章阐释了 DeepSeek 在芯片禁令背景下如何通过极端优化突破硬件限制,并对“蒸馏”对行业的影响、Nvidia 和其他科技巨头的前景,以及开源与合规监管的博弈进行深度剖析。作者还呼吁在面对创新竞争时,美国应更主动地投入研发,而非单纯依赖限制政策。

作者简介:
本·汤普森(Ben Thompson)是科技商业分析网站 Stratechery 的创始人,专注于从战略与商业角度剖析科技与媒体行业,并对技术变革如何影响社会进行深入解读。

译文:
***

今天是 1 月 27 日(星期一)。你怎么还没写过 DeepSeek?其实我已经写过了!我在上周二那篇关于 R1 的文章里就提到了。

原来如此,我都忘了。

是我的疏忽。我依然坚持那篇文章里的观点,尤其是两个重点:一是通过纯粹的强化学习(reinforcement learning)所涌现的链式思维(chain-of-thought),二是“蒸馏”(distillation)的强大威力。我当时也提到了低成本(在 Sharp Tech 节目里有更多扩展)以及芯片禁令的影响。然而,这些讨论更多是针对 AI 当前的技术最前沿,而没能预见这一新闻在美国和中国的宏观层面将带来的更广泛影响。

你有没有出现过类似的“错判”?

确实有过。2023 年 9 月,华为发布搭载由中芯国际(SMIC)生产、7nm 制程芯片的 Mate 60 Pro。当时紧盯行业动态的人对此并不惊讶:因为 SMIC 早在一年前就已经做出了 7nm 芯片(我本人在更早的文章里也提到过这个可能性),而且 TSMC 也曾用纯 DUV 光刻技术量产过 7nm(后续版本才使用 EUV)。另外,英特尔也曾用 DUV 做过 10nm(相当于 TSMC 7nm)芯片,只不过良率低而难以盈利。因此,SMIC 在现有设备基础上做出 7nm 芯片、即使良率不高也不在乎,这一点在我看来并不令人震惊。

然而,我完全没料到在华盛顿出现的过度反应——最终拜登政府将芯片销售纳入了“许可制”,正是源于人们对芯片生产细节理解不足,而华为 Mate 60 Pro 的突然出现让他们手足无措。现在看上去,过去 72 小时内关于 DeepSeek 的这波舆论风潮,本质上也是如此:DeepSeek 实际达到的进展和局限固然重要,但更多还是人们先入为主的假设被颠覆,引发的震动才是关键。

DeepSeek 具体发布了什么?

这次引发“周末大震荡”的直接原因是新的推理模型 R1,类似于 OpenAI 的 o1。不过,其实很多导致这次震撼的信息(尤其是 DeepSeek 的训练成本)都在去年圣诞节发布的 V3 模型就已经提到了。而且,驱动 V3 的诸多突破,最初是在 2024 年 1 月公布的 V2 模型时就已经显露了端倪。

这命名方式是 OpenAI 目前的“头号罪状”吗?

只能算“第二大罪状”,稍后我们会讨论他们的第一大罪状。

我们倒着说吧:V2 模型是什么?为什么很重要?
DeepSeek-V2 带来了两个重大突破:DeepSeekMoE 和 DeepSeekMLA。

• DeepSeekMoE:“MoE” 指的是“Mixture of Experts(专家混合)”。有些模型(例如 GPT-3.5)在训练和推理(inference)阶段会激活整个模型的所有参数;然而实际上,对于某个特定问题,并不需要模型的所有部分都参与。MoE 会将模型划分为多个“专家”,只调用与该问题相关的部分。GPT-4 就是一个 MoE 模型,据推测大约有 16 个专家,每个专家约有 1100 亿参数。在 V2 版本中,DeepSeekMoE 进一步细化了专家的划分,包括更精细的专业专家和更泛化的通用专家;并且在训练阶段也改进了路由和负载均衡机制。传统的 MoE 方法往往在训练时会增加通信开销,但 DeepSeek 的做法不仅在推理时效率更高,在训练时也更加高效。
• DeepSeekMLA:这是个影响更大的突破。推理中的主要瓶颈之一在于需要将整个模型和上下文(context window)加载到内存,而上下文窗口每个 token 都需要 key 和 value 两部分,内存占用非常大。DeepSeekMLA(multi-head latent attention,多头潜表示注意力)可以压缩 key-value 存储,从而大幅减少推理阶段所需的内存空间。
这听上去有点晦涩。

其实最关键的应用效果在随后的 V3 发布时才显现出来:V3 进一步优化了负载均衡(降低通信开销),并在训练时采用多 token 预测(multi-token prediction),每一步训练都更“紧凑”,又一次降低了总体成本。最终结果令人震惊:DeepSeek 宣称训练 V3 的花费出奇地低——他们用 278.8 万(2,788k)个 H800 GPU 小时就完成了训练,按每小时 2 美元计算,总成本仅约 557.6 万美元。

这数字看起来难以置信
DeepSeek 自己也在论文里明确表示,这只是最终那一次完整训练的成本,不包括研发阶段的各种实验开销。《DeepSeek-V3 论文》中写道:

最后,我们想再次强调 DeepSeek-V3 的经济性(见表 1),这是通过算法、框架与硬件的协同优化实现的。在预训练阶段,每处理 1 万亿 tokens 大约需要 18 万(180K)个 H800 GPU 小时,也就是在 2048 张 H800 GPU 的集群上大约 3.7 天。我们总共预训练了 14.8 万亿 tokens,用时不到两个月,花费 266.4 万(2664K)GPU 小时。加上扩展上下文窗口的 11.9 万(119K)GPU 小时以及后续微调阶段的 0.5 万(5K)GPU 小时,总计 278.8 万(2.788M)GPU 小时。如果按每小时 2 美元的租金来算,总训练成本大约是 557.6 万美元。需要注意的是,这仅包含 DeepSeek-V3 最终正式训练的成本,并不包括此前在架构、算法和数据上的研究与消融实验费用。

换句话说,不要以为能用 557.6 万美元就把 DeepSeek 整个公司给“复制”出来。

我还是不信。

若理解了 V3 的模型架构,这个数字反倒是“驳不倒”的。回顾一下 DeepSeekMoE:V3 总参数量是 6710 亿(671B),但每次推理实际激活的专家仅有 370 亿(37B),即每个 token 计算时只用到 370 亿参数,总共约 3333 亿次浮点运算(FLOPs)。再提一句 DeepSeek 的另一创新:参数存储用的是 BF16 或 FP32,但计算时降到 FP8。这样一来,2048 张 H800 GPU 的总运算能力可达 3.97 EFLOPS(3.97×10^18 FLOPS)。整个数据集有 14.8 万亿 tokens,一算下来,278.8 万 GPU 小时确实够完成一次 V3 的最终训练。当然,这只是最后一次完整训练的耗时,没算前期探索,但确实在理论上说得通。

Scale AI 的 CEO Alexandr Wang 说他们有 5 万张 H100。
(见 此推文)

可能他的消息来源于 Dylan Patel 的推文——对方表示 DeepSeek 有超过 5 万张 Hopper GPU。而 H800 就是 Hopper 架构,只不过由于美国的制裁,它的显存带宽被削弱了。

问题就在于:我前面说的那些改进,几乎都是为了弥补 H800 在带宽不足上的缺陷,并把模型架构和训练基础设施都做了深度优化。换言之,DeepSeek 之所以能在 H800 上完成尖端训练,正是因为做了很多超低层级的优化——他们还使用了 PTX(相当于 Nvidia GPU 的汇编语言)来手动管理其中 20 个处理单元做跨卡通信,这在 CUDA 层面是不可能完成的。没有 H800 带宽的“限制”,也就不会逼着他们去做如此极限的优化。

此外,DeepSeek 在模型上线后也要提供推理服务,这还需要额外的 GPU 资源来支持商业化推理负载。

那这算不算违反芯片禁令?
不算。美国禁售的是 H100,但没有禁售 H800。此前大家都以为:顶级模型训练需要更高的芯片间带宽,H800 在带宽上有阉割,会卡住中国的研发进程。结果 DeepSeek 的做法正好绕过了这一弱点。

值得注意的是,DeepSeek 专门为 H800 做了很多架构设计上的选择;如果他们能拿到 H100,也许就会用规模更大的集群,而无需针对带宽做如此深入的“极限优化”。

那 V3 真的算“全球顶尖”吗?
从效果看,V3 至少能和 OpenAI 的 4o 以及 Anthropic 的 Sonnet-3.5 一较高下,而且似乎比 Llama 最大的版本更强。有一种广泛猜测是,DeepSeek 用“蒸馏”(distillation)方法从这些模型上学到了高质量的数据,用于训练自己的模型。

什么是“蒸馏”?
“蒸馏”指的是一种从教师模型中“提炼”知识、训练学生模型的方法。最常见的做法是:把各种输入扔给教师模型,记录它的输出,再用这些输入-输出对来训练学生模型。像 GPT-4 Turbo 就是 GPT-4 自己蒸馏出来的版本。

自己给自己模型做蒸馏是最容易的,因为拥有完全访问权限;但是利用别人的模型也不是不可能,可以通过 API,甚至一些更“取巧”的方式(比如在线聊天)来获取大规模输入输出对。
从版权、使用条款的角度看,这当然可能违反其他模型服务的使用协议,但实际操作上往往很难阻止,除非彻底封杀 IP 或者严格限流。因此大家普遍认为行业内广泛存在蒸馏行为,这也是为什么越来越多的模型在质量上都接近 GPT-4o。

这对最顶尖的模型提供者来说不是很糟吗?
确实很不利。一方面,OpenAI、Anthropic、Google 等公司用蒸馏来做自己内部的推理优化,这有助于对外提供更便宜的推理服务;另一方面,他们也承担着“最前沿研发”的巨额投入,而其他竞争对手却可以用蒸馏“免费搭车”。
这也解释了微软与 OpenAI 渐行渐远的重要经济因素:微软想做推理服务给客户,但不太想投数百亿美元建数据中心来研发和训练最前沿的模型,毕竟可能在硬件折旧期还没结束前,模型就已被广泛蒸馏、市场竞争激烈、定价下跌,无法回本。

这就是所有大型科技公司股价暴跌的原因吗?
从长期来看,模型的“商品化”以及推理成本下降,对大型科技公司反而是好事——微软将来给客户提供推理服务成本更低,或者用同样的支出获得更多的使用量。对亚马逊也一样:AWS 自己没做出足够强的模型,但如果有高质量的开源模型,它只需要提供云端推理,就能赚钱。

苹果也受益匪浅。推理所需的内存大幅下降,使得设备端推理更可行,而苹果在硬件方面(尤其是统一内存架构的 Apple Silicon)有极大优势:CPU、GPU、NPU 共用一块大内存,高端机型内存可以到 192GB,而民用 Nvidia 显卡 VRAM 上限一般只有 32GB,这对本地推理大有裨益。

Meta 可能是最大赢家。我在去年秋天就提到,Meta 的所有业务都能从 AI 受益;唯一的瓶颈就是推理的成本。若训练和推理成本双双下降,Meta 的想象空间就更大了。

谷歌则相对尴尬:如果硬件要求降低,TPU 的优势就不那么明显;更重要的是,如果推理成本趋近于零,各种搜索替代方案就会加速涌现。诚然,谷歌也能享受低成本优势,但它现有的搜索地位意味着任何改变现状的力量都带来风险。

那为什么股价还是掉了?
我所描述的是长期走势;眼下市场正消化 R1 出现这一事实的短期冲击。

你还没详细说 R1 啊。
R1 就是一个跟 OpenAI 的 o1 类似的“推理模型”(reasoning model),擅长代码、数学、逻辑等需要逐步思考的任务。

比起 V3,R1 更厉害吗?
从行业影响来看,V3 展现的那些低成本、高效率能力其实更具冲击力。但 R1 也有两点值得注意:

1. OpenAI 的 o1 之前几乎是市面上唯一的高水平“推理模型”,因此给人印象中它有某种难以复制的“独门秘方”。
2. DeepSeek 的模型全部开源权重(或说“开放权重”,数据没有公开),所以任何人都能自己下载运行,而不必付钱给 OpenAI;加上 DeepSeek 做了很多推理层面的优化,这意味着“自部署”可以更便宜。
DeepSeek 是怎么做出 R1 的?
DeepSeek 实际上发布了两个模型:R1 和 R1-Zero。我个人认为 R1-Zero 更值得关注。
我在上周二的文章中做过详细分析,这里概括一下:

• R1-Zero 采用的是纯强化学习(pure RL),而不是“人类反馈强化学习”(RLHF)。它用 DeepSeek-V3 作为基础模型,只提供算数、代码、逻辑等题目的奖励函数(解答正确、思考过程符合某种链式推理结构)。没有人类在环(HF),纯粹让模型在奖励指引下自我演化。
• 与 AlphaGo 类似,R1-Zero 只知道要赢(在这里就是得到正确答案),却并不知道具体过程。结果它自己“学会”了推理和链式思考,甚至出现了 DeepSeek 称为“灵光乍现”(Aha Moment)的现象:中期版本学会了“先退一步,再多想一下”,从而提高解题准确率。
• 不过,R1-Zero 在最终表现上,文本可读性不佳,有时会混杂多种语言,输出风格混乱。
• 因此 DeepSeek 又在后期加了少量监督数据做“冷启动”(cold-start),然后再做强化学习,最后还做了一些编辑、精修步骤,生成了完整的 R1。R1 的最终效果可与 OpenAI o1 相媲美,而且可读性和格式更好。
这背后也有蒸馏的可能性——尤其是在 R1 训练时是否用了来自 o1 或 Claude 的数据。总之,无论如何,AI 正在自我学习,又能相互学习,这就是“加速”的现实版。

【内容太长放不下……】

原文:网页链接
翻译:网页链接