专栏名称: 笔记侠
-1~6岁CEO都在看的第一手笔记干货
目录
相关文章推荐
金错刀  ·  中国爆款大片的门,终于被《哪吒2》踹开了 ·  12 小时前  
林小奇笔记  ·  除夕快乐,梁文峰谈初心 ·  3 天前  
林小奇笔记  ·  除夕快乐,梁文峰谈初心 ·  3 天前  
常州日报  ·  突然崩了!刚刚,大量人涌入! ·  4 天前  
常州日报  ·  突然崩了!刚刚,大量人涌入! ·  4 天前  
财联社AI daily  ·  5G无人机化身配送员! ·  5 天前  
51好读  ›  专栏  ›  笔记侠

DeepSeek的150人小团队,怎么就让硅谷颤抖了?

笔记侠  · 公众号  · 科技自媒体  · 2025-01-31 22:04

正文

本文内容整理自网络公开资料。

责编 |  001  排版 | 二月
第 8811 篇深度好文:6095 字 | 12分钟阅读

宏观趋势

笔记君说:


SemiAnalysis 是一家精品半导体研究和咨询公司。Dylan Patel是SemiAnalysis首席分析师。这是Dylan Patel新鲜出炉的Deepseek 分析。

笔记侠对本份报告进行了翻译,第一时间分享给最近在持续关注Deepseek 的侠友们。

这份报告的核心,是指出DeepSeek凭借“多头潜在注意力(MLA)”等创新技术,显著降低推理成本;结合专家混合模型(MoE)的动态路由算法和多标记预测技术,实现算法效率的指数级提升,推动相同算力下模型性能的跨越式发展。

同时,在组织架构上,DeepSeek通过扁平化架构、自建数据中心、顶尖人才战略(百万美元级薪酬挖角清北精英),形成远超谷歌等巨头的创新速度,是中国AI初创企业首次在核心算法层面对西方形成实质性挑战。

一、DeepSeek如风暴般席卷全球


DeepSeek 风靡全球。在过去的一周里,DeepSeek 是世界上唯一一个想谈论的话题。就目前而言,DeepSeek 的每日流量现在远高于 Claude、Perplexity 甚至 Gemini。


但对于观察者来说,这并不完全是“新”新闻。DeepSeek已经有几个月了。这家公司并不是新公司。


DeepSeek非常有才华,美国更广泛的公众并不关心。当世界最终关注时,它在一种不反映现实的强迫性炒作中得到了关注。


我们想强调的是,现在算法的改进太快了,这对英伟达和GPU来说也是不利的。


现在的情况是,DeepSeek非常高效,不需要更多的计算,而由于模型的改变,所有东西现在都出现了巨大的产能过剩。虽然杰文斯悖论也被过度炒作,但杰文斯更接近现实,模型已经诱导了需求,对H100和H200的定价产生了实际影响。



二、DeepSeek和High-Flyer(幻方量化基金)


High-Flyer(幻方)是一家中国对冲基金,是使用人工智能进行交易算法的早期采用者。他们很早就意识到人工智能在金融领域以外的潜力,以及规模化的关键见解。


因此,他们一直在持续增加GPU的供应。在尝试使用数千个GPU的集群模型后,High-Flyer(幻方)在2021年做出了投资,购买了10000个A100 GPU,当时还没有任何出口限制。这得到了回报。


随着High-Flyer(幻方)的改进,他们意识到是时候在2023年5月剥离出“DeepSeek”了,目标是追求更专注、更进一步的AI能力。High-Flyer(幻方)自筹资金,因为当时外部投资者对AI几乎没有兴趣,缺乏商业模式是主要担忧。High-Flyer(幻方)和DeepSeek今天经常共享资源,包括人力和计算资源。


DeepSeek现在已经发展成为一个严肃的项目,绝不像许多媒体所说的那样是一个“副业项目”。我们有信心,即使考虑到出口管制,他们的GPU投资也超过5亿美元。


三、GPU的情况


我们相信他们可以访问大约50000个英伟达Hopper GPU ,这与一些人声称的50000个H100不同。英伟达根据不同的法规制造了不同版本的H100(H800、H20),目前只有H20可以供中国型号提供商使用。注意,H800的计算能力与H100相同,但网络带宽更低。


我们相信DeepSeek有大约10000个H800和大约10000个 H100。此外,他们还有更多的H20订单,英伟达在过去9个月中生产了超过100万个中国专用GPU。这些GPU在High-Flyer(幻方)和DeepSeek之间共享,并在一定程度上地理分布。它们用于交易、推理、培训和研究。



我们的分析显示,DeepSeek的总服务器资本支出几乎达到13亿美元,其中相当大一部分成本(7.15亿美元)与运营此类集群有关。


DeepSeek只从中国招募人才,不考虑之前的资历,非常注重能力和好奇心。DeepSeek经常在顶尖大学如北京大学和浙江举办招聘活动,许多员工毕业于这些大学。职位不一定是预先定义的,招聘过程是他们的招聘广告甚至宣称可以拥有10,000个GPU,且没有使用限制。他们非常具有竞争力,据称会为有前途的候选人提供超过130万美元的薪水,远远超过中国的大型科技公司。他们拥有约150名员工,但正在迅速增长。


正如历史所显示的那样,一家资金充足且专注的初创公司往往能够突破可能性的界限。DeepSeek缺乏像谷歌这样的官僚机构,并且由于他们自筹资金,可以在想法上快速行动。


然而,与谷歌一样,DeepSeek(在很大程度上)运行自己的数据中心,而不依赖外部方或提供商。这为实验开辟了更多空间,使他们能够在整个堆栈上进行创新。


我们相信他们是当今最好的“开源权重”实验室,击败了Meta的Llama、Mistral和其他实验室。


四、DeepSeek的成本和性能


DeepSeek的价格和效率本周引发了狂热,头条新闻是DeepSeek V3的训练成本为“600万美元”。这是错误的。这类似于指向产品材料清单的某个特定部分并将其归为整个成本。预训练的成本在总成本中占非常小的一部分。


1.训练费用 


我们相信预训练的数字远远低于实际在模型上花费的金额。我们确信他们的硬件支出远高于5亿美元。为了开发新的架构创新,在模型开发期间,有相当大的支出用于测试新想法、新架构思想和改进。


DeepSeek的一项关键创新——多头潜在注意力——花费了大量资金。花了几个月才开发出来,并花费整个团队的人力和GPU时间。


论文中提到的600万美元成本仅包括预训练运行中的GPU成本,而这只是模型总成本的一部分。研发以及硬件本身的总拥有成本等重要部分被排除在外。作为参考,Claude 3.5 Sonnet需要花费数百万美元进行训练,如果这是Anthropic所需的总成本,那么他们就不会从谷歌筹集数十亿美元,从亚马逊筹集数百亿美元。这是因为他们必须进行实验,提出新的架构,收集和清理数据,支付员工费用等等。


那么, DeepSeek 是如何拥有如此庞大的集群的呢?出口控制的滞后是关键所在,将在下面的出口部分进行讨论。


2.缩小差距——V3的性能


V3无疑是一个令人印象深刻的模型,但值得强调的是相对于什么而言令人印象深刻。许多人将V3与GPT-4o进行了比较,并强调了V3如何击败了4o的性能。这是真的,但GPT-4O是在2024年5月发布的。AI 进展迅速,2024 年 5 月是算法改进的另一个生命周期。


此外,我们并不惊讶地发现,在给定的时间后,需要更少的计算就能实现类似或更强的能力。推理成本下降是 AI 改进的标志。



一个例子是,可以在笔记本电脑上运行的小模型具有与GPT-3相当的性能,GPT-3需要一台超级计算机来训练和多个GPU来推断。


换句话说,算法的改进允许更少的计算量来训练和推断相同能力的模型,这种模式反复出现。这次世界注意到了这一点,因为它来自中国的实验室。但小型模型越来越好并不是新鲜事。



到目前为止,我们所见证的模式是,人工智能实验室花费了更多的绝对资金,以获得更智能的产品。据估计,算法进展为每年4次,这意味着每过一年,实现相同能力所需的计算量会减少4倍。Anthropic(OpenAI的死对头)的执行官达里奥认为,算法的进步甚至更快,并且可以产生一个10倍的改进。就GPT-3质量的推理定价而言,成本已经下降了1200倍。


当研究GPT-4的成本时,我们看到类似的成本下降,尽管是在曲线的早期。虽然成本差异的减少可以解释为不再那样保持能力恒定。在这种情况下,我们看到算法的改进和优化创造了成本下降了10倍,而能力增加。



需要明确的是,DeepSeek的独特之处在于他们首先实现了这种成本和能力。他们在发布开放重量方面是独一无二的,但之前的Mistral和Llama模型也曾这样做过。DeepSeek已经实现了这种成本水平,但如果到年底,成本再下降5倍,也不要感到震惊。


3.R1的性能与o1匹配吗?


另一方面,DeepSeek R1能够取得与GPT o1相当的成绩,而o1在9月份才刚刚公布,DeepSeek怎么能这么快赶上来呢?


答案是,推理是一种新的范式,具有更快的迭代速度,比以前的范式在更小的计算量下获得了有意义的收益。正如我们在本文中概述的那样,以前的模式依赖于预训练,而这变得越来越昂贵,也越来越难以取得稳健的成果。


新范式专注于通过合成数据生成和强化学习后在现有模型上进行后期训练来提高推理能力,从而以更低的价格更快地获得收益。


较低的进入门槛加上易于优化意味着DeepSeek能够比平时更快地复制o1方法。随着玩家在新范式中找到更多的扩展方式,我们预计匹配能力之间的时间差距将会增加。


请注意,R1论文没有提到所使用的计算量。这不是偶然的——为训练后的R1生成合成数据需要大量的计算量。更不用说RL了。


R1是一个非常好的模型,我们对此没有异议,而且如此迅速地赶上推理优势,在客观上令人印象深刻。DeepSeek是中国的,并且资源更少,这一事实让它更加令人印象深刻。


但R1提到的一些基准也是误导。比较R1和o1是很棘手的,因为R1并未明确提及它们不领先的基准。虽然R1在推理性能上与之匹配,但在每个指标上都不是明显的赢家,在许多情况下它比o1更差。


我们还没有提到o3。o3的能力显著高于R1或o1。事实上,OpenAI最近分享了o3的结果,基准扩展是垂直的。“深度学习遇到了瓶颈”,但类型不同。



4.谷歌的推理模型和R1一样好


虽然DeepSeek R1被疯狂炒作,但一个月前,一家市值2.5万亿美元的美国公司发布了一款更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。这款模型可以使用,并且比R1便宜得多。即使通过API为模型提供了更大的上下文长度。


在已报道的基准测试中,谷歌的Flash 2.0 Thinking击败了DeepSeek R1,尽管基准测试并不能说明全部情况。谷歌只发布了3个基准测试,所以这还不完整。


尽管如此,我们认为谷歌的模式是稳健的,在许多方面与DeepSeek R1抗衡,但没有受到任何炒作。这可能是因为谷歌的营销策略乏善可陈和用户体验差,但R1是一个中国人的惊喜。


需要明确的是,这些都不会影响DeepSeek的显著成就。DeepSeek作为一家快速发展、资金充足、聪明且专注的初创公司的结构,正是它击败Meta等巨头的原因。在发布推理模型时,这是值得称赞的。



五、技术成就


DeepSeek破解了代码并解锁了领先实验室尚未实现的创新。我们预计DeepSeek发布的任何改进几乎会立即被西方实验室效仿。


这些改进是什么?大多数架构成就都与DeepSeek V3相关,这也是R1的基础模型。让我们详细介绍这些创新。


1.训练(前期和后期)


DeepSeek V3在以前从未见过的规模上使用了多标记预测(MTP),这些是附加的注意力模块,用于预测接下来的几个标记,而不是单个标记。这在训练期间提高了模型性能,并在推理期间可以丢弃。这是一个算法创新的例子,使性能在更低的计算量下得到改善。


还有一些额外的考虑因素,比如在训练中提高FP8(8位浮点格式)的准确性,但美国领先的实验室已经进行了一段时间的FP8训练。


DeepSeek v3 也是专家模型的混合体,这是一个由许多其他小型专家组成的大模型,这些专家专门从事不同的事情。MoE(专家混合)模型面临的一个难题是如何确定哪个标记会到达哪个子模型或“专家”。DeepSeek 实现了一个“路由网络”,以一种平衡的方式将标记路由到正确的专家,而不影响模型性能。


这意味着路由非常高效,在训练每个标记时,相对于模型的整体规模,只会改变一些参数。这增加了训练效率和推理成本。


尽管有人担心专家混合(MoE)效率的提高可能会减少投资,但达里奥表明,更强大的人工智能模型的经济效益是如此巨大,以至于任何成本节约都会迅速重新投资于构建更大的模型。


MoE(专家混合)的效率提高不会减少整体投资,而是将加速AI的扩展努力。这些公司专注于将模型扩展到更多的计算资源,并在算法上提高它们的效率。


在DeepSeek R1方面,它从拥有一个稳健的基础模型(v3)中受益匪浅。这部分归功于强化学习(RL)。RL有两个重点:格式化(以确保它提供连贯的输出)以及有用性和无害性(以确保模型有用)。推理能力在对合成数据集进行微调时显现出来。这就是O1所发生的事情。



请注意,在R1论文中没有提到计算量,这是因为提到使用了多少计算量会表明他们拥有的GPU比他们的叙述所暗示的要多。如此规模的RL(强化学习)需要大量的计算量,特别是生成合成数据。


此外,DeepSeek使用的一部分数据似乎来自OpenAI的模型,我们认为这将对从输出数据提取政策产生影响。这在服务条款中已经是非法的,但未来的新趋势可能是采用某种形式的KYC(了解你的客户)来阻止提取。


说到蒸馏,DeepSeek R1论文中最有趣的部分可能是能够通过微调推理模型的输出,将非推理的小型模型转化为推理模型。数据集整理包含总共80万个样本,现在任何人都可以使用R1的CoT输出创建自己的数据集,并在这些输出的帮助下创建推理模型。我们可能会看到更多的小型模型展示推理能力,从而提高小型模型的性能。


2.多头潜在注意(MLA)


MLA是一项关键的创新,显著降低了DeepSeek的推理价格。原因是MLA将每个查询所需的KV缓存量(指在大模型推理过程中,键值缓存KV Cache所占用的内存大小)减少了约93.3%。 


与标准注意力相比,KV缓存是变换器模型中的一种内存机制,用于存储表示对话上下文的数据,从而减少不必要的计算。


正如在我们的缩放法则文章中所讨论的,KV缓存会随着对话上下文的增长而增长,并产生相当大的内存约束。大幅减少每个查询所需的KV缓存量,会减少每个查询所需要的硬件量,从而降低成本。


然而,我们认为DeepSeek是在以成本为代价提供推理以获取市场份额,而实际上并没有赚到任何钱。谷歌Gemini Flash 2 Thinking仍然更便宜,谷歌不太可能以成本价提供这种产品。MLA特别吸引了许多美国领先实验室的目光。MLA在DeepSeek V2中发布,该版本于2024年5月发布。


与H100相比,H20具有更高的内存带宽和容量,因此DeepSeek在推理工作负载方面也具有更高的效率。他们也宣布了与华为的合作关系,但迄今为止在Ascend计算方面的合作还很少。


*文章为作者独立观点,不代表笔记侠立场。


好文阅读推荐


分享、点赞、在看,3连3连!