今晚20:00，CDCC直播间 | DeepSeek如何影响算力供给

CDCC · 公众号 · · 2025-02-19 11:38

正文

请到「今天看啥」查看全文

2024年12月底，中国幻方量化旗下人工智能团队发布6710亿参数大语言基础模型DeepSeek-V3。

紧接着在2025年1月20日，推出基于V3的两款推理模型Deepseek-R1-Zero和DeepSeek-R1。一周后，又发布开源多模态模型Janus。

Deepseek以低成本获得不输OpenAI推理模型的性能，震惊全球AI界，对AI 大模型发展范式、算力市场和AI初创企业生态产生潜在影响。

●随着越来越多的芯片、服务器企业宣布接入DeepSeek模型，对这个产业链意味着什么？

● 在适配的过程中，针对DeepSeek应用需求，都做了哪些（和以前不同的）适配、优化和改进工作？

● DeepSeek的发展对集群的架构设计会产生哪些影响？未来服务器（算力）架构会有怎样的创新？

● DeepSeek及其类似产品将如何塑造未来的计算环境？

2月19日（今晚）20:00，南京大学、新华三、超云等产业内技术专家做客CDCC直播间分享DeepSeek对算力供给侧的深远影响，欢迎预约关注！

一、技术创新

1）DeepSeek-V3基础模型架构创新

DeepSeek在2024年5月发布的DeepSeek-V2模型中就已提出混合专家结构MOE 和多头潜在注意力机制MLA ，在V3模型中效果更显著。

MOE混合专家架构 ：MOE就像餐厅里每个厨师专精一道菜，服务员根据顾客需求分配任务，每次仅激活部分专家处理数据，提高计算效率，降低训练和推理成本。在 6710亿参数的 DeepSeek -V3中，仅需激活370亿参数。虽然MOE不是 DeepSeek 原创，但团队在资源受限下对其进行优化，解决专家负载均衡和协同问题。

多头潜在注意力机制MLA ：MLA解决了内存限制问题，V3在此基础上应用多token预测（MTP）技术，增加注意力模块，预测多个token，提升训练过程中模型的性能。

2）推理模型训练创新

推理模型擅长解答有标准答案的问题。 DeepSeek 的推理模型R1-Zero和R1直接对标OpenAI的o1推理模型。

强化学习训练 ：训练R1-Zero时， DeepSeek 团队采用纯粹的强化学习方法，摒弃人类反馈，使用GRPO（群体相对策略优化）算法提升推理表现。GRPO去掉了 OpenAI提出的PPU（近端策略优化）算法中的Critic部分，直接优化策略本身，降低成本，使大规模强化学习更高效。

奖励函数验证 ： DeepSeek 团队给 DeepSeek -R1-Zero一系列数学编程和逻辑问题，设计两个奖励函数，一个验证标准答案，一个确保输出连贯格式规范。通过这种训练，模型能自动找到解决问题的策略和思路，证明了利用无监督机器学习训练推理模型的可能性，以及少量算理提升模型性能的方法。不过， DeepSeek -R1-Zero可读性低， DeepSeek 团队最终创建监督微调数据集，重新训练 DeepSeek -V3基础模型得到 DeepSeek -R1。

二、对全球AI产业的影响

1）对闭源模型公司的影响

OpenAI ： DeepSeek 的出现冲击了OpenAI的技术领先垄断地位和高定价策略。 2025年1月26号，DeepSeek登上美国免费应用榜单第一名，在全球多个市场移动应用下载量位居榜首，日活用户达ChatGPT的23%，每日下载量超过ChatGPT。OpenAI为应对，发布推理模型o3-mini并降价，同时推出deep research模型展示实力。但在 DeepSeek 的压力下，OpenAI融资面临投资人质疑，其在二级市场的交易也受到影响。

Anthropic ：Anthropic在企业端和开发者端API有优势，但在消费者端不如 OpenAI。 Deepseek的API价格对Anthropic造成打击，且Anthropic尚未推出推理模型，被OpenAI和Deepseek前后夹击，其创始人甚至要求美国加强算力出口管制。

2）对开源模型和社区的影响

Meta ：Meta原本计划发布llama4开源模型，Deepseek的出现使其进入紧急状态。Meta希望llama4成为领先的开源大模型，从生态和应用盈利， Deepseek的低价和技术创新给Meta带来价格压力。不过，Deepseek开源更彻底、透明，也为开源社区带来互相学习和进步的机会。

其他开源公司 ：法国AI开源模型公司 Mistral 曾以70亿参数小模型轰动业界。而在2025年2月8日，Mistral推出的 Le Chat ，并且迅速席卷各大应用市场，这款大模型速度比ChatGPT快13倍，并且和Deepseek一样完全开源，完全免费，因此下载量迅速攀升成为市场第三。2月14日，百度宣布将在未来几个月中陆续推出文心大模型4.5系列，并于6月30日起正式开源。

3）对英伟达算力市场的影响

1月27号，英伟达股价因Deepseek重挫，但之后跌幅止住并缓慢回升。市场对 Deepseek影响英伟达算力市场存在两种观点：一种认为它带来新范式，减少对英伟达前沿GPU芯片的需求，算力市场故事崩塌；另一种认为它降低生态算力成本，吸引更多玩家，扩大算力需求，利好英伟达。目前市场对第二种逻辑达成一定共识，但 Deepseek的创新也对英伟达的护城河造成冲击，不过短期内大规模弃用英伟达芯片的情况不会发生，英伟达可能降价以保住市场份额。

4）对应用层和创业生态的影响

推理成本降低的影响 ：Deepseek引发模型推理成本跳水，对不同应用场景产生不同影响。对于部分场景如陪伴型iPad、AI智能体等，之前因成本高难以推广，现在变得有利可图，能够迅速普及上规模。

设备端AI的发展 ：Deepseek可能推动设备端AI应用的爆发，尤其是娱乐类和虚拟人助手类应用。设备端AI使用推理版本，计算资源来自用户设备，经济成本几乎为零，可能颠覆Saas订阅捆绑的经典商业逻辑。

创业方向的转变 ：在Deepseek引领的AI商品化的时代，专注细分领域、提供有质的飞跃的AI解决方案的纵向AI企业，更易建立差异化竞争优势；而追求面面俱到、缺乏针对性的横向AI企业面临挑战。

“ 第三届数据中心液冷大会”将于2025年3月27日在杭州召开 ，这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者，共同探讨创新趋势，携手谋划合作机遇，助力行业蓬勃发展。

关键词： 液冷、全栈、最佳实践、芯片、服务器、基础设施

嘉宾规模：500+专业人士

会议形式： 展览展示+主旨演讲+技术分享+应用案例参观

关注我们获取更多精彩内容

往期推荐

● 数据中心空气冷却系统的能效指标ECR

● 独家揭秘——清华大学&火山引擎携手发布《算力电力协同：思考与探索白皮书》（2025）

● DeepSeek会导致对智算中心的需求大幅减少吗？

● 快手先进冷板液冷解决方案的研究