专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
51好读  ›  专栏  ›  CDCC

今晚20:00,CDCC直播间 | DeepSeek如何影响算力供给

CDCC  · 公众号  ·  · 2025-02-19 11:38

正文

请到「今天看啥」查看全文


2024年12月底,中国幻方量化旗下人工智能团队发布6710亿参数大语言基础模型DeepSeek-V3。


紧接着在2025年1月20日,推出基于V3的两款推理模型Deepseek-R1-Zero和DeepSeek-R1。一周后,又发布开源多模态模型Janus。


Deepseek以低成本获得不输OpenAI推理模型的性能,震惊全球AI界,对AI 大模型发展范式、算力市场和AI初创企业生态产生潜在影响。


●随着越来越多的芯片、服务器企业宣布接入DeepSeek模型,对这个产业链意味着什么?


● 在适配的过程中,针对DeepSeek应用需求,都做了哪些(和以前不同的)适配、优化和改进工作?


● DeepSeek的发展对集群的架构设计会产生哪些影响?未来服务器(算力)架构会有怎样的创新?


● DeepSeek及其类似产品将如何塑造未来的计算环境?


2月19日(今晚)20:00,南京大学、新华三、超云等产业内技术专家做客CDCC直播间分享DeepSeek对算力供给侧的深远影响,欢迎预约关注!

一、技术创新


1)DeepSeek-V3基础模型架构创新


DeepSeek在2024年5月发布的DeepSeek-V2模型中就已提出 混合专家结构MOE 和多头潜在注意力机制MLA ,在V3模型中效果更显著。


MOE混合专家架构 :MOE就像餐厅里每个厨师专精一道菜,服务员根据顾客需求分配任务,每次仅激活部分专家处理数据,提高计算效率,降低训练和推理成本。在 6710亿参数的 DeepSeek -V3中,仅需激活370亿参数。虽然MOE不是 DeepSeek 原创,但团队在资源受限下对其进行优化,解决专家负载均衡和协同问题。


多头潜在注意力机制MLA :MLA解决了内存限制问题,V3在此基础上应用多token预测(MTP)技术,增加注意力模块,预测多个token,提升训练过程中模型的性能。



2)推理模型训练创新


推理模型擅长解答有标准答案的问题。 DeepSeek 的推理模型R1-Zero和R1直接对标OpenAI的o1推理模型。


强化学习训练 :训练R1-Zero时, DeepSeek 团队采用纯粹的强化学习方法,摒弃人类反馈,使用GRPO(群体相对策略优化)算法提升推理表现。GRPO去掉了 OpenAI提出的PPU(近端策略优化)算法中的Critic部分,直接优化策略本身,降低成本,使大规模强化学习更高效。


奖励函数验证 DeepSeek 团队给 DeepSeek -R1-Zero一系列数学编程和逻辑问题,设计两个奖励函数,一个验证标准答案,一个确保输出连贯格式规范。通过这种训练,模型能自动找到解决问题的策略和思路,证明了利用无监督机器学习训练推理模型的可能性,以及少量算理提升模型性能的方法。不过, DeepSeek -R1-Zero可读性低, DeepSeek 团队最终创建监督微调数据集,重新训练 DeepSeek -V3基础模型得到 DeepSeek -R1。


二、对全球AI产业的影响


1)对闭源模型公司的影响


OpenAI DeepSeek 的出现冲击了OpenAI的技术领先垄断地位和高定价策略。 2025年1月26号,DeepSeek登上美国免费应用榜单第一名 ,在全球多个市场移动应用下载量位居榜首,日活用户达ChatGPT的23%,每日下载量超过ChatGPT。OpenAI为应对,发布推理模型o3-mini并降价,同时推出deep research模型展示实力。但在 DeepSeek 的压力下,OpenAI融资面临投资人质疑,其在二级市场的交易也受到影响。



Anthropic :Anthropic在企业端和开发者端API有优势,但在消费者端不如 OpenAI。 Deepseek的API价格对Anthropic造成打击,且Anthropic尚未推出推理模型, 被OpenAI和Deepseek前后夹击,其创始人甚至要求美国加强算力出口管制。


2)对开源模型和社区的影响


Meta :Meta原本计划发布llama4开源模型,Deepseek的出现使其进入紧急状态。Meta希望llama4成为领先的开源大模型,从生态和应用盈利, Deepseek的低价和技术创新给Meta带来价格压力 。不过,Deepseek开源更彻底、透明,也为开源社区带来互相学习和进步的机会。


其他开源公司 :法国AI开源模型公司 Mistral 曾以70亿参数小模型轰动业界。而在2025年2月8日,Mistral推出的 Le Chat ,并且迅速席卷各大应用市场,这款大模型速度比ChatGPT快13倍,并且和Deepseek一样完全开源,完全免费,因此下载量迅速攀升成为市场第三。2月14日,百度宣布将在未来几个月中陆续推出 文心大模型4.5系列 ,并于6月30日起正式开源。


3)对英伟达算力市场的影响


1月27号,英伟达股价因Deepseek重挫,但之后跌幅止住并缓慢回升。市场对 Deepseek影响英伟达算力市场存在两种观点: 一种认为它带来新范式,减少对英伟达前沿GPU芯片的需求,算力市场故事崩塌;另一种认为它降低生态算力成本,吸引更多玩家,扩大算力需求,利好英伟达。目前市场对第二种逻辑达成一定共识,但 Deepseek的创新也对英伟达的护城河造成冲击,不过短期内大规模弃用英伟达芯片的情况不会发生,英伟达可能降价以保住市场份额。


4)对应用层和创业生态的影响


推理成本降低的影响 :Deepseek引发模型推理成本跳水,对不同应用场景产生不同影响。对于部分场景如陪伴型iPad、AI智能体等,之前因成本高难以推广,现在变得有利可图,能够迅速普及上规模。


设备端AI的发展 :Deepseek可能推动设备端AI应用的爆发,尤其是娱乐类和虚拟人助手类应用。设备端AI使用推理版本,计算资源来自用户设备,经济成本几乎为零,可能颠覆Saas订阅捆绑的经典商业逻辑。


创业方向的转变 :在Deepseek引领的AI商品化的时代,专注细分领域、提供有质的飞跃的AI解决方案的纵向AI企业,更易建立差异化竞争优势;而追求面面俱到、缺乏针对性的横向AI企业面临挑战。

第三届数据中心液冷大会”将于2025年3月27日在杭州召开 ,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。


关键词: 液冷、全栈、最佳实践、芯片、服务器、基础设施

嘉宾规模:500+专业人士

会议形式: 展览展示+主旨演讲+技术分享+应用案例参观

关注我们获取更多精彩内容


往期推荐

● 数据中心空气冷却系统的能效指标ECR

● 独家揭秘——清华大学&火山引擎携手发布《算力电力协同:思考与探索白皮书》(2025)

● DeepSeek会导致对智算中心的需求大幅减少吗?

● 快手先进冷板液冷解决方案的研究







请到「今天看啥」查看全文