2024年12月底,中国幻方量化旗下人工智能团队发布6710亿参数大语言基础模型DeepSeek-V3。
紧接着在2025年1月20日,推出基于V3的两款推理模型Deepseek-R1-Zero和DeepSeek-R1。一周后,又发布开源多模态模型Janus。
Deepseek以低成本获得不输OpenAI推理模型的性能,震惊全球AI界,对AI 大模型发展范式、算力市场和AI初创企业生态产生潜在影响。
●随着越来越多的芯片、服务器企业宣布接入DeepSeek模型,对这个产业链意味着什么?
● 在适配的过程中,针对DeepSeek应用需求,都做了哪些(和以前不同的)适配、优化和改进工作?
● DeepSeek的发展对集群的架构设计会产生哪些影响?未来服务器(算力)架构会有怎样的创新?
● DeepSeek及其类似产品将如何塑造未来的计算环境?
2月19日(今晚)20:00,南京大学、新华三、超云等产业内技术专家做客CDCC直播间分享DeepSeek对算力供给侧的深远影响,欢迎预约关注!
1)DeepSeek-V3基础模型架构创新
DeepSeek在2024年5月发布的DeepSeek-V2模型中就已提出
混合专家结构MOE 和多头潜在注意力机制MLA
,在V3模型中效果更显著。
MOE混合专家架构
:MOE就像餐厅里每个厨师专精一道菜,服务员根据顾客需求分配任务,每次仅激活部分专家处理数据,提高计算效率,降低训练和推理成本。在 6710亿参数的
DeepSeek
-V3中,仅需激活370亿参数。虽然MOE不是
DeepSeek
原创,但团队在资源受限下对其进行优化,解决专家负载均衡和协同问题。
多头潜在注意力机制MLA
:MLA解决了内存限制问题,V3在此基础上应用多token预测(MTP)技术,增加注意力模块,预测多个token,提升训练过程中模型的性能。
2)推理模型训练创新
推理模型擅长解答有标准答案的问题。
DeepSeek
的推理模型R1-Zero和R1直接对标OpenAI的o1推理模型。
强化学习训练
:训练R1-Zero时,
DeepSeek
团队采用纯粹的强化学习方法,摒弃人类反馈,使用GRPO(群体相对策略优化)算法提升推理表现。GRPO去掉了 OpenAI提出的PPU(近端策略优化)算法中的Critic部分,直接优化策略本身,降低成本,使大规模强化学习更高效。
奖励函数验证
:
DeepSeek
团队给
DeepSeek
-R1-Zero一系列数学编程和逻辑问题,设计两个奖励函数,一个验证标准答案,一个确保输出连贯格式规范。通过这种训练,模型能自动找到解决问题的策略和思路,证明了利用无监督机器学习训练推理模型的可能性,以及少量算理提升模型性能的方法。不过,
DeepSeek
-R1-Zero可读性低,
DeepSeek
团队最终创建监督微调数据集,重新训练
DeepSeek
-V3基础模型得到
DeepSeek
-R1。
1)对闭源模型公司的影响
OpenAI
:
DeepSeek
的出现冲击了OpenAI的技术领先垄断地位和高定价策略。
2025年1月26号,DeepSeek登上美国免费应用榜单第一名
,在全球多个市场移动应用下载量位居榜首,日活用户达ChatGPT的23%,每日下载量超过ChatGPT。OpenAI为应对,发布推理模型o3-mini并降价,同时推出deep research模型展示实力。但在
DeepSeek
的压力下,OpenAI融资面临投资人质疑,其在二级市场的交易也受到影响。
Anthropic
:Anthropic在企业端和开发者端API有优势,但在消费者端不如 OpenAI。
Deepseek的API价格对Anthropic造成打击,且Anthropic尚未推出推理模型,
被OpenAI和Deepseek前后夹击,其创始人甚至要求美国加强算力出口管制。
2)对开源模型和社区的影响
Meta
:Meta原本计划发布llama4开源模型,Deepseek的出现使其进入紧急状态。Meta希望llama4成为领先的开源大模型,从生态和应用盈利,
Deepseek的低价和技术创新给Meta带来价格压力
。不过,Deepseek开源更彻底、透明,也为开源社区带来互相学习和进步的机会。
其他开源公司
:法国AI开源模型公司
Mistral
曾以70亿参数小模型轰动业界。而在2025年2月8日,Mistral推出的
Le Chat
,并且迅速席卷各大应用市场,这款大模型速度比ChatGPT快13倍,并且和Deepseek一样完全开源,完全免费,因此下载量迅速攀升成为市场第三。2月14日,百度宣布将在未来几个月中陆续推出
文心大模型4.5系列
,并于6月30日起正式开源。
3)对英伟达算力市场的影响
1月27号,英伟达股价因Deepseek重挫,但之后跌幅止住并缓慢回升。市场对 Deepseek影响英伟达算力市场存在两种观点:
一种认为它带来新范式,减少对英伟达前沿GPU芯片的需求,算力市场故事崩塌;另一种认为它降低生态算力成本,吸引更多玩家,扩大算力需求,利好英伟达。目前市场对第二种逻辑达成一定共识,但 Deepseek的创新也对英伟达的护城河造成冲击,不过短期内大规模弃用英伟达芯片的情况不会发生,英伟达可能降价以保住市场份额。
4)对应用层和创业生态的影响
推理成本降低的影响
:Deepseek引发模型推理成本跳水,对不同应用场景产生不同影响。对于部分场景如陪伴型iPad、AI智能体等,之前因成本高难以推广,现在变得有利可图,能够迅速普及上规模。
设备端AI的发展
:Deepseek可能推动设备端AI应用的爆发,尤其是娱乐类和虚拟人助手类应用。设备端AI使用推理版本,计算资源来自用户设备,经济成本几乎为零,可能颠覆Saas订阅捆绑的经典商业逻辑。
创业方向的转变
:在Deepseek引领的AI商品化的时代,专注细分领域、提供有质的飞跃的AI解决方案的纵向AI企业,更易建立差异化竞争优势;而追求面面俱到、缺乏针对性的横向AI企业面临挑战。
“
第三届数据中心液冷大会”将于2025年3月27日在杭州召开
,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。
关键词:
液冷、全栈、最佳实践、芯片、服务器、基础设施
嘉宾规模:500+专业人士
会议形式:
展览展示+主旨演讲+技术分享+应用案例参观