主要观点总结
DeepSeek的出现对云计算行业产生了重大影响,基本清空了各大云厂商的闲置算力。其开源且高效的大模型推动了AI在国内的渗透率提高,并促进了云计算厂商对基础设施的投资。DeepSeek采用的开源策略也降低了使用门槛和成本,吸引了大量企业和开发者的关注。这一现象对云计算产业产生了深远变革,提升了资源利用率和云服务商的毛利率。同时,这也引发了科技行业的投资热潮,云和AI基础设施得到了更多的投资。此外,DeepSeek的影响也延伸到了相关产业链,为其他企业创造了发展机遇。
关键观点总结
关键观点1: DeepSeek基本清空主要云厂商的云端算力库存。
DeepSeek的大模型开源且高效,推动了AI在国内的普及,提高了资源利用率。
关键观点2: DeepSeek采用了开源策略,降低了使用门槛和成本,促进了云计算厂商对基础设施的投资。
开源策略吸引了企业和开发者的关注,推动了云计算行业的发展。
关键观点3: DeepSeek的出现引发了科技行业的投资热潮。
云和AI基础设施得到了更多的投资,国产算力得到了发展机遇。
关键观点4: DeepSeek对云计算产业产生了深远变革。
提升了资源利用率和云服务商的毛利率中枢,优化了产业生态。
关键观点5: 第三届数据中心液冷大会将在杭州召开。
大会将集结数据中心领域的专家、技术大牛和学术研究者,探讨创新趋势和合作机遇。
正文
“DeepSeek基本上把各家主要云厂商,包括运营商的云端算力库存清空了。”一家大模型研究机构的研究员对记者表示。这家机构调研国内云厂商后得出这一结论。
2024年底,DeepSeek发布了新一代大语言模型V3,并宣布开源,测试结果显示其在多项评测中表现优于主流开源模型,且具有成本优势。随后,在2025年1月20日DeepSeek发布了最新开源模型R1,再次引发全球关注。
DeepSeek-R1大模型发布后
各家云计算厂商纷纷上线其满血版或者蒸馏版模型。它开源且相对高效,推动了人工智能在国内渗透率进一步提高,并促进云计算厂商加大对基础设施的投资。
以DeepSeek-V3和DeepSeek-R1为例,前者是一个拥有6710亿参数的混合专家(MoE)模型 ,采用了多头潜在注意力(MLA)机制和DeepSeekMoE架构,在14.8万亿tokens上完成训练,总训练成本约为557.6万美元,远低于其他同级别模型。
在性能方面,V3在多项基准测试中表现出色,在Arena-Hard和AlpacaEval 2.0测试中,分别达到了85.5%和70.0%的准确率 ,推理速度和质量上超越了OpenAI的GPT-4o,接近Anthropic的Claude 3.5 Sonnet。
后者则是基于V3开发的第一代推理模型,通过大规模强化学习(RL)训练,无需监督微调(SFT),在数学、编程和自然语言推理等任务中表现出色,在AIME2024基准测试中超越了OpenAI O1 ,在创意写作方面表现更优,能够生成更具创意的内容。
除了强大的性能,
DeepSeek采用了完全开源策略,涵盖了Open Model、Open Code和Open Paper等多个层面 ,通过MIT许可开放其领先模型,使开发者能够自由获取和修改模型代码,降低了使用门槛和成本。
这种开放的姿态,不仅让DeepSeek在技术上得以快速发展,也吸引了大量企业和开发者的关注,为其在市场上赢得了广泛的认可和应用,
对算力的需求也随之水涨船高。
在DeepSeek出现之前,云计算市场长期存在着算力闲置的问题。一方面,随着云计算服务的普及,许多云服务商积累了大量的闲置算力,这些算力资源的浪费不仅增加了云服务商的成本,也限制了云计算行业的发展;另一方面,企业对算力的需求却在不断增长,尤其是在人工智能领域,大模型的训练和推理对算力的要求极高,传统的算力供应模式难以满足企业的需求。
DeepSeek的出现,恰好填补了这一市场空白。其开源且相对高效的特性,吸引了大量企业级用户,为了在云端使用满血版的大模型,这些用户纷纷向云计算厂商采购算力或存储业务,从而使运营商的闲置云端算力得到了充分利用。
云计算厂商围绕DeepSeek的竞争,也进一步加剧了算力的消耗。云计算厂商围绕DeepS
eek的竞争异常激烈,春节期间就已打响。为了尽快上线DeepSeek,不少工程技术人员度过了无休的春节假期,
各厂商都希望通过抢先布局,在这场算力争夺战中占据有利地位,
这种竞争态势促使云计算厂商加大对基础设施的投资,也进一步刺激了对云端算力的需求。
DeepSeek“吃光”云端闲置算力这一现象,对云计算产业产生了深远的变革。从数据上看,国内头部云服务商的最新运营数据揭示了大模型应用的强大影响力。云计算闲置资源利用率从第四季度的58%急剧攀升至92%,单机柜月度产出提高了37%。据某券商测算,每1PFlops算力资源利用率提升10%,就能为云厂商带来年均1200万元的增量EBITDA。这一数据直观地展示了大模型对云计算产业价值提升的巨大作用。
从技术穿透层面来看,DeepSeek- R1的开源架构实现了17%的能效优化,它让中小企业在预算不变的情况下,算力获取量提升2.3倍,有效激发了长尾市场的需求,使更多企业能够借助人工智能实现发展。在资本效率方面,头部云厂商也在这场变革中受益。IDC改造周期缩短了40% ,GPU集群利用率从理论峰值的65%提高到89%,极大地缓解了重资产折旧带来的压力,提升了资本的使用效率。随着大模型的发展,云计算产业形成了 “基础模型 - 垂直应用 - 算力基建” 的价值闭环 。在这一闭环中,云服务商的毛利率中枢上移了5-8个百分点,产业生态得到了优化和重构。
DeepSeek的爆火,也在科技行业引发了一轮投资热潮。各大科技公司纷纷加大对云和AI基础设施的投资,以满足不断增长的算力需求。阿里巴巴集团CEO吴泳铭宣布,未来三年将投入超过3800亿元,用于云和AI硬件基础设施。这一投资超过了阿里巴巴集团过去十年投资总额,可见其对AI领域的重视程度。百度也宣布将16亿美元投入云与AI基础设施建设,以提升自身在人工智能领域的竞争力。
这一轮投资热潮,不仅为云计算产业带来了新的发展机遇,也为国产算力的发展提供了契机。长期以来,英伟达的GPU满足了云计算企业九成以上的需求,但DeepSeek的出现给国产算力提供了可能。沐曦、摩尔线程或者华为昇腾GPU获得越来越多云计算平台或终端企业的接纳。中国芯片企业也紧紧抓住这次机遇趁势而上,如昆仑芯就完成了全版本的适配,并在蛇年开工当天宣布已经点亮了其新一代产品P800万卡集群;2月20日,昆仑芯又官宣在P800上实现单机部署满血版。