本文介绍了作者去国内公有云单位交流的经历,详细阐述了DeepSeek开源后智算基础设施的优化情况及其对传统云计算厂商的影响。文章介绍了智算基础设施的优化手段,包括计算、通信和存储等方面的技术,并指出这些优化对于传统云计算厂商在智算时代的重要性。最后指出优化不好的AI infra会赔钱,而正确的姿势是技术反思、优化和提升。
计算方面的优化包括算力加速和硬件优化,通信方面的优化包括智算集群通信优化与并行计算,存储方面的优化包括智算集群存储与数据处理。
DeepSeek的开源技术使得传统云计算厂商能够跨越到智算服务商的时代,通过优化智算基础设施,提高算力输出,实现盈利。
如果优化不好,AI infra可能会赔钱。正确的姿势是技术反思、优化和提升,通过深入研究和实践来提升能量利用效率。
本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。
我前两天去国内一家TOP前几的公有云单位交流。
我们提前预约了对方的一个部门领导,但是到了之后,对方草草聊了几句,就不好意思说道,要去开会。
这个会是集团的技术老大召集开会,这个不能缺席。
会议的议题就是DeepSeek开源之后对一些方向对策。
并且,从春节后,这种会议,就没有断过,都在后DeepSeek之后,思考云基础设施如何在智能领域的下一步发展的发展规划。
最后,对方的一个下属接待了我们。
后来交流得知,从DeepSeek出来之后,他们云上空闲的算力都被其他厂商买走了。
也就是说,现在囤积算力也是一个生意。
有人还在纠结,算力基础设施能不能盈利的事情。
别人已经实实在在感受到DeepSeek带来的真金白银了。
在我看来,智算中心可以这样分类:
前DeepSeek时代:
在DeepSeek出来之前,很多算力基础设施有没有人用都是疑问。
后DeepSeek时代:
DeepSeek出来之后,推理算力已经成为了紧俏的资源。
传统的云服务厂商,当年囤积不少算力机器。
这是因为云厂都有一些超前预测(forecast),肯定会超前部署一些带GPU的智算服务器。
这就和十几年前,超前建设城市主干道一样,双向12车道,但是没有什么车。
超前建设的困境是,这么多智算服务器,但是上面的应用其实是不多的。
和马路修完,车不多,一个道理。
但是,建设智算服务集群和修马路本质上一样,都是基础设施(infrastructure)。
所以智算集群就被叫做(AI infrastructure或者 AI infra)。
基础设施就需要有前瞻性。
对于这些资金雄厚(几百亿营收甚至更多),重资产(每年都要新增几十亿的服务器),重硬轻软的基础设施厂商来说。
搞了半辈子的云计算的IaaS(基础设置即服务),PaaS(平台即服务),SaaS(软件即服务);
到了智算时代,跟不上步伐了。
因为玩法变成了Chatgpt这种,玩法是MaaS(Model as a Service),大模型即服务,通过将机器学习模型作为服务提供给用户。
GPU买了,智算服务器装好了,智算中心搭建了。
模型却没有了。
整好,有人雪中送炭。
DeepSeek模型开源了。
算力,咱有的是。
MaaS,这个也能闭环了。
对于传统的公有云厂商来说,不能说只是雪中送炭,而是在AI时代拿到了一个入场券。
DeepSeek出来后,推理的需求一下子就起来了。
智算中心买的这些GPU算力服务器,不论是插了N家的卡,还是国产的GPU卡,一下子都找到了应用的地方。
DeepSeek大模型的推理,需求一下子起来了。
DeepSeek开源,让传统云计算厂商一下子找到了智算时代的入口。
同样的道理,还有前几年建设的各种智算中心。
这些算力或多或少都会有更多的需求,而不是算力闲置。
DeepSeek开源把云计算厂商或者基础设施提供厂商“扶上马”。
但是,最近有人质疑这种模式的可持续性。
有人质疑,把算力转换成deepseek的服务(MaaS),到底赚不赚钱?
还有人计算,说DeepSeek月亏4亿。
有人则说亏不了这么多。
反正各有各的道理。
赚钱的也不能大张旗鼓的说自己赚钱了。
赔钱赚吆喝的也不能说,自己为什么免费?
无非为了获客,引流,培育市场等互联网“羊毛出在狗身上”常用手段。
这周开始,DeepSeek密集的发布了一周的技术开源。
变相的通过技术手段回应了这个质疑。
MaaS到底赚不赚钱?
理论上,只要更少投入(买机器的钱,电费,运营)可以做到更多的token产出,卖token的钱大于投入的钱,这个生意就是成立的。
但是问题就出在这里。
智算基础设施的优化和模型息息相关。
有人优化的好,就是百倍的产出,自然是赚钱的。
有人优化的差,卖的token还赚不回电费来,自然是赔钱的。
而这个优化,就是指的智算基础设施(AI infra)的优化。
本质上,这种在云计算时代也是这样算计就是降低TCO。
在云计算时代,对云计算的计算节点,网络节点,存储节点进行优化,,不过科技树是点在虚拟化/裸金属,负载均衡/OVS,分布式存储等方面。
不过在智算时代,计算,通信,存储的优化和云计算完全不同。
这些知识只能从头再来。
精耕细作,增加产出。
只不过,在智算时代,这些手段还都处在konw-how的阶段。
这个星期开始,DeepSeek把这些konw-how逐渐的发布出来。
这些开源的技术,本质上,就是手把手的告诉基础设施服务商,也就是如何优化智算基础设施。
让这些智算中心能够单位成本有更多产出。就是同一块地,能够多打粮食,自然就赚得多,同样一块地,种出的粮食少了,自然赔钱,甚至饿死。
那么DeepSeek是如何优化底层基础设施?
我们来看,开源周每天发布的技术分别是:
-
-
-
-
第四天:DualPipe、EPLB、profile-data
-
我们按照我的理解,把这些优化手段,分为三类。
分别是计算,通信,和存储(和云计算时代保持一致)。
一、计算:算力加速与硬件优化
-
FlashMLA
针对英伟达Hopper架构GPU优化的解码加速技术,通过动态内存调度和并行计算优化,显著提升大模型推理速度,在H800 GPU上实现3000GB/s内存带宽和580TFLOPS计算性能,支持变长序列处理,显存占用降低45%。
-
-
DeepGEMM
基于FP8(8位浮点)的通用矩阵乘法库,支持混合专家模型(MoE)训练与推理加速,在Hopper GPU上实现1350 TFLOPs计算性能,代码仅300行,小批量场景加速比达2.7倍结合即时编译(JIT)与CUDA核心优化,平衡速度与精度,减少显存占用。
二、通信:智算集群通信优化与并行计算
-
DeepEP
首个面向MoE模型的开源专家并行通信库,支持低精度(如FP8)数据传输,优化多GPU间通信效率。
-
DualPipe(双向流水线并行算法)
解决传统流水线并行中的等待时间问题,通过双向调度实现计算与通信重叠,提升训练效率。
-
EPLB(专家并行负载均衡器)
动态分配专家模型任务至空闲GPU,避免资源闲置。支持冗余专家与动态调整高负载专家。
三、存储:智算集群存储与数据处理
-
3FS(高性能分布式文件系统):
解决AI训练中TB/PB级数据的存储与访问瓶颈,支持SSD+RDMA硬件优化,实现超高吞吐(6.6 TiB/s)与低延迟。解耦计算与存储资源,支持强一致性,适用于模型检查点保存、向量搜索等场景。
-
Smallpond:
基于3FS的数据处理框架,简化数据清洗、转换与加载(ETL),支持大规模AI训练与实时分析。
DeepSeek的开源,利好云计算厂商。
特别是在智算时代囤积了大量算力的厂商。
这些智算基础设施优化之后,可以发挥出,十倍甚至百倍的算力输出(token)。
着实是“扶上马再送一程。”
对传统云计算厂商来说,一下子从云计算服务商跨越到智算服务商的时代。
大家可以关注下这些厂商25年的营收,或多或少,都有不少的收获。
而今天DeepSeek公布模型推理成本,采用大规模跨节点专家并行(EP),计算通信重叠、GPU 分配均衡的计算负载、通信负载,实现H800 GPU集群545%的成本利润率。
对于DeepSeek来说,属于收官之战。