专栏名称: 三思行研
真相就像诗词,可绝大多数人都讨厌诗词。
51好读  ›  专栏  ›  三思行研

服务器液冷专家交流纪要

三思行研  · 公众号  ·  · 2024-03-08 15:00

正文

摘要
1.服务器液冷市场现状与未来趋势
当前,服务器液冷技术在市场中的渗透率尚处低位,但随着英伟达B100芯片的广泛应用,预计服务器液冷市场的增长将出现显著提升。国内服务器市场规模约为1900亿元,其中液冷服务器占比约16%。

2.液冷项目成本结构及展望
在高性能计算数据中心项目中,T设备如服务器、存储交换机占据总投资成本的85%-90%,而基础设施建设如机电设施、土建工程和装修则占10%-15%。机电部分占据了较大比重,其中暖通制冷系统约占机电投资的75%左右。在液冷项目中,暖通制冷的成本大约为整个项目总成本的2.6%尽管服务器内冷板成本在服务器整体成本中所占比例较小,但由于其材料(例如纯铜)以及加工成本较高,不容忽视。外部液冷系统的综合成本,包括管路、CDU(冷却分配单元)、冷却塔等设备,大致每千瓦约为4000元,价格会因不同的冷却方案而有所波动。
3.液冷材料选择与工艺探究
公司主要采购并制造铜板和铝座作为关键材料,铜板虽然单体价值不高,几十元即可购买一斤多的铜板,但铝座则是外购的铸件。铜材用于直接接触CPU的关键部件,因其优良的热传导性能;而成本较低的铝材被用于固定铜板和CPU,发挥支撑作用。公司产品采用三层精密流道设计,以提升热传导效率和降低阻力,核心散热层由铜制流道构成

4.高敏感性需求与成本控制
液冷系统的最大挑战在于确保密封无泄漏,以免对昂贵的服务器芯片造成损害,零泄漏是液冷产品的基本底线。液冷技术壁垒较高,不同厂商间产品质量存在差异,产品合格率成为衡量广商实力的核心指标。液冷系统还包括如CDU和分气管等复杂的热管理组件,它们对于冷却液的控制和分配至关重要,要求具备优异的抗酸碱腐蚀能力和精确的热交换效能,尤其是CDU的抗腐蚀设计与精准密封处理,是提高产品可靠性的核心环节。

5.CDU成本解析
在服务器液冷系统中,CDU由于内部集成了水泵、电子元件等多种关键部件,成本和技术含量较高,成为系统的重要组成部分。尽管主要部件如水泵、不锈钢管路、控制器大多依赖外部供应商,但内部负责组装及部分控制部件的生产。尽管国内有如凯旋(Kaixuan)和中金环境等相对经济实惠的供应商,但在关键技术上与国外高端品牌仍存在一定差距。
6.液冷技术发展趋势与成本分析
液冷技术正在稳健发展,冷板液冷凭借成熟的技术和较低改造成本,占据国内市场90%份额,而浸没式液冷尽管初期投资大、配套设备限制多且成本高昂,却因节能等优势被视为未来发展方向,尤其适用于新建数据中心。液冷部件的价格差异显著,泵和CDU等设备成本从数万元至数百万元不等,因此,初期设备选型和成本预算是至关重要的决策因素。

7.技术壁垒与服务器市场竞争格局
公司在液冷技术领域拥有独特的竞争优势,其单千瓦价值量和毛利率均表现出色。公司的冒泡相变片生产工艺具有较高的技术壁垒,目前在国内能够实现大规模稳定生产的仅此一家,竞争对手难以复制。此外,公司通过与中科曙光合作,针对特定芯片与服务器进行定制化液冷产品开发,这种专用设计增强了客户粘性,使得其他芯片和服务器难以兼容使用
Q&A
Q:目前我国服务器液冷市场渗透率如何,比如传统服务器、训练服务器和推理服务器的液冷使用情况?
A:我国的服务器市场在过去两年的规模大约在1900亿左右,其中液冷服务器的市场规模大概在120亿,占比大约16%点几。这个比例本来有望更大,但因为近期对购买英伟达芯片的限制,原本预期的增长未能实现。目前普通训练服务器和推理服务器的液冷渗透率不同,训练服务器渗透率相对较低,而推理服务器则较高。超算服务器在我国也只是占据了一百多亿的市场规模。在购买训练服务器的各互联网厂商或下游中,大部分还是会选择使用液冷,尤其是那些建立大型算力中心的企业,但一些科研机构、学校可能会选择风冷服务器来搭建较小的环境。总体上,对于高性能计算需求来说,绝大多数是液冷而非风冷。
Q:能否提供一些你们做过的液冷项目案例,以及在这些项目中液冷系统、配电系统的价值量?
A:在我们做的一些直算数据中心项目中,T设备(包括服务器、网络设备、存储等)占据了整个数据中心总投入的85%以上,接近90%,而液冷等基础设施投入占比则不到15%。这些IT设备绝对是投资的大头,与此同时,二级结构设施如机电、土建、装修和照明等其他杂项占比在10%左右。
Q:机电部分在数据中心成本中所占比重如何?
A:在数据中心总成本中,T设备占87%,剩余13%为其他部分,其中机电部分,主要包括供电和暖通制冷,占据了约75%。而在液冷项目中,暖通制冷的成本在整个项目中的比例大约为20%,约占2.6%。
Q:服务器与液冷系统的价值量分布如问?
A:对于液冷服务器,冷板在服务器中占的比重较小。一台配有8个GPU的训练服务器冷板部分大约两三万人民币,总体占比不高。辅助冷板的设备,包括CDU(冷却分配单元)和管路等,每千瓦造价大约在4000元左右,涉及外部连接的管路和设备的成本相对较高。
Q:液冷的相关部件在成本中的分配如何?
A:详细拆分下来,管路和阀件大约占2000元,CDU的成本约为1000元,外部的冷却设备约500元。这些价格并不是固定不变的,会根据制冷方案和设备的不同有所变动,通常价格范围在3500到4500元之间。
Q:制冷服务器内部的硬件成本和价值如何?
A:服务器内部的冷板需要进行精细的加工,加工成本较高,并且使用的是成本较贵的铜材料。而且,需要考虑材料费以外的人工费和检验费用。公司的产品毛利一般在50%,这意味着材料、人工、研发等成本总和约为产品售价的一半。
Q:随着规模的扩大,成本是否有可能降低?
A:随着产量增加,规模化生产将降低成本。
Q:铜板的物料成本是多少?
A:如果单看铜板的成本,块重量大约为1斤多,须知我们购买的是已被切割成特定尺寸的铜板。以前的价格并不是很高,一斤多铜的成本可能在上百块人民币左右。
Q:你们的铜板主要从哪些厂商采购?
A:我们从专业的铜的制造商采购铜板。至于合作的具体供应商,我可以在会后给您反馈。
Q:除了铜板,你们是否也使用铝板?
A:铝座是我们从外部供应商那里采购的。我们不自己制造是因为涉及到模具开发、某些加工工艺以及对环境潜在的污染问题。所以,我们使用的是铝材质的底座,因为铝相比其他材料便宜又质轻。一块铜板对应的铝座的重量大约在200到300克之间。
Q:铜板是否一定使用纯铜,还是有其他的材料?
A:我们使用的确实是纯铜,不会使用复合铜。
Q:铜板和铝座是如何与GPU结合在一起?
A:铝座的作用是固定功能。铜板表面贴合芯片,铝座则作为底座,用于将铜板上的GPU芯片固定在PC板上。这个结构有助于通过液冷系统有效地散热
Q:铜板中的冷却液是什么组成?
A:铜板中使用的冷却液通常是乙二醇或丙二醇。整个铜板结构其实分为三层:两层铜壳由上下构成,中间是流道层。冷却液就流经这个中间的流道层,通过特定的加工工艺,这些层在钎焊炉中焊接合成为一体。设计考虑了高效的热传导和低流体阻力,部分加工还包括制作极细的铜瓷片,厚度至0.02毫米,类似于空调外机所用的铝箔。
Q:铜板是否都有接口用于连接,还是多个铜板焊在一起共用接口?
A:每块铜板都会有单独的接口。整个液冷系统是通过管子将各铜板串联起来的。外部会有两个接口连接至次级设备,以形成完整的液冷循环系统。
Q:服务器液冷系统在实际运用中最大的挑战是什么?有哪些难点或技术门槛?
A:服务器液冷系统的核心挑战是确保不发生任何漏液情况,因为液体可能损坏昂贵的硬件,比如几万美金的GPU芯片。解决这一挑战主要依赖于密封技术和漏水检测系统的灵敏度。另一个难点是在材料成本和有效散热之间找到平衡点,使用尽可能少的铜质材料,同时保持出色的冷却效果。此外,随着芯片功率密度的提高,例如NVIDIA的显卡,散热系统承受的压力也更大,系统需要能够高效地带走更多的热量。目前有3DVC和负压方案等技术尝试来提高散热效率。
Q:即使是大型厂商生产的液冷系统,也有发生漏液的风险吗?
A:是的,所有厂商生产的液冷系统都有可能发生漏液,包括华为等大品牌在内。漏液问题有时并不是由硬件本身造成的,而可能是循环介质如乙二醇或丙二醇出现化学变质或腐蚀导致的。密封性和正确处理冷却液对预防漏液至关重要。
Q:目前冷板液冷系统中使用的冷却剂有哪些,使用它们的目的是什么?
A:通常使用的冷却剂包括乙二醇、丙二醇和去离子水,它们的成本都不高,因为这些都是大规模产生的工业化产品。有实验正在探索使用制冷剂,例如静默式液冷使用的类似家用空调中的制冷剂。制冷剂的优势是即使发生漏液,它也会蒸发,不会损坏硬件。使用制冷剂可以提高液冷系统对热量的散发能力。
Q:冷板液冷系统的功能模块包括哪些关键部分?有何作用?
A:关键功能模块主要包括CDU(冷冻水分配单元)、板式换热器和相应的管路系统。CDU起到的主要作用是对冷却液进行分配和热交换,它内含水泵,为系统提供动力进行循环。板式换热器的作用是通过水进行热交换,从而将热量传导至外部的冷却塔或干冷机,并最终通过水蒸发或风冷将热量散发到大气中。管路系统负责将冷却液分配到每个服务器。这些部件在防腐蚀以及密封上面临挑战,务必要保证连接处密封严密,避免漏液。
Q:液冷系统中,冷冻单元(CDU)的成本占比是否较高?CDU中的泵和控制设备对成本有什么影响?
A:CDU的成本占比相对较高,因为CDU里面包含了水泵、发电设施和众多控制电器设备。由于管路使用的是不锈钢管路,且比较长和粗,这部分的制造成本也是比较高的。如果客户有2N配置的需求(多余一套设备以备用),这样也会对CDU的成本产生影响。一个CDU中的泵有可能价值数万甚至是几十万人民币,这取决于需求而定,泵的成本在整个CDU里面也占有一定比例。
Q:在您的液冷系统中,有哪些部件是自制的,哪些是外部采购的?
A:对于液冷系统中的部件,像泵、发电机和冷却器这类设备我们是采购的,不锈钢管路是购买回来后我们自己进行焊接的。控制部分是由我们公司自己制作的。高低压压力传感器、温度传感器、液位传感器等控制传感器也都是外部采购的。至于板块,也是外部采购,我们会根据具体需求选择不同的供应商。
Q:泵等关键部件在选择供应商时,您会考虑哪些因素?除了国外的供应商外,国内有哪些品牌做得好?
A:泵这类关键部件,我们会选用国外的顶级品牌,比如格兰富,因为它们的可靠性和性能都比较好,比如流量、扬程、噪音控制和效率,这些品牌能提供更低的能耗和更高的可靠性。至于国内的品牌,我们也会采用,比如南方泵业,这是在模仿国外品牌方面做得非常成功的一个例子,它的质量是相当不错的,并且价格更便宜。
Q:在您的液冷系统中,贵的不锈钢部件和泵在成本中大约能占多少比例?
A:不锈钢部件由于出货量较少,其价格相对更高。至于泵,如果选择铸造不锈钢且指定特定品牌,则价格也会较贵。例如,一般大型的泵可能需要上万元人民币,如果是特定定制的大型泵,那价格就更高了,可能是几十万人民币。这个价格会根据泵的规格和客户的特定需求来决定。如果我们选择国内品牌,价格可能会便宜一半左右。
Q:国内外对服务器液冷技术的需求情况如何?哪些公司是领先的需求方?
A:国内外对服务器液冷技术都有需求。例如,像字节跳动这样的科技大广就有对特定品牌服务器液冷技术的需求。客户通常希望选择成本较高、可靠性更好的品牌,因为选用成本较低的国产液冷产品可能存在可靠性问题,长期来看可能造成更大的维护成本。
Q:冷板和浸没式冷却(积木式)在数据中心的应用情况如何?目前主流的冷却技术是哪一种?两者的成本、性能和应用场景有何区别?
A:目前在国内,数据中心的液冷解决方案中90%以上都是采用冷板技术。这是因为冷板技术成熟、实施起来相对简单,且在现有数据中心不需要做太多改动就能够适用。同时,服务器的改造和运维方式变动小,运维成本较低。浸没式(积木式)冷却技术虽然在寂寞输出和能耗效率(PUE)上有优势,但是改造现有数据中心的成本和复杂程度较高,且在运维上也比较麻烦。从长远来看,浸没式冷却因其高效节能和对环境友好的优势,可能成为一种发展方向。但在近几年,由于现有技术可以满足需要,预计仍以冷板技术为主流。
Q:目前液冷技术中,CDU的技术壁垒高吗?哪些部件是核心和成本较高的?






请到「今天看啥」查看全文