更多投研资料点击进入知识星球
。
转
星球内每日更新内容超300条
发文章至朋友圈或微信群,即可免费获得一周调研纪要合辑
Q:
我们看到国际上有很厉害的
AI 相关公司的
大领导说过,对于算力成本,在训练和推理方面,推理的算力成本可能要达到训练的
5 ~ 6 倍,不知道
DeepSeek 有
没有可能节约一部分训练成本,但是在推理角度会造成更大规模的算力需求呢?
A:
关于训练和推理的成本,训练成本高是和其架构、算法等因素都有关系的。像迪克森受到国际关注,正是因为它的算法和架构相较于国际上主流的
AI 大模型,已经进行了优化,不需要那么多的算力。而且它加入了强化学习算法,这样就不需要再通过大量的数据标注工作,从而减少了相关工作量。从训练的角度来讲,因为我们是按照参数来计算的,多少参数就对应着多少匹算力,或者通过 token 也是有规律的,所以训练成本相对较高。而推理方面,由于推理是不断持续的,参数会不断累加,这是一种并发式的过程。当每个人,尤其是终端用户去使用时,会产生海量参数,在进行推理时就会用到比较多的算力。不过,AIGC 这个领域未来到底能不能达到预期其实还不好说,这要看科技的进步情况,也要看大家从开源的角度,或者是各方能否将一些已有的基石进行共享,这一点是很重要的。另外,刚才提到国际上大咖说的推理成本可能比训练高出多少倍,那也是基于他们现有项目做的统计和估计,我们没有相关数据,所以只能作为参考。
Q:
刚才提到有人类比第一次或第二次工业革命时英国的情况,当时英国煤炭使用效率提高了五倍,但是煤炭使用总量提高了
20 倍,在使用效率提高的同时刺激出更多应用使煤炭使用量提高,不知道这样的逻辑在 AI 领域是否同样成立,低成本的训练和低成本的算力,会不会刺激出更多的应用,进而刺激出更大的算力需求和数据中心的市场规模呢?
A:
这种情况在
AI 领域是会出现的。一方面,我们看到迪信的开放吸引了更多云服务商以及平台进行接入。比如这两天我们可以看到一些课程教程,像我们常用的办公软件 WPS,也在教用户怎么去接入 DCM re 这个模型。但同时也存在一些理性的声音,比如有些是进行私有化部署,因为有些接入是通过 API 的。总的来说,每次进行调用以及使用的时候,其实都需要算力的支撑。如果越来越多的人去使用,当算力支撑不上的时候,像迪信的官方就会出现服务器繁忙这样的提示,这其实就是算力不足的体现。有一些可能想通过接入模型来吸引流量,会说已经接入模型并可以开放式使用,但在目前阶段,更多的还是通过流量去吸引更多用户群体的作用更大一点。如果能有更多的应用去使用,也必须有一些比较大的服务商提供支持。比如电信运营商,他们有较多的闲置算力,能够给到模型较好的算力支撑,这样才不会遇到算力不足的问题。但同时,如果用户群体不断扩大,对于既有设施的算力需求就会越来越大,这一点虽然我们无法确切预知,但可以从一些已经成熟接入的案例中进行观察。另一方面,目前国内在建和规划的米线税中心、资源中心项目还是比较多的,整个的需求和市场的需求匹配并不是很均衡。就从 1 月份来看,已经有几十个计算中心进行备案了,后续是否会越来越多呢?这其中有几个点需要考虑。第一就是作为算力服务商,它本身的综合实力、资金以及业务能力,会决定它在部署迪斯尼或者其他 AI 模型时,用户群体的累积情况,以及从一个亮点到扩张的过程。
Q:
第三个问题是关于算力中心的格局,过去看新能源的人对这方面比较外行,我们更多会关注一些像字节、快手这样国内领先的互联网龙头企业,在新的发展趋势下,不知道这些互联网龙头企业对于算力中心的投入以后会不会更倾向于自发投入,还是会租用第三方的?又或者说大家对于算力中心的投入可能自己愿意投的更多,但是对于一些传统的存储用的数据中心,可能是什么情况呢,对于这一块数据中心的格局,未来会有哪些影响呢?
A:
刚才提到的字节、快手都是比较大的互联网科技公司。目前国内很多制算中心或者数据中心,有很大一部分客户都是针对像字节这样的需求。字节有很多业务板块,比如今日头条以及抖音等多个平台,都需要算力的支撑。其次,像算法方面,
AI 对于他们原有的海量数据进行分析以及优化,也需要相应的工具。基于模型来看,他们在研发角度是有关注的。字节旗下的火山引擎类似于云的服务商,它所提供的能力和服务内容,虽然现在还没有到正式对外比较成熟的阶段,但相信是有一定实力的。而快手比较特殊一点,它基于短视频平台,有一部分和字节类似。目前快手除了自建的数据中心,也有租用的情况,不过它的租用数量没有字节那么多。字节前期主要考虑以租赁为主,目前也在考虑自建。每一个比较大的科技公司对于自身业务需求以及基础设施支撑,都会经历这样一个过程,而且从业务角度来看,他们会有自己的侧重点,不是追求大而全,而是根据自己的用户群体以及规划来突出优势。
Q:
请问这个行业机会的潜在空间怎么测算呢?
A:
对于这个行业机会潜在空间的测算,一种方式是需要相应的数据支持,可以从芯片服务器的出货数量进行测算。另一种方式是从目前市场上计算中心这一侧,以部署的上交率,或者是对算力的统计,包括规划以及已用的数据等方面进行测算。但这里面都需要一定的数据支持,而这些数据的来源也没办法进行完全统计。
Q:
想了解一下最近这个行业里面,除了之前像字节有传闻的翻倍的高增速资本开支计划,其他云大厂有没有出现对于
AID seed 这种自硬件的资本开支的明显扩张呢?先进运营商算吗?
A:
先进运营商也算。因为最终这些资本开支还是会落实到各种各样的云服务上。在云服务商中,华为可能会有明显扩张,因为它已经在它的云平台接入了即兴这个模型。像青云也已经明确接入了。其他的云服务商,比如腾讯,目前基本上云的服务商都会接入这个即兴模型,并且可以提供应用的支持,也提供了包含这个模型以及算力的支持。但这里面会涉及到成本问题,因为如果不通过官方
API 调用,大家也看到了相关新闻,官方 API 调用的价格已经上涨了。对于第三方云服务商来说,接入相应模型,以及提供模型的部署和算力调用,是要看应用本身的需求,比如存储、带宽以及算力的需求等,这些都是有成本的。短期内,云服务商对成本会比较敏感。而小的云服务商,估计对算力的支撑不是很足,最大的算力支撑来源应该还是电信运营商,因为他们原有的部署已经有很多算力,能够满足相应的需求。
Q:
那另外我想问一下,因为传统的那种
IDC 以前在没有 AI 出现之前,只是提供传统的云计算服务,现在多了一个计算中心,这个计算中心是完全新建的,还是说可以从以前老的那些 IDC 当中做一些硬件改造,从而完成升级呢?一般是怎么操作的呢?
A:
传统的
IDC 从去年开始,一般是通过改造升级的方式,或者在原有已部署投产的机柜基础上进行上架操作。因为不同客户的接入部署情况有所不同,比如按集群来算,可能会有 32 台、64 台、128 台等不同数量的设备。他们通常会先把新的 AIGC 业务放置在原有机房里。当原有机房无法满足需求时,才会进行扩建。但扩建并非仅仅是为了当前的业务,因为 IDC 之前很多业务是服务器租赁,例如裸金属这种租赁方式。然而,这种租赁方式的周期一般为 3 到 5 年,稳定性欠佳。谁也无法确切预知三年后、四年后或五年后,客户是否还会继续续约。而且,租金价格肯定会随着时间回落,不会一直维持在最初签约的价格水平。这也导致了很多上市的公司在一开始部署算力时,由于市场变化等诸多原因,很多合约提前终止。对于一些比较大型的服务商来说,会按照他们原有的计划进行建设,只是现在很多新建项目主要以计算中心为主,而不再单纯围绕传统业务进行建设。
Q:
好的,那要不我这边先补充一个小问题,我们比较关注柴发的情况,不知道目前这个柴发的紧缺情况,是柴油发动机相对供应偏紧吗?目前这些大厂或者大型的数据中心,对于进口柴发和国产柴发的态度是怎样的呢?之前年前听说有一些像字节、快手,是不是有计划想认证一些国产的柴发作为备用电源,不知道目前的认证进程怎么样呢?
A:
关于柴发,随着大量计算服务器的上架,很多数据中心的交付周期如果被压缩得比较紧,那么对于设备的采购就会产生一定压力。去年有一段时间,国际上的柴油发电机供货确实比较紧张,这是因为其本身的交付周期就相对较长。像字节这样的公司,他们会有一个白名单或者品牌库。字节在柴发方面一般使用
MPU 的情况较多,也正是因为字节要大量采购 MPU 柴油发动机,所以在一定程度上导致了柴发的紧缺。而且,不只是字节,像阿里、腾讯,从他们建设数据中心开始,对于设备采购都有自己的品牌库,电信运营商也是如此。
Q:
下一个问题我想请教一下,因为今年
1 月份咱们在深圳开会的时候,您也介绍过,整个数据中心的建设数量在去年下半年呈现出了一个比较加速的趋势。您刚才也提到在 1 月份,又新增报了很多的这种数据中心的立案或者申请,不知道 1 月份新增加的这些数据中心申请的数量处于怎样的数量级?会不会导致数据中心建设出现多快的增速呢?
A:
1 月份的情况比较特殊,因为刚好处于中国的春节时期。从 1 月份的相应统计来看,第一周有 11 个算力中心项目进行了签约、开工、封顶以及投运等操作。第二周有 29 个相应的算力项目有了新的进展,其中 11 个是属于备案的项目,9 项在进行招标,另外 9 项是进行签约、开工、验收以及投产等环节。到了第三周,有 37 个算力项目有了新的进展,其中 29 项是属于备案的,这些备案项目分布在山西、青海、湖北、内蒙古等区域,还有 8 个项目处于签约、开工、封顶、送电以及投运等状态。第四周有三个项目处于新立项的状态,四项属于签约,有 12 个项目纳入到了像河南省这个重点建设的名单里边,有六项六个项目进行了封顶、投运以及优化升级等操作。从这样的趋势来看,如果要具体明确增速比例的话,我需要先进行详细统计之后才能得出准确数字,目前我没办法给到确切的比例数据。
Q:
下一个问题是关于这个
UPS 相关的一些备用电源的,因为最近还是经常会看到这个问题,上次也请教过您一回,最近还是看到很多因为算力中心的算力要求在提高,有的算力中心认为要么就是 HVDC 这个高压直流的方案可能更适合现在新的一个算力中心,也有说像巴拿马电源可能会更适合现在新的算力中心的要求。您对这一部分是怎么看的呢?
A:
对于
UPS 备用电源,在供备电系统里存在两种供电方式。一种是 UPS 加电池再加柴发的方式,另一种是像腾讯、阿里等公司采用的直流高压直流电源方式。这两种方式的技术架构是不同的,很难说哪一种更好或者更差。UPS 这种架构比较传统,从上个世纪一直到现在,仍然是比较主流的供电方式。而高压直流电源从 2010 年代左右,在腾讯、阿里等处于云服务时代的时候开始较多使用。对于他们来说,会更加注重电源的转换效率以及电源的使用率,因为他们的规模较大,所以对成本会比较敏感。像巴拿马电源这种技术,是对传统供电方式的一种创新。我们之前提到,目前很多设备都有了电力模块,而电力模块主要是在中低压的部分。所以可以说巴拿马电源是一种技术创新,未来可能会有越来越多的架构采用这种新的模式。但从末端来看,还是要考虑客户的具体情况。互联网行业的服务器迭代速度非常快,所以他们有一整套自己的流程和方案。从创新的角度来看,这是一种驱动因素。而对于一些传统业务来说,特别是对于电池是否进入主机房,他们会有很多顾虑。因为从数据中心的角度来看,安全是首要考虑的因素。有很多事故可能是由于人为或者设备本身的原因,当电池放在主机房里时可能会引发火灾等情况。例如银行的金融数据中心,他们绝对不会把电池和服务器放在主机房里。但对于互联网行业来说,他们可能觉得无所谓,因为在云服务时代,每一台服务器、每一个机柜都是经过验证的,并不是说技术存在问题,只是很多风险是由多种原因共同导致的,并非出现在单个节点上。
Q:
关于您之前提到的英伟达芯片,咱们国内理论上肯定买不到英伟达最新的芯片。不知道我们现在通过一些其他拐弯抹角的方式能买到多少英伟达芯片呢?另外,我们国内的这些算力中心使用的英伟达芯片,主流的会比海外老几代呢?
A:
其实,国内使用的英伟达芯片不会比海外老好几代。就目前情况而言,在去年的时候,比较主流可用的芯片是
H100 或者 H8 会多一些。特别是 H1 系列,从去年上半年开始,逐渐进行迭代更新,终结为 H2 系列。而 H2 系列肯定也在美国的禁售清单里面。不过,国内想要购买英伟达芯片还是能够买到的,只是风险在于获取的渠道,在整个过程中存在一定风险。对于英伟达以及像台积电这样能够与之合作的公司,一般都是在新加坡注册的海外公司,这些公司处于白名单内,是可以进行下单操作的。它们可能会经过两三次流转,然后再进入中国市场。所以,只要你有足够的资金预算,并且财务流程方面能够支持,实际上还是可以买到货的。但这里的风险就在于,你对接的渠道是否可靠。因为在国内,大部分我们所知晓的有相关需求的主体,很多是具有国资背景的国企。对于这些国企来说,他们不会直接去采购英伟达芯片,而是可能会通过合作的公司去进行采购。这样一来,在流程、付款方式以及商务条件等方面就可能会出现谈不拢的情况。有些谈不拢的情况存在,也有一些胆子较大、资金比较充足的主体,可能愿意先出钱把货买进来存放着,然后再寻找买家出手。然而,像这样的操作也存在一定风险。因为有这类芯片需求的客户数量其实有限,可能就那么几家。今天客户表示想要购买,但当你买回来之后,他又不要了,这就很有可能会对资金以及成本方面造成一定的压力。另外,从比较特殊的情况来看,目前有一款英伟达的 GB 200 芯片,它主要采用液冷这种散热方式。对于这款芯片,英伟达是指定了合作供应商的,是来自台湾的一个集团。在国内,这款芯片通过合规的渠道可能很难进入。因为它不像 H100 或者 H200 芯片,进来之后就算一个柜子放一台或者两台,还能够解决散热的问题。但 GB 200 整体是以液冷集成和组装的,所以进入国内市场就不是那么容易了。
Q:
专家您好,我想问一下,您刚说这个
1 月份这些上报申报的这些数据中心,有些备案在山西、青海、湖北这些相对比较偏远的地方。我想问一下,这些项目的体量大概都是多少兆瓦呢?然后它们主要的所有者是谁,是当地政府建设的,还是说有一些互联网大厂的需求,所以建在这种比较偏远的地方呢?还有就是对于未来推理的数据中心的展望,您觉得从您的角度来看,这些大厂会把这些推理用的数据中心或者服务器,选择部署在一线城市周边比较多,还是距离不是特别大的考量因素呢?就这两个问题。
A:
关于这些项目,一般来说政府只是起到牵头的作用。因为我们都清楚,政府本身并没有足够的资金,也没有相应的资金实力来独自建设数据中心。所以,通常都是政府或者国资进行牵头,大部分情况下是与产业方进行合作来建设数据中心。从规模上来看,目前这些项目还不算是特别大的规模,可能也就是有几千台设备或者几千个机柜这样的一个规模。我们这边也有发布这些项目的一些动态信息,如果有需要的话,回头我可以给大家提供一份媒体简报,大家可以通过简报来详细了解一下。
对于第二个关于推理业务的问题,因为推理业务毕竟是要开放的,就目前的情况而言,能够使用的算力可能还是偏向于国产的算力会更多一点。至于数据中心部署在哪里,由于推理业务对于网络还是有一定的要求的。基于成本和业务需求的综合衡量,在一线城市周边会有部署,在一些周边地区也会有部署。但是像特别偏远的地方,比如新疆,虽然新疆也是计算中心建设比较热门的一个区域,项目也比较多,但是由于网络延时的问题,新疆可能不是一个非常理想的部署地点。不过,基于国家的数据节点,像京津冀地区、长三角以及华南区域,还有像河南这个区域等,都会有数据中心的部署。
Q:
谢谢专家,想再补充一下,就是您怎么看乌兰察布这个地方?您刚说网络是有节点吗?但是乌兰察布这个地方我理解是去年大家在这边建设得比较多,那您觉得它这一块以前可能用来训练,那以后有没有可能再去转型做推理呢,即便它的距离位置不变?
A:
乌兰察布是有这种可能性的。因为乌兰察布距离北京比较近,虽然它的骨干线可能连接的是中布奥特这边。但是关于网络的问题,是可以通过接入转发等方式来解决的。所以,乌兰察布在未来是有可能从以前主要用于训练转型为也可以进行推理业务的,尽管它的地理位置没有改变。