专栏名称: 有道调研
日常分享宏观经济总量需求; 行业景气度,上下游产业链关系; 企业财务变化、经营业绩拐点,管理水平; 为中小投资机构和个人投资者带来最新的投资研究报告。
目录
相关文章推荐
芋道源码  ·  千万不要滥用Stream.toList(),有坑! ·  12 小时前  
PChouse家居APP  ·  Deepseek怒怼ChatGPT,究竟谁更 ... ·  2 天前  
芋道源码  ·  java 插入式注解的打开方式! ·  昨天  
海宁19楼  ·  这周日,海宁这里有大事发生! ·  2 天前  
51好读  ›  专栏  ›  有道调研

DeepSeek:全球AI影响(算力)

有道调研  · 公众号  ·  · 2025-02-03 22:17

正文

(原版音频已上传知识星球内,可对照查看)

Q:大家晚上好,今天汇报的主题是deep seek对全球AI算力的影响,为什么说这是大家最关注的内容呢?

A:因为这和很多人的持仓有关系,尤其是对算力的影响最为直接,而且在这方面存在的分歧也是最大的。从目前能看到的情况来讲,在模型能力或者说执行模型能力上所需要的算力成本是在降低的。大家很关注这种降低对整体算力需求会产生什么样的影响,这里面涉及到预训练环节(free training)、后训练(post train)以及推理这三大环节的需求变化。在整个算力需求的演化过程中,会出现几个拐点。其中一个是整个算力需求的重心,会从前训练开始往后训练转移,这个拐点一定会出现。

Q:为什么说算力需求重心从前训练往后训练转移这个拐点一定会出现,且以欧系模型发布为代表呢?

A:以GPT系列模型为例,其思路是卷参数,像GPT1、2、3、4,虽然5还未确定是否推出,但大概率参数量会比较大。就如同V1、2、3,一个比一个参数量大,大一个数量级。GPT5能否推出,取决于全训练是否还有空间。目前,pretraining其实还没见顶,虽然公开数据可能用完了,但合成数据、私域数据、垂类数据都还可以使用。现在大家在预训练部分能用到的数据量级大概在20个token左右,还有一些非公开数据,比如互联网大厂和各垂类领域大公司里的私域数据、垂类数据以及合成数据都还未被使用。所以如果这些数据能用上,预训练就还有空间。由此可见,预训练环节的算力需求是否见底,就看后面GPT4、5能不能推出,要是能推出,retraining就依然有提升空间。而欧系模型代表的是后训练,现在O系模型才刚刚起步,所以后训练的提升也才刚开始。

Q:deep seek对训练模型做了什么,对算力需求趋势有什么影响?

A:deep seek降低了训练模型的成本,它采用了很多算法。从算力需求的趋势来讲,存在算力需求重心从前训练往后训练转移的点,也存在从训练往推理转移的点。也就是说,算力需求的重心会从预训练往后训练转移,从整个训练往推理转移。deep seek的出现有可能加速这两个拐点的出现,特别是训练到推理的算力需求重心的转变。这里面影响算力需求的变量比较复杂,各种因素都存在。今天的汇报只是基于现有的信息,因为后面可能还有其他变量影响,所以不一定非常全面和精确,主要是基于对行业的跟踪分析整理。

Q:关于算力的研究出发点和结论是什么?

A:研究出发点核心是想看看DPC模型对算力需求到底呈现怎样的变化,有没有定量方法把它刻画出来,以及对整个下游产业的影响会有怎样的变化。结论是认为该模型的迭代本身也是沿着其自身思路在走,所以模型迭代会带来持续的算力需求。对于下游模型产业的影响,觉得更多应该以增量的逻辑视角去看待后面的算力需求。一方面是大模型本身迭代,另一方面是大模型工程化应用的加速,所以对后面模型的需求整体持偏乐观态度。

Q:deep c各个版本有哪些迭代和技术应用,对算力需求有什么体现?

A:deep c在2024年以来经历了多个版本迭代,年初有V2,年底有V3,2025年有R1。V2到V3加入了多头注意力机制的优化,对乾坤网络模块进行了优化等;V3到R1采用了强化学习的方式,还使用了FP8的精度。这一方面在迭代模型以提高模型效果,另一方面通过各种工程化方式降低每一代模型对算力的需求。结果就是做出的模型很有性价比,性能能和全球最顶尖的模型比肩,但训练成本和推理成本只有人家的几十分之一。比如V3版本,在其技术报告里提到,做这个模型训练一共用掉了279万个GPU小时,总的训练成本投入是558万美元,用2048块H800完成预训练,耗时两个月。这里的训练包括预训练、文本上下文窗口的扩展以及后续三个部分,其中最大部分还是花在预训练环节。从其他版本模型来看,根据公开信息整理,第一代V1是2023年底或2024年初的67B模型版本,第二代V2用到2360亿的模型,第三代V3是671B的版本。模型语料方面,V1是两T语料训练,V2是8.1T,V3是17.8T。可以看出它符合scare定律,不仅强调参数放大,还注重模型参数和训练语料的同步放大。从GPU小时数来看,V3版本直接给出279万小时训练,V2版本在技术文档里提到用4243万小时,且相较于第一代67B版本节约了42%的训练成本,由此可推出V1版本是140万小时。这反映出在GPU投入上是在继续放大的过程,虽然V1到V2的放大比例比V2到V3更大,但本质上都是投入更多算力、更多钱、建更多集群来迭代自己的模型。基于小时数可以推算出消耗的算力,这是理论值,是直接按照消耗小时数乘上单个H800的峰值算力,还需乘一个有效算力比例才是真实算力消耗情况,但反映的结果是一样的,因为每个数据乘相同比例,核心是数据显示每一代模型投的算力、计算任务在成倍增长。训练成本方面,根据H800每小时两美金的报价,按照三个模型使用的小时时长,可算出成本投入从279万美金到558万美金不等。

Q:为什么模型预训练成本变化比例不是严格线性的?

A:如果按照严格的算力公式4.6NBS,模型放大比例应该就是最终消耗算力的变化比例,但实际从GPU小时数来看,不是完全等比关系。背后原因是在基站模型之间使用了一些优化算法来降低对算力的消耗。虽然总的算力需求摆在那儿,但是它计算的速度可以变得更快,或者说有效算力比例可以更高,从而导致最终消耗的成本与本来应该消耗的理论值存在一定比例差异。例如在V1到V2之间用的是MLA多头助力机制的模块。

Q:之前提到从V1到V3的数据主要是预训练环节的,那它能代表整个模型训练成本吗?如果不能,存在什么分歧?

A:从V1到V3的数据主要集中在预训练环节,这并不代表整个模型训练成本。目前除了预训练环节成本外,其他部分成本并不明确,这就是大家对DPC模型训练成本存在分歧的地方。虽然成本端不清晰,但可以从价格端来分析。deep seek模型的价格相比于OpenAI,大概是其十分之一左右,不同版本和能力下价格会有差异,但大致在这个范围。由于不知道训练成本具体多少,只能通过一些角度进行推断。一方面从呈现出的部分成本,另一方面从价格角度考虑,毕竟不会亏本售卖,OpenAI的价格在覆盖成本外可能还会有盈利考虑。综合这两方面,推测deep seek模型训练成本可能是OpenAI的五分之一到十分之一,但这个数据缺乏客观依据,只是猜测,需要通过各种渠道交叉验证。

Q:对于成本测算,为什么更多关注预训练部分,后训练部分如何测算?

A:成本测算更多关注预训练部分,是因为后训练的数据相对缺乏。从公布的数据来看,279万小时涵盖了三个环节的训练成本。对于后训练部分,目前没有准确数据,但有一个参考思路。比如在做deep seek v3版本时,训练中间模型做2L强化学习大概进行了上百次迭代,做RE模型RE zero时进行了上千次迭代。R一标准版和REZO做了两阶段强化学习。如果简单看比例,认为后训练部分可能有20倍以上的放大比例。例如V3模型后训练是5K的GPU时速用量,那么在RE模型的后训练算力投入可能在100K以上。

Q:从V1到V3,模型在变大,但成本变大比例与模型放大不是等比的,背后用了哪些降本技术?

A:从V1到V2,核心降本技术有两个。一是MA注意力模块的优化,之前每个head层需要对KV进行独立访问和存储,效率较低。MLA的做法是将KV统一起来,进行压缩和统一管理,减少了各个head层对KV的访问次数,降低访问频率,提升了算力效率,这是一种提升有效算力但不影响模型参数和训练数据集的工程化技术。二是MOE前馈网络的优化,它把不同的专家进行分类,有共享专家和路由专家,对需要共同访问的专家环节,通过共享专家形式做统一分配,减少数据读取,从而加速训练过程。从V2到V3,核心变化在于对精度的降低,这是最主要的带来算力成本节省的原因。比如同样是500P的计算任务需求,用16位精度和8位精度计算,计算速度的时间消耗相差大概不到一倍。在V3版本采用低精度数据训练,涉及到各种更细颗粒度的技术,如对哪些数据、变量进行缩放,通过细颗粒度管理,在FP8与BF16同样的训练过程下,可实现基本上0.25%的训练效果差异,近乎达到同等训练效果。在低精度训练中会遇到上溢和下溢问题,DBC采取了很多办法解决,包括模型缩放,将大的数据浓缩成低精度小数据,但这可能导致数据信息含量变化,对异常值敏感,所以又采取对不同变量做不同缩放,对激活、权重做不同缩放,以及对GPU进行更深入的调度和优化,用SQ做细颗粒度搜索并存储到扩大区域做下一步执行和存储等方法。

Q:推理部分有什么特点,deep seek模型在推理层面与其他模型相比有什么优势?

A:在推理部分,由于deep seek模型的训练和强化学习做法,使其具备与顶尖模型比肩的能力,并且通过技术优化,对算力的消耗有更大幅度降低。从版本来看,V3版本就已经有非常低价格的API定价,与其他模型对比,最大可有十倍的定价差异,即V3版本定价更便宜。在去年12月就体现出性价比优势。现在大家对R一版本的出现更加关注其API定价性价比。R一模型是真正能与现在OpenAI o1模型对标的版本,对比来看,在input的API在KV hit情况下,DBC的R一是0.14,o1模型是7.5,成本差距大概60倍;与OE mini GB相比,性能差距最少大概6倍,总体结论是在推理层面有更大的算力节省。

Q:deep seek模型在推理层面的优势,是否意味着对下游算力产业是利空,后面不需要投那么多钱建设基础设施?

A:认为这是在存量框架体系下讨论的观点。这种观点隐含的假设是用deep CTR1替代OpenAI的OE,在这种情况下,原本需要15美金的input和60美金的output,现在只需0.14美金的input和2.19美金的output,看起来算力需求会大幅下降。但实际上,当前整个商业环境更类似增量逻辑框架。主要有两个增长逻辑,一是下一代模型开发,不只是OpenAI,deep c自身也在往更大模型方向发展。虽然R1比OE成本低,但R1后续迭代仍需放大模型参数、数据集,并想办法降本,不过降本会遇到极限,如从LP8精度训练到后续可能的更低精度训练,工程化难度会越来越大,且瓶颈明显。所以模型迭代仍需沿着建设更大规模集群方向投入,从V1到V2,从V2到V3,能看到在retraining方面的应用结果,从V3到21能看到在后训练方面的新结果,本质都是沿着迭代思路发展。二是模型的工程化应用。

Q:o1模型不能大规模推广应用的原因是什么?deep seek的R一模型出现后带来了什么影响,对于token相关的情况有哪几种情形可以讨论?

A:o1模型不能大规模推广应用,一部分原因是成本太贵。deep seek的R一模型出现后,将成本拉了下来,这可能导致未来其用量有更大规模的提升。但这也带来了一个需要权衡(trade off)的问题,即单位模型所消耗的token算力下降了,然而token总量上升的幅度存在不确定性。这里有三种情形可以讨论。第一种情形,单位token消耗的算力量级下降,可总token消耗量大幅提升,且提升幅度超过单位算力消耗的下降幅度,最终结果是总需求上升。第二种情形,单位token消耗算力的下降幅度与总token消耗量的上升幅度等价,那么总算力需求不变。第三种情形,单位token消耗算力的下降幅度大于总token消耗量的上升幅度,或者总token消耗量同样下降,此时总需求才会下降。目前市场定价方法更多围绕第三种情形讨论,大家普遍觉得总需求会往下走,但这只是三种情形之一,并不能代表最终结果。我们不做总需求走向的概率判断,只是表明其存在不确定的走向。从股价表现来看,英伟达、博通、台积电等因deep PC出现后股价下跌,市场似乎在讲一个从一变成0.1的故事,即R一模型替代OE,但实际上也存在从一变成1.1甚至从一变成二的可能性。

Q:对于deep seek模型开发和训练过程与英伟达生态的关系是怎样的?有人认为能绕开英伟达生态壁垒的依据是什么?实际情况又是如何?

A:有人认为deep seek模型开发和训练过程可能绕过英伟达的一些生态壁垒,但仔细研读deep seek的技术报告后发现,其对英伟达的依赖程度依然很深。认为能绕开英伟达生态壁垒的依据是在其论文里看到使用了一个叫做PDS(并行线程执行)的技术,这是英伟达库达下面的一个二级编译器概念。正常情况下,如果不直接对PDS做代码层面编辑,而是直接跟库达对接,库达会把指令代码翻译成PDS指令,再由PDS与GPU通信,告知GPU要执行的任务。这就需要对库达有深入理解并在库达层面编写代码。而deep seek的做法是在更下级框架上对PDS技术进行代码编写,看似是在做一些突破英伟达框架之外的事情,需要更直接地调用底层GPU。但实际上,这一逻辑仍是围绕库达生态展开的,并非绕开了库达应用。deep seek之所以要做PDS编写,是因为其对自身算法有更高的调度要求。它将一部分GPU里的流处理器单独划分出来处理通信任务,大部分GPU的SM(流多处理器)仍进行并行计算,而这种操作在英伟达原有的框架里没有专门的代码工具支持,所以才向PDS层级延伸。另外,在NV link和NV switch的使用上,deep seek也比较依赖。在其模型中,反复提及用NV link来连接scare up节点,用NV switch和n inv demand IB来实现多节点互联,目的是通过更快的连接方案解决大模型的数据互联问题。英伟达在各个互联层级都有技术积累,例如芯片级连接有NV link、NV switch,服务器节点级连接有NV link,机架级节点连接用外部网络IB和以太网。使用英伟达自己的技术方案能达到最高效率,以芯片连接为例,PCIE 6.0的传输效率是256GB,而NV link 5.0的速率是1.8TB ,两者传输效果相差七八倍左右。此外,deep seek不仅使用通用的NV link和NV switch技术,还运用了更高级的互联能力,如IBGDA(围绕IB网络的GPU互联技术),其作用是绕开CPU做通信节点中转,让不同GPU直接进行数据交互,提升并行计算效率。在GPU使用方面,deep seek的论文里大量技术是关于如何更好地使用英伟达芯片,而非绕开使用。例如在V3中,重要技术之一是做模型数据精度的缩放,这对量化颗粒度要求很高。由于其使用的是hoper架构,没有拿到最新的black GPU,所以需要通过各种工程化办法解决缩放带来的问题,而新一代的black架构配备的transformer engine(black transfer mer transformer engine)能够支持不同颗粒度的缩放。所以若其他厂商要跟进类似的低精度训练方案,目前英伟达这样最先进的GPU厂商可能做得更好。从整体NV生态梳理来看,没有明显证据支持deep seek能绕开英伟达生态,从其买卡情况来看,虽有H100、H800、H20,但具体数量依据存疑,H100目前较难购买,H800的购买相对合理,参考其测算结果,大概有五六万张的总的GPU拥有量。

Q:deep seek模型在推理层面与其他平台和厂商的兼容性如何?对不同厂商和国内市场分别有哪些影响?

A:deep seek模型训练完成后的推理可以兼容不同平台。它提到了自己的推理框架DP info以及开源推理框架SG狼,AMD、华为的升腾在推理层面都可以支持该模型。如果往后推演,其大规模推理应用可能对模型厂商格局产生影响。目前其推荐的算力使用方案是用八张A800加速卡部署B3模型,或者用两套H20加速卡服务器部署deep seek的V3。AMD在官网上发布其stink系列GPU可以支持V3部署,并且是与SGLNANG合作进行适配,不仅使用了开源框架,还借助了自己的welcome软件套件支持,尤其是在低精度模式下,需要welcome的八位精度能力支持才能运行FP8格式。但这种支持可能需要做算子转移工作,相比基于英伟达卡的训练,直接编写PTX代码调用底层卡扣和test进行模型开发,在使用welcome支持时可能会有效率损失,最终效果可能不如基于英伟达模型部署的延迟低、效果好。这与之前大家对PDS的担忧类似,PDS只能用于英伟达自己芯片的代码编程,如果只绑定PDS,对其他厂商芯片的适配能力会很差,但实际上deep seek对AMD、华为升腾都能做支持,这反映出其在前期训练时可能没有与芯片做深层次绑定,而是有一部分对库达的使用和兼容,所以才能顺利转移。从国内影响来看,公开信息显示其与华为适配较多,在官网以及华为伙伴解决方案中都提到与deep six有合作。硬件上,用4台800I的A2服务器,每台配8个NPU加速卡,共32卡来支持V3版本部署,与H方法对比,芯片用量大概是四倍关系。在训练技术上也做了适配,如负载均衡机制以及多token预测MTP技术都在华为设备上有很好应用,推测其在开发初期就与华为共同打磨生态方案,所以在国内算力部分与华为绑定较深。

Q:本次对deep seek算力梳理的核心结论有哪些?对海外和国内相关标的有什么影响?

A:本次对deep seek算力梳理核心结论主要有三点。第一,现在大家对算力存在分歧,但大模型的发展趋势仍在持续,deep seek以及其他模型都还是沿着发展路径前进,所以算力需求的中长期逻辑没有发生改变。第二,deep seek的出现带来了更低成本训练和推理的可能性,可能会加速下游商业化,也就是AI应用加速,最终可能带来算力需求增长,但目前大家预期偏悲观,认为可能会使算力需求下降。第三,其模型的训练和推理可以解耦,部署在不同平台和生态上,这种变化可能利好推理算力爆发背景下的国产专利需求。对海外相关标的而言,目前市场对英伟达、博通、台积电等比较悲观,若因情绪影响出现估值下杀情况,后续可能存在估值修复机会,对应标的有英伟达、台积电、博通、马6、康宁等。在国内,主要关注与华为设备相关方向,对应的标的可能是国内产业链上像华丰、加急之类的公司。

Q:从算力需求结构和时间线来看,当前算力需求的情况是怎样的?对未来算力需求节奏的判断有哪些难点?

A:从2025年算力需求展望来看,算力需求构成主要有四大块,训练包括预训练和后训练,推理包括新产生的应用和老应用的改造。从时间线看,retraining从2023年开始。现在大家担心deep seek训练成本低很多,可能只有几分之一,会导致整个算力需求崩塌。但从后面需求来看,目前算力需求重心还是以retraining为主,从趋势上讲,它需要过渡到其他不同需求上面。对于预训练是否见顶,要看后面有没有GPT5,如果有GPT5,说明预训练还没见底,因为GPT和deep seek的思路一样,都是提升参数和数据,deep seek还能降低成本。美国凭借算力资源优势,用简单粗暴方式继续冲击AGI,中国则靠算法优势在已有模型能力框架内降低成本。Post train才刚开始,虽然单位成本可能在降低,但如果推理成本或模型运行成本降不下来,应用就无法兴起。对算力需求要动态去看后面不同部分需求的节奏,难点在于判断不同阶段需求能否衔接得上,中间的间隙或空窗期有多大。股价与产业节奏在A股波动较大,很难判断中间阶段的衔接程度和具体情况,所以可能需要更多信息来刻画不同阶段需求的节奏。



END



【知识星球】 :第一时间分享市场、个股、行业动态,这将构成市场最新的预期差,星球让大家 无需自己消耗大量时间,就可以获得最有效、最及时的投研信息 星球已然成为 投研资料库 ,超60000份投研资料供你随时搜索和






请到「今天看啥」查看全文