查看更多机构调研纪要、电话会纪要
请关注【纪要研报中心】
更多报告PDF与音频文件加微信:
Y1206859索取
本文仅梳理公司和行业的最新基本面,并非在当前时间点推荐买卖公
司,本文不具备个股操作指导功能,投资有风险,入市需谨慎
。
全文摘要
本次讨论深入探讨了全球AI算力的发展趋势,着重分析了大模型迭代对算力需求的显著影响以及如何通过技术创新实现训练和推理成本的优化。对话指出、算力需求正从预训练阶段向后训练阶段转移,尽管模型能力增强导致的算力成本看似上升,但实际上通过采用更高效的技术手段,如更短的训练时间,实现了成本的降低。讨论还涵盖了模型迭代中对训练成本的优化策略,以及模型在实际应用中的成本效益分析、体现了不同模型架构(包括DPC和OpenAI的模型)在算力需求、成本和效率上的差异。此外,对未来Al算力产业的发展预测和影响也进行了预测.强调了模型训练和推理能力提升对整个Al产业的长远正面影响。此次对话集中反映了AI算力的未来趋势、成本控制策略,以及模型迭代如何塑造算力需求和推动产业发展。
章节速览
●
全球AI算力会议:Al模型发展与算力需求变化
本次会议讨论了全球Al算力的影响,特别是针对华泰证券签约客户及受邀客户。会议重点分析了最新AI模型发布后对算力需求的影响,包括预训练、后训练和推理三个环节的需求变化。讨论指出,尽管模型的执行能力所需算力成本在降低.但整体算力需求的重心正从前训练向后训练及推理转移。此外,会议还探讨了预训练环节是否已见顶.以及如何利用未公开数据和合成数据继续提升算力需求。最后,会议强调了算力需求重心的转变可能因O系模型的出现而加速.同时也指出了算力需求影响的复杂性,需要考虑多种因素。
● 大模型迭代对算力需求及下游产业影响的分析
汇报通过分析战力开解和研究模型对算力需求的变化,揭示了模型迭代带来的持续算力需求及对下游产业的增量逻辑影响。特别指出、通过技术优化和工程化应用加速,使得模型性价比大幅提升,成本仅为全球顶尖模型的几分之一。报告详细分析了从DPC版本到V3版本模型的迭代过程,展示了模型参数和训练语料的同步放大,以及算力需求和成本的量化变化。这表明了大模型迭代对算力和下游产业带来的正面影响和乐观前景。
● 大模型预训练成本分析与技术优化
对话深入探讨了不同版本模型的GPU训练小时数及其对算力消耗和成本的影响。通过具体数据.分析了从第一代到第三代模型在算力投入、训练成本上的变化.以及通过技术优化(如NLA多头数据机制)在提高计算速度和算力使用效率方面所取得的进展。此外,还提到了模型训练成本的复杂性,指出除了算力消耗外,还存在其他成本因素,导致整体训练成本的评估存在分歧。
● 大模型训练成本与价格对比分析
对话讨论了V系列模型(V1、V2、V3)与OPA等模型的价格对比.指出V系列模型的价格大约是OPA的十分之一、但具体成本因版本和能力不同而有所差异。训练成本方面,初步估计可能是OPA的五分之一到十分之一、但缺乏客观数据、需通过各种途径交叉验证。特别关注预训练部分的成本.因为后训练阶段因数据缺乏难以精确计算。以V3模型为例,后训练阶段的算力投入可能是预训练的20倍以上,体现了后续训练成本的显著增加。
● 大模型训练与推理的优化技术
对话详细介绍了模型训练过程中的成本优化技术,特别是从V1到V2版本中采用的注意力模块优化(MA)和前馈网络优化(MOE),以及V2到V3版本中通过降低精度来节省算力成本的方法。这些技术包括对KV访问的统一管理、乾坤网络的优化,以及在低精度训练中解决上溢和下溢问题的策略,如模型缩放和对不同变量进行不同缩放。此外,还讨论了这些优化技术如何在推理部分帮助模型在保持高性能的同时降低算力消耗。
● 大模型产业中的性价比与算力需求讨论
对话围绕大模型产业中的API定价、性价比以及算力需求展开。提及第三版本的API定价相比竞争对手具有显著的性价比优势,特别是在与OpenAI的OE模型对比时,成本差距可达6到50倍。此外,讨论了RE模型在推理方面带来的算力节省,以及这种节省对下游算力产业可能的影响。指出在大模型产业成熟期,RE模型可能替代OE模型,减少算力需求,但在当前的商业环境中,更应考虑增量逻辑框架下的发展,而非简单的替代关系。
●
大模型开发与工程化应用的增长逻辑
讨论集中于两个主要的增长逻辑:下一代模型的开发与模型的工程化应用。当前的趋势是开发更大规模的模型,通过增加参数和数据集来降低成本,尽管这一过程面临工程难度和极限瓶颈。同时,模型的工程化应用聚焦于降低成本以促进更大规模的使用,但需平衡单位模型消耗的算力与总量上升的关系。市场普遍预期总需求下降,但实际方向存在不确定性,有可能出现需求增加的情况。此讨论强调了对模型迭代和应用前景的多种可能性。
● 探讨如何在深度学习模型中绕过英伟达技术壁垒的挑战
对话集中讨论了在深度学习模型开发和训练中,尝试绕过英伟达生态壁垒的挑战和实践。虽然有人提出使用PDF技术(并行线程执行)作为替代方案,但深入分析发现,这些技术仍然深深依赖于英伟达的技术,如NV link和NV switch。因此,尽管有改进和创新,目前在深度学习领域、绕开英伟达的生态壁垒依然是一个早期且具有挑战性的想法。此外,对话中还提到了对底层GPU更直接调用的需求,以及对数据处理时效性和通信效率的高度要求,这进一步说明了在当前技术框架下,英伟达的技术壁垒仍然难以逾越。
● 英伟达GPU技术及其在互联方案中的高效应用
讨论集中在英伟达GPU技术的高效性和在互联方案中的应用。英伟达的NV Link和NVVH技术因其高速传输效率而被认为是最佳选择,而其他方案如DCIE则可能导致十倍左右的性能差异。此外,IBGDA技术通过绕过CPU直接实现GPU间的数据交互.显著提升了并行计算效率。讨论还涉及GPU芯片设计,特别是针对H系列GPU中的数据精度缩放问题,以及对未来GPU支持更精细的缩放技术的期待。虽然对英伟达GPU的依赖明显,但尚未见到明显的替代方案。关于GPU购买量的讨论则指出,虽然具体数据存疑,但H800 GPU的购买量可能更为合理,估计总保有量约五六万张。
●
大规模推理应用对算力产业及模型厂商的影响
对话讨论了大规模推理应用对算力产业和模型厂商格局的潜在影响,特别强调了兼容不同平台和框架的重要性。提及了使用八张A800加速卡或两套H20加速卡服务器来部署特定模型的战略配置,以及AMD和其他厂商对模型部署的支持。此外,指出了在不同芯片上部署模型可能带来的效率损失,以及在前期训练时与芯片深度绑定的必要性。最后,讨论了与华为在硬件适配和训练技术上的深入合作,表明了在大规模推理应用领域,生态方案的共同打磨对于成功部署至关重要。
● 大模型在AI应用加速中的持续作用及市场机遇
本次讨论的核心结论围绕三点:首先.尽管业界对范例存在分歧,但大模型仍在持续发挥关键作用,对创业需求的中长期影响未变;其次,DC的出现降低了AI应用的成本,可能加速下游商业化进程,预期将带动战略需求增长,而非下降;最后,模型训练与推理的解耦可能利好国产推理算力的爆发,提高相关需求。对于市场标的,海外企业如英伟达、博通、台积电等受悲观情绪影响,存在估值修复机会,而国内与华为生活相关的企业,如华丰、加急等,也值得关注。
● 算力需求展望与产业节奏分析
本次讨论集中于2025年的算力需求展望,以及算力需求结构的构成,包括预训练、后训练、推理应用等部分。讨论指出,尽管存在对算力需求可能因成本降低而下降的担忧,但目前的算力需求重心仍以再训练为主,需关注是否会有新的大模型如GPT5的发布来判断需求是否见底。同时,也探讨了中美两国在算力资源和算法优化方面的不同策略。此外,讨论还提到,需密切关注不同阶段算力需求的节奏和产业节奏,以及这些变化如何影响应用和端侧市场,包括美股和港股的市场预期和反应。
问答环节
问:在AI算力需求的演化过程中,存在一个什么样的拐点?
答:整个算力需求的演化过程中一定会出现一个拐点,即从预训练阶段向后训练阶段转移,这个拐点以欧系模型(如GPT1系列模型)的发布为标志。目前尚未明确预训练阶段是否已经到达顶峰,但即使已用完公开数据.仍有合成数据、非公开数据等可利用,因此预训练环节的战略需求是否见顶还需进一步观察。
问:算力需求的重心何时会从前训练阶段转移到后训练阶段?
答:算力需求重心从前训练阶段转移到后训练阶段的拐点已出现.并且随着DPC版本迭代过程中技术的应用和优化,模型的性价比逐渐提高,使得训练和推理的成本大幅降低,这可能加速了从训练到推理的需求转变。
问:对于大模型及其对下游产业影响的看法是怎样的?
答:我们认为大模型本身的迭代会带来持续的算力需求增长,并且从大模型向工程化应用的加速转化看,对下游模型产业的影响更多是以增量逻辑视角来看待后续的战略需求。整体而言,对于未来模型需求持偏乐观态度。
问:DPC版本迭代对算力需求的影响是怎样的?
答:DPC版本经历了多个迭代,每个版本通过加入新技术应用(如多头注意力机制优化、前推网络模块优化以及强化学习和LP8精度等)来提高模型效果,同时降低每一代模型对范例的需求。这导致最终产出的模型在性价比上具有竞争优势,不仅性能能与顶尖模型媲美.而且训练和推理成本仅为对手的十分之一、从而显著降低了整体的算力需求。
问:V3版本模型训练的成本和GPU使用情况是怎样的?从V1到v3模型训练成本的变化趋势是怎样的?
答:在V3技术报告中、提到该模型训练共使用了279万个GPU小时,总成本投入为558万美元。其中,训练过程包括预训练、文本上下文窗口扩展和后训练三个部分,总计279万个GPU小时。最大的投入集中在预训练环节。随着模型代际升级.训练成本总体呈上升趋势.尽管V2到V3的放大比例较大,但本质上都在遵循投入更多算力、时间和金钱以迭代改进模型的技术路径。通过已知数据可以估算出各版本的实际算力消耗和总成本,并且发现实际消耗与理论值存在一定的差异,这背后的原因在于模型之间应用了优化算法来降低对算力的需求。
问:V1到V3各个版本模型的算力变化如何?
答:根据官网公开信息整理,从V1到V2再到V3.模型的参数量和训练语料呈现出同步增长的趋势,符合谷歌提出的前导四要原则。同时,V3相比V1在算力投入上有显著增加、而V2相比V1节约了42%的训练成本.通过这些数据可以推算出各个版本的GPU小时数。
问:DS模型的价格与openAI和其他海外模型相比如何?
答:DS模型的价格大约是openAl和其他海外模型价格的十分之一,尽管不同版本的能力会有差异,但大体相当。关于训练成本的具体数值,由于缺乏客观数据,目前只能推测可能在五分之一到十分之一左右,具体数值尚不明确。
问:在模型训练的成本中,预训练和后训练的成本比例大概是多少?
答:预训练与后训练的成本比例难以精确给出,但通过一些参考思路和已公布的数据可以推测后训练阶段的成本可能是预训练成本的20倍以上。例如、如果V3模型在后训练阶段使用了5K GPU时速,那么在RE模型的后续训练阶段可能需要大约100K以上的GPU时速。
问:模型在变大的过程中,为何成本增长并非与模型放大呈等比关系?
答:这是因为模型采用了降本技术,如MA注意力模块优化和MOE强化前馈网络优化。MA优化通过统一管理KV存储,减少了各个头层对KV的独立访问次数,从而提升了有效算力。而MOE优化则是对乾坤网络进行分类,将共享专家和独立专家相结合,减少对数据的读取,同样加速了训练过程。
问:V3版本相比V2版本,在精度降低方面是如何实现成本节省的?
答:在V3版本中、核心变化在于精度的降低,这是主要的降本手段。同样500P计算任务需求下,从16位精度降至8位精度,计算速度差异不大.大大节省了算力成本。此外,通过细粒度管理,FP8和BF16精度下的训练过程可以实现几乎0.25%的训练效果差异,保证了同等训练效果的同时降低了成本。
问:低精度训练中遇到的上溢出和下溢出问题是如何解决的?
答:为了解决低精度训练中的上溢出和下溢出问题,采取了多种方法,包括模型缩放(将大数据浓缩为小数据以适应低精度表示)、对不同数据做不同缩放、对激活和权重进行不同缩放,并对GPU进行更深入的调度和优化,以避免异常值对整个模型偏差的影响。
问:RE模型在推理部分有何特点,以及与阿里的API定价相比如何?
答:RE模型在推理部分得益于其训练和强化学习方法,具备与顶尖模型比肩的能力,并且由于对模型的技术优化.使得算力消耗大幅度降低。在API定价上,RE模型第三版本已经展现出非常低的价格优势,相较于阿里的API定价,最大可达到十倍的性价比优势。
问:与O1模型相比,R1模型在成本上有何优势,这种优势是否意味着下游算力产业需求会大幅下降?
答:R1模型在成本上相比OE模型有显著优势,大约节省了6到50倍的成本差距,其中60倍主要体现在API在KV开始hit时的成本差异。但这种成本上的优势并不能直接导致下游算力需求大幅下降,因为在当前环境下,选择模型进行商业化应用时更多是处于非此即彼的状态,R1虽可能在成本上替代OE.但在大模型产业成熟期讨论的是如何在存量框架下替代的问题。
问:R1模型的出现对下一代模型开发和现有模型工程化应用有何影响?模型工程化应用层面,R1的成本降低对总体算力需求有何影响?
答:对于下一代模型开发,R1虽然目前成本更低.但其迭代能力和所能处理的任务仍需关注。随着模型参数和数据集规模的扩大.尽管采用更高效的FP8精度训练等方式降低成本.但工程化难度会增大,并且会遇到极限瓶颈。下一代模型仍会沿更大规模集群投入,如V1到V2、V3等版本的迭代过程。R1成本下降使得未来模型用量可能实现更大规模提升,但在单位模型消耗的token算力下降的同时,需要权衡总需求的变化。存在三种情形:一是单位算力消耗下降幅度小于总投资消耗量的增长.导致总需求上升;二是两者变化等价、总需求保持不变;三是虽然单位需求下降,但由于市场定价方法的问题,总需求可能呈现下降趋势。
问:R1模型是否能绕过英伟达生态壁垒?
答:虽然有观点认为R1绕过了英伟达生态壁垒,但从技术报告分析,R1仍深度绑定英伟达的技术,包括使用如NV link、NV switch等技术,目前还未能完全绕开英伟达壁垒。不过,论文中提到的PDF(并行线程执行)技术可以将指令代码直接翻译成适合GPU的任务,这要求开发者对英伟达底层有深入理解并进行底层GPU的直接调用,但这并不意味着完全绕过英伟达生态。
问:在PDS编写方面,为什么需要绕开CPU去做通信任务处理?
答:主要是因为该算法对GPU内部资源有更高的调度要求,它将一部分GPU中的流处理器单独拿出来专门负责不同CPU间的数据通信,以提高通信效率,这是目前扩大框架中没有专门代码工具支持的,所以不得不在PTS层级进行延伸。
问:对于NV link vswitch的使用,目前来看它在大模型数据互联中扮演什么角色?除了常规的NV link和NVlink switch技术外,还有哪陛些高级互联技术被提及?
答:目前NV link v switch在很大程度上依赖于它来实现模型之间的连接,并通过finite band ID实现out多节点互联,希望通过更快的连接方案解决大模型的数据交换问题。提到了IBGDA技术,它是围绕IB网络的GPU互联技术,能绕开CPU作为通信节点中转,让不同GPU直接进行数据交互,从而提升并行计算效率。同时,新一代transformer engine也支持不同颗粒度的缩放.有助于解决模型数据精度缩放问题。
问:英伟达在互联技术方面的壁垒体现在哪些方面?
答:英伟达在各个互联层级都有深厚的技术积累,包括芯片级连接(如NV link)和服务器节点级别的连接(如NV link switch)。这些技术构成了整套方案的基础.使用它们可以获得最高的效率。如果采用非英伟达方案,如DCIE.可能会导致大约十倍左右的性能差异。
问:从整个NBA生态梳理来看,对NB生态的依赖程度如何?
答:从梳理结果来看,对NB生态的依赖仍然较大,没有明显的证据表明可以绕开NB芯片的使用。虽然有测算显示购买了大量GPU卡(以H800为主),但对保有量的具体数据还需进一步确认。
问:对于创业厂商以及模型厂商格局的影响,该技术发展会带来哪些变化?
答:随着技术发展,训练完成后推理可以在多种平台上兼容运行,这将对模型厂商的格局产生进一步影响。目前推荐的战略配置是在不同框架下使用一定数量的A800或H20加速卡部署模型,而其他厂商如AMD也开始支持这一部署并优化其GPU性能。
问:在支持多厂商硬件方面,PTS与DP相比会有怎样的表现和效率损失?
答:PTS在支持多厂商硬件时可能会涉及到算法转移的工作,这可能会导致效率损失。相较于直接在英伟达卡上编写PTX代码进行训练的DP.PTS在兼容不同厂商如AMDC的版本时,可能无法达到同样的效果或延迟更低。
问:PDS和PTS对于绕开特定厂商(如AMD)的能力有何异同?
答:如果PTS仅绑定于某厂商芯片,其对其他厂商芯片的适配能力较差,类似PDS只能用于英伟达自家芯片编程,无法很好地适应其他厂商的芯片环境。但实际情况是.PTS与华为等厂商有合作,并能在一定程度上保证对柯达等技术的兼容性.实现顺利转移。
问:国内对PTS的应用主要体现在哪些方面?
答:国内对PTS的影响主要与华为紧密相关,包括硬件适配及训练技术上的优化。例如.华为官网和伙伴方案中提到与PTS的合作,并提供了基于8001 A2服务器的B3模型部署方案,每台服务器配备8个NPU加速卡,总共32卡来支持V3版本部署,相比H方法,大约需要四倍的芯片用量。
问:对于大模型的发展趋势以及国内国外的影响,目前有哪些核心结论?
答:核心结论有三点:1)大模型的应用持续发挥重要作用,包括对公司自身和其他模型的发展方向都有积极影响,长期创业需求未发生改变;2)DC的出现提供了低成本快速推进的可能性,可能加速下游商业化和战略需求的增长,但市场预期偏悲观;3)模型训练与推理可以解耦并部署在不同平台和生态上,这一变化可能在推理算力爆发背景下利好国产专业需求。
问:算力需求结构上,目前重心在理,未来会有怎样的变化?
答:目前算力需求的重心在于retraining部分,尤其是在2023年开始逐渐占据主导地位。随着技术发展,retraining需求将持续增长,而pretraining部分则较为清晰,未来取决于GPT5等新技术的发展情况。中美将分别通过发挥各自优势(美国依靠丰富算力资源冲击AGI.中国依靠算法优势降低成本)来推动算力需求的发展。对于短期与长期的算力需求节奏判断还需更多信息进一步分析。
纪要研究中心,奉行价值投机策略,每天更新80+最新企业纪要和行业报告,共同挖掘具有100%增长潜力的标的,
1、锂电,光伏,风电、半导体,医美
,医药
,大消费等行业公司最新纪要,
2、微信会员群
是基本面爱好者的聚集地,也是缩小你与机构信息差的根据地
,
如果你也是一个基本面爱好者,那么请加入我们,
每天更新100+最新企业纪要和行业报告,挖掘具有100%增长潜力的标的,
实现超额回报。