台积电断供,限制大陆算力芯片先进制程产能供应。今年11月,台积电向目前所有中国大陆AI芯片客户发送正式电子邮件,将暂停向中国大陆AI/GPU客户供应所有7纳米(nm)及更先进工艺的芯片。具体限制条件包括7nm及以下,同时满足300mm2面积以上,晶体管数量在300亿以上。目前台积电凭借其显著的先进制程产能优势和CoWoS等先进封装的领先技术水平,在AI芯片代工领域处于绝对领导地位,暂停向中国大陆提供相关产品产能将会在短期影响国内AI产业发展。
先进制程受限,国内外算力芯片性能差距显著。由于国内先进制程受制裁,国内算力芯片普遍停留在7nm制程,而英伟达算力芯片经过不断迭代,已经采用4nm制程,芯片算力具有显著差距。与此同时,HBM带宽/容量、多卡互连带宽、以太网端口带宽等多方面参数都有较大差距。所幸AI产业并非靠单卡就能有效发展,除了算力芯片外,网络、存储、电力等多领域都需要进行协同,为我国实现算力破局提供了多样化的选择。
2.2.1.单芯片性能趋于极限,先进封装延续
摩尔定律趋缓,芯片晶体管数量提升愈发困难。芯片的算力与其所容纳的晶体管数量直接挂钩,可简单拆分为晶体管密度和芯片面积的乘积。前文我们讨论了晶体管密度的增速正在趋缓,与此同时,由于受到最大光刻面积的限制(reticle limit),单芯片的面积不能无限制增加,当芯片面积超过858mm2时,一次曝光无法覆盖整个芯片,此时需要多次曝光进行拼接,对应的工艺难度将大大提升,芯片良率将显著降低。当前这两个变量的提升速度都趋缓或停止,单纯从摩尔定律已无法提升芯片性能,需要通过如Chiplet、3D IC等先进封装延续摩尔定律。
垂直堆叠,续写摩尔定律。3D IC(three-dimensional integrated circuit)平台是一种新型的集成电路技术,它将多个芯片堆叠在一起,通过垂直连接实现互联,与传统的二维封装相比,3D IC最大的优势在于可以在芯片横向面积不变的前提下增加芯片整体的晶体管密度,同时TSV通孔提供更近的互连距离,带来更快的数据传输与更高的互连密度。目前,台积电、英特尔、三星等诸多海外大厂都布局了3D封装相关产线,同时推出一系列相关产品,包括AMD 3D V-Cache、Mi 300算力芯片、英特尔Meteor Lake系列CPU、高带宽存储(HBM)等等。未来随着日益增长的算力需求和摩尔定律失效之间的矛盾愈发明显,有望出现更多采用3D封装的新产品,比如SRAM on CPU/GPU形式的手机/算力芯片。
博通推出3.5D封装,带来更极致的异构集成。在AI高速发展的背景下,硅光集成凭借高速率+低功耗的优势,有望成为数据中心互连的重要方案之一。目前大多采用高速铜缆/光模块来进行数据中心组网,但是前者存在信号损失而只能用在短距传输,后者则由于需要经过多个转换环节导致较高的能耗,而光学共封装(Co-packaged Optics,CPO)可以实现信号无损失的高效传输。相比一般的光模块,CPO将光学引擎和芯片直接集成在载板/硅中介板上,大大减少了电子传输过程中的能耗。近期博通推出了3.5D XDSiP(3.5D eXtreme Dimension System in Package)平台,这也是业界首个3.5D面对面(Face-to-Face,F2F)封装技术,采用台积电CoWoS-L封装技术,可提供约5.5倍光罩尺寸的封装,使总面积来到4,719平方毫米,可以将包括逻辑IC、最多12个HBM3/ HBM4堆叠和其他I/O芯片整合在一起。先进封装作为未来AI计算芯片的重要部分,博通这种大面积的芯片封装方案,能够极大程度上提高系统集成度,同时通过创新的互连方案,提高片内互连的带宽和提高能效,有望成为未来高性能处理器的一个重要方向。
2.2.2.算、传、存同权,华为以存代算,构造系统层破局思路
算传存协同,实现系统破局。当前全球受限于摩尔定律放缓,芯片算力提升速度放缓,而国内由于先进制程限制,更是早早步入芯片迭代困难的局面。我们认为,未来的大规模集群不仅仅依靠先进的算力芯片,而是计算、传输、存储等多方面协同发展,通过整个算力系统综合性能的提升,以此满足高速增长的AI需求。当前英伟达AI产品覆盖计算芯片和各类连接芯片(NVLink、 Switch芯片、网卡芯片等),而华为更是推出计算(昇腾&Atlas)、传输(星河网络)、存储(Oceanstor)三大领域各种对应产品,以求给客户提供全方位的AI解决方案。
大规模集群互连成为AI大模型发展基石。HPC将大量服务器和存储设备通过高性能网络互联构建大规模计算集群,集群中各个计算节点相互协同并行处理多个子任务。通常来说,完整的HPC组网架构包括管理区和核心区,其中核心区又分为HPC计算区和分布式存储区。通过带外管理网络、业务管理网络、高速计算网络和存储后端网络,可以将各区域实现高效互连。当前AI大模型的运行需要至少千卡以上网络集群,因此实现各网络间高速互联成为制约大模型规模发展的重要因素。
AI建设两大焦虑:可供应性&可用度。当前AI智算中心建设普遍存在两大焦虑,一是算力中心建设前对算力可供应性的焦虑,二是算力中心建设后对算力可用度的焦虑。对于前者,受限于美国高端算力卡出口限制以及对我国先进制程扩张的制裁,国产算力卡持续供应能力尚处于相对较弱地位。对于后者,如何实现较高算力可用度则是全球算力中心都需要解决的难点。据不完全统计,当前全球各大算力平台在千卡以上规模时,其算力可用度均小于50%,即超过一半的算力卡在实际使用时处于等待状态。与此同时,超大规模算力集群故障率上升严重拉低了大模型训练的效率,频繁的故障增加算力等待时间,同时大大增加算力中心的资本开支。究其原因,AI大模型在训练过程中会经历(1)训练开始前数据集准备即加载;(2)训练过程中CKPT(checkpoint,检查点)的多次读写;(3)训练中断的等待时间;(4)故障诊断及处理CKPT重新加载等多个阶段,而这些过程均与算力中心配置的存储有关。因此,搭建高效的存储服务中心将有效缩短算力卡等待时间,提升算力可用度。
合理配置存储,优化训练集各阶段耗时,缩短大模型训练时长。作为算力中心中必不可少的一部分,存储环节受到的关注度相较算力环节普遍更低。实际上,提升存储的带宽性能,有望以更小的投入获得更大的回报。据华为官方测算,采用高性能、高可靠OceanStor A系列存储集群,有望缩短30%大模型训练时长:在存算网协同、加速训练阶段,数据集加载时间有望从30分钟缩短到分钟级别;CKPT的读写保存有望从10分钟级别缩短到秒级;快速并发加载CKPT有望将小时级别的等待缩短到秒级;对比本地盘、OBS存储等,可靠性百倍提升,断点续训次数得以大幅减少。
以存代算构筑数据处理新模式。根据大模型的工作流,可采用外挂向量知识库把企业海量思域数据处理成多维向量,给大模型输送最新、最全面的信息,解决大模型时效性问题的同时将拥有长期记忆。通过构建HBM-SSR-SSD三层缓存机制,大容量共享全闪存SSD可保留长序列和多轮对话全量KV,配合以查代算算法,有望解决记忆缺失导致的交互不连贯,实现复杂高级工作的有效处理。
打造算传存协同的算力基础设施,为世界提供更好选择。以华为为代表的中国科技企业不断突破,计算、传输和存储协同创新,打造中国科技的全新名片。通过以存代算,长记忆内存型存储使能Long context(长上下文),提升大模型的逻辑思考和推理能力,尤其是慢思考能力,并降低成本。通过算传协同,高吞吐、高可靠助力AI算力高效释放。通过传存协同,全互联架构使能超大规模智算集群节点与存储节点全连接。
走在中国科技前端,华为的破局思路可作为中国科技突围参考。华为作为国内科技行业领头者,自2019年起就率先面临诸多封锁与制裁。当前华为芯片持续迭代面临主要问题包括国内大芯片制造经验较少,大芯片良率较低,以及先进制程持续推进能力受限。我们认为华为是中国科技的前瞻,华为在国内科技公司中技术领先,也更先遇到技术壁垒问题。华为对科技壁垒的翻越,华为的系统性方案,就是中国科技发展的模板。
大芯片良率低,可做小后通过Chiplet拼接。AI芯片由于对算力要求高,普遍面积逼近光罩尺寸极限(858mm2)。比如,英伟达A100芯片面积达到826mm2,H100芯片面积为814mm2。而国内晶圆厂由于缺少大芯片制造经验,生产的大芯片的良率远低于全球顶尖晶圆厂。为了解决这一困难,很自然可以想到将一颗大芯片拆成多颗小芯片,以此来提升芯片生产的良率,再通过Chiplet的方式将其组合,实现功能的完整。而华为乐高式的芯片设计理念正完美契合这一思路。通过分别设计CPU、GPU、IO、Wireless-ACC、NIC-IO等多种die,并分别对其进行迭代,再通过不同的组合方式,可以得到具有不同功能的芯片。比如,服务器版本的鲲鹏芯片是由两个CPU计算die加一个IO die组成,而PC版本的鲲鹏芯片则是由一个CPU计算die加一个IO die组成。未来可以继续就每个die进行迭代,进而推动整个产品体系的发展。
先进制程推进受限,增加芯片面积以延续性能提升。由于我国受到美国制裁,无法获取到EUV光刻机,因此只能采用DUV光刻机进行芯片制造,但即便采用业界最好的DUV型号,公认极限能力也只能到5nm,再往下推进就十分困难。先进制程无法向下推进,则晶体管密度提升有限,只能通过增加面积的方式来增大晶体管数量,以此保证芯片性能可以满足日益增加的算力需求。据Techinsights数据,麒麟9000/9000s/9010/9020芯片的面积分别为105/111/117/134mm2,其根本原因是制程无法继续迭代,只能通过增加面积的方式延续芯片性能。
面积无法增加,而3D封装能节省空间。在芯片制造的过程中,由于受到最大光刻面积的限制(reticle limit),单芯片的面积不能无限制增加,当芯片面积超过858mm2时,一次曝光无法覆盖整个芯片,此时需要多次曝光进行拼接,对应的工艺难度将大大提升,芯片良率将显著降低。若在横向空间受限的领域,则只能通过垂直堆叠进行芯片性能提升,而3D封装则可以在不增加横向面积的条件下,增加芯片晶体管密度。类比于城市化进程中不断增加的高楼,更高的楼层可提供更多的居住空间,3D 封装可以在纵向增加晶体管数量。AMD已经在其服务器芯片上采用3D V-Cache技术实现大容量缓存;华为也早在2019年HotChips大会上就提出通过3D SRAM的方式来提高片上LLC的容量,进一步突破内存墙,降低内存访问能耗成本。展望未来,会有越来越多的芯片采用这一工艺,实现芯片性能的持续增加。
华为2025年前瞻预测:我们大胆推测,华为下一代的昇腾训练芯片和终端麒麟芯片,有望采用3D封装技术,如通过3D SRAM等。考虑到早有新闻报道,苹果将在2025年推出M5芯片,采用TSMC的SoIC(亦属3D封装)技术,2025年有望成为3D封装成趋势的元年。
本章主要探讨了国产算力如何通过系统级思维进行破局,包括以先进封装延续摩尔定律,以算、传、存进行系统级创新。为此我们梳理了相关产业链标的,供投资者谨慎参考,不作为相关标的推荐理由。