(报告出品方/作者:国投证券,马良、吕众)
1.存储行业百花齐放,DRAM 和 NAND 备受关注
1.1.存储芯片种类丰富,不同芯片各有所长
存储芯片,又称半导体存储器,是以半导体电路作为存储媒介的存储器,用于保存二进制数 据的记忆设备,是现代数字系统的重要组成部分。存储芯片具有体积小、存储速度快等特点, 广泛应用于内存、U 盘、消费电子、智能终端、固态存储硬盘等领域。 易失性存储器(Volatile Memory)和非易失性存储器(Non-volatile Memory)是两种不同 的计算机存储技术,它们在存储数据的方式和特性上存在差异:
易失性存储器(Volatile Memory):1)数据存储依赖于电源,当电源断开时,存储在易失性 存储器中的数据会丢失;2)常见的易失性存储器包括随机存取存储器(RAM),如动态随机存 取存储器(DRAM)和静态随机存取存储器(SRAM);3)易失性存储器的访问速度通常比非易 失性存储器快,因此它们常用于计算内存,用于临时存储正在处理的数据和程序。 非易失性存储器(Non-volatile Memory):1)数据存储不依赖于电源,即使电源断开,存储 在非易失性存储器中的数据也不会丢失;2)常见的非易失性存储器包括闪存(Flash Memory)、 只读存储器(ROM),以及一些新技术如磁性随机存储器(MRAM)、铁电随机存储器(FeRAM)、 相变存储器(PCM)等;3)非易失性存储器的访问速度通常比易失性存储器慢,但它们适合 长期存储数据,如操作系统、应用程序和用户文件,但 MRAM 等新技术,则是具有高速读写、 非易失性和高耐久性等优点。
DRAM(动态随机存储器)是个人电脑(PC)、工作站和服务器中常见的一种随机存取存储器 (RAM)。1)工作原理:DRAM 存储数据的方式是通过为每个存储单元分配一个电容器来存储电 荷。电荷的存在表示二进制的 1,不存在表示 0。由于电容器会逐渐放电,DRAM 需要定期刷 新(recharge)以保持数据的完整性。2)刷新机制:为了维持数据,DRAM 需要周期性地刷 新。这是通过刷新电路自动完成的,它会在一定时间间隔内重新充电电容器,以保持数据的 稳定。3)访问速度:DRAM 的访问速度比静态随机存取存储器(SRAM)慢,但成本更低,因此 被广泛用于计算机系统的主内存。4)成本与容量:DRAM 的成本相对较低,这使得它能够以 较高的容量生产,适合作为计算机和其他设备的内存。5)应用场景:DRAM 是个人电脑、服 务器、工作站和其他许多类型的计算机系统中主要的内存类型。6)封装形式:DRAM 通常以内存模块的形式存在,如 DIMM(双列直插式内存模块)或 SODIMM(小型双列直插式内存模 块),这些模块可以插入到主板上的相应插槽中。8)发展趋势:随着技术的进步,DRAM 的制 造工艺不断改进,存储密度和性能持续提升,同时功耗降低。
SRAM(静态随机存取存储器)是随机存取存储器的一种。1)工作原理:SRAM 使用触发器(例 如双稳态电路)来存储数据,而不是像 DRAM 那样使用电容器。每个触发器可以稳定地保持一 位数据(0 或 1),直到下一次写入操作。2)速度:SRAM 的访问速度比 DRAM 快得多,因为它 不需要周期性的刷新,数据的读取和写入可以直接进行。3)成本:其制造成本较高,单位容 量 SRAM 通常比 DRAM 更昂贵。4)功耗:SRAM 在保持数据时不需要额外的能耗,但在写入数 据时功耗较高。5)应用场景:由于其高速特性,SRAM 通常用于对速度要求极高的场合,如 CPU 的高速缓存(L1 和 L2 缓存)。6)容量:SRAM 的存储容量通常小于 DRAM,因为它的每个 存储单元都比 DRAM 的存储单元占用更多的硅片面积。7)易失性:电源断开后,存储在 SRAM 中的数据会丢失。8)集成度:SRAM 通常集成在微处理器或其他集成电路中,用于提供快速 的数据访问能力。9)稳定性:SRAM 的稳定性较高,它不像 DRAM 那样容易受到软错误的影响, 软错误通常由 α 粒子或其他形式的辐射引起。10)设计难度:SRAM 的设计通常比 DRAM 简单, 因为它不需要刷新机制。
闪存可根据半导体芯片内的电路排列方式进行分类。垂直排列的闪存称为 NAND 闪存,水平 排列的闪存称为 NOR 闪存。NAND 闪存易于增加容量,改写速度快,用于大容量数据存储,常 见于固态硬盘(SSD)、智能手机存储等。NOR 闪存读取速度快,用于需要快速随机访问的应 用,如嵌入式系统、启动存储器等。 NAND 闪存(NAND Flash Memory)是一种半导体单元串联排列的闪存。由于 NAND 闪存是垂直 排列单元(即存储单位)的结构,因此可以在狭小的面积上制作很多单元,从而实现大容量 存储。此外,NAND 闪存由于按顺序读取数据,读取速度比 NOR 闪存慢,但因为无需记住每个 单元的地址,所以改写速度会快得多。因为 NAND 闪存可以实现小型化和大容量化,它被用作 各种移动设备和电子产品的存储设备。 根据每个存储单元存储的数据数量,NAND Flash 可以分为 SLC、MLC、TLC、QLC。SLC (SingleLevel Cell)为每个存储单元存储的数据只有 1 位,即只有 0/1 两种状态,而 MLC (Multi-Level Cell)、TLC(Triple-Level Cell)、QLC(Quad-Level Cell)每个存储单元 能存储的数据分别为 2 位、3 位与 4 位,可以有 4 种、8 种与 16 种状态,存储空间迅速增加。 四种类型的 NAND Flash 性能各有不同。SLC 单位容量的成本相对于其他类型 NAND Flash 成 本更高,但其数据保留时间更长、读取速度更快;QLC 拥有更大的容量和更低的成本,但由 于其可靠性低、寿命短等缺点,仍有待后续发展。目前主流的解决方案为 MLC 与 TLC 。
NOR 闪存(NOR Flash Memory)是在半导体中单元被水平排列的一种闪存。NOR 闪存的存储 单元是水平排列的,因此它具有比 NAND 闪存读取速度更快的结构,能够更快地确定数据的 位置。此外,它还能为数据提供高安全性。不过,由于必须记住每个单元的位置,电路比较 复杂。因此,由于数据存储空间是有限的,很难将其发展为大容量存储。另外,所有数据必 须在找到特定入速单元的位置后才写入,因此其写度比 NAND 闪存更慢。 EEPROM 则是一种支持电可擦除和即插即用的非易失性存储器它能够在断电的情况下保留存 储的信息数据,且拥有体积小、功耗低、接口简单、可在线改写等优势,被广泛应用在手机、 计算机及周边、工业控制、穿戴设备和汽车电子领域。
1.2.国产存储奋起直追,中国企业有望在全球扮演重要角色
按照芯片种类的发展过程看,存储的发展可以分为三个阶段: (1)1990 年以前,DRAM 为存储芯片市场上主要的产品,且伴随少量的 EPROM 和 EEPROM; (2)1990 年至 2000 年,NOR Flash 开始逐步占据一定比例的市场份额; (3)2000 年以后,NAND Flash 开始爆发式增长,其市场规模直逼 DRAM,而 NOR Flash 的市 场规模于 2006 年达到顶峰后开始逐渐下滑,后因 AIoT 等需求又有上升趋势。
按照存储芯片行业的霸主易位的过程,存储芯片行业的历程可以概括为从美国起源,到日本 的崛起,再到韩国的主导。
(1)美国的起源与领导(1960s - 1980s 初)
存储芯片行业的起源可以追溯到 20 世纪 60 年代。美国作为半导体技术的发源地,拥有强大 的技术基础和创新能力。1966 年,IBM 的罗伯特·丹纳德发明了 DRAM(动态随机存取存储器), 这标志着现代存储芯片技术的诞生。随后,美国公司如英特尔、德州仪器和莫斯泰克等开始 大规模生产 DRAM,并在全球市场上占据主导地位。
(2)日本的崛起(1980s)
进入 1980 年代,日本政府通过 VLSI(超大规模集成电路)技术研究协会等组织,推动了国 内半导体产业的快速发展。日本企业如东芝、日立、NEC 等通过技术创新、严格的质量控制 和有效的成本管理,逐渐在存储芯片领域取得了竞争优势。到了 1980 年代中期,日本企业在 全球 DRAM 市场的份额超过了美国,成为全球存储芯片行业的领导者。
(3)韩美的主导(1990s - 现在)
韩国的存储芯片行业起步较晚,但发展迅速。韩国政府通过提供财政支持、税收优惠等政策, 鼓励国内企业发展半导体产业。三星电子(Samsung Electronics)和 SK 海力士(SK Hynix) 等韩国企业通过大规模投资、技术引进和自主研发,逐渐在技术上赶超日本企业。特别是在 1990 年代,韩国企业采取了“反周期投资”策略,在市场低迷时期加大投资,扩大产能,从而 在市场复苏时获得了巨大的竞争优势。在全球个人电脑和移动通信市场的快速增长期间,韩 国企业凭借其高效率的生产和先进的制程技术,逐渐取代了日本企业在全球存储器市场的领 导地位。 存储芯片行业的中心转移是一个复杂的过程,涉及技术创新、产业政策、市场竞争和国际政 治经济环境等多个因素的相互作用。随着中国等新兴市场的崛起,未来产业格局可能再次发 生变化。 中国半导体产业起步较晚,市场竞争力快速提升。2010 年后,中国政府实施了一系列政策, 如“国家集成电路产业发展规划”等,旨在推动本土半导体产业的发展。这一时期,中国存储 芯片行业开始加速发展。2016 年被称为中国大陆存储器产业发展的元年,中国大陆三大存储 器公司晋华集成、合肥长鑫和长江存储在这一年相继成立。2019 年是中国大陆存储芯片产业 化元年,长江存储 32 层 3D NAND 闪存芯片实现量产,并宣布 64 层 256Gb TLC 3D NAND 闪存 芯片投产;合肥长鑫宣布首个 19 纳米工艺制造的 8Gb DDR4 产品。
1.3.DRAM 和 NAND 市场份额占比最大,竞争格局相对集中
1.3.1.DRAM 和 NAND Flash 占据超 95%市场份额
就存储芯片细分产品而言,DRAM 和 NAND Flash 在市场份额方面占据了超过 95%的份额,是 存储芯片行业的主流产品,其中 DRAM、NAND Flash 和 NOR Flash 是主要的存储芯片类型。 根据华经产业研究院的数据,2023 年,DRAM 在整个存储市场的份额约为 56%,Flash 闪存的 份额约为 43%,其中 NAND 闪存占 41%,NOR 闪存占 2%,而其他存储器类型,包括 EEPROM、 EPROM、ROM 和 SRAM 等,则约占总市场份额的 1%。
1.3.2.DRAM 市场三大巨头垄断,中美为主力市场
全球 DRAM 市场形成了三星、SK 海力士、美光三大巨头垄断的行业格局,三者总共占据了 95% 以上的比重。在技术创新、市场份额、生产能力和战略布局等方面展开激烈的竞争。根据 Trendforce 集邦咨询提供的 2023Q4 数据,三星/海力士/美光各占据 45.5%/31.8%/19.2%的 市场份额。
1.3.3.NAND 供给格局相对分散,市场竞争相对激烈
全球具备 NAND Flash 晶圆生产能力的主要有三星、海力士、西部数据、铠侠、美光、长江存 储等厂商。相较 DRAM,NAND Flash 的市场集中度较低。据 TrendForce 集邦咨询数据,2023 年第三季度前三的存储厂商占据 68.5%市场份额,前五的存储厂商占据 96%的市场份额。根 据 MTS2024 集邦咨询存储产业预测数据,2025 年,供应商的产出位元市场份额为:三星 33.4%、 铠侠/西部数据 29.9%、海力士 19%、美光 12.1%、长江存储 5.5%。
1.3.4.其他芯片产品市场规模小,业内厂商布局分散
SRAM:与 DRAM 相比,SRAM 市场规模极小。根据新思界产业研究中心数据,2021 年,全球 SRAM 市场规模约为 4 亿美元。SRAM 市场主要被美国赛普拉斯(Cypres)、日本瑞萨电子(Renesas)、 美国 ISSI 公司(被北京君正收购)三家厂商所占据,合计市场占有率达到 82%。全球其他 SRAM 生产商还有美国 GSI 公司、美国 IDT 公司、美国安森美半导体(ON Semiconductor)、 韩国三星(Samsung)、中国台湾联笙电子、中国台湾来扬科技等。在我国,企业主要布局 DRAM 与 NAND Flash,SRAM 企业数量少,北京君正是代表性 SRAM 生产商。 NOR Flash:在 NOR Flash 全球市场中,全球份额领先企业包括华邦、旺宏、兆易创新。普冉 股份、恒烁股份、东芯股份等也是国产代表性 NOR Flash 生产商。
EEPROM: 根据新思界,全球领先的 EEPROM 厂商包括意法半导体、艾特梅尔、安森美、微芯科 技、艾普凌科、罗姆等。近年,EEPROM 存储芯片的本土企业不断崛起,聚辰股份是国内代表 性 EEPROM 生产商。
1.4.DRAM 分类繁多,海外技术迭代迅速
1.4.1.DDR5 取代 DDR4 逐渐成为市场主流,HBM 受益AI 需求快速增长
按照不同的应用场景划分,固态技术协会(JEDEC)把 DRAM 分成标准 DDR(Double Data Rate)、 LPDDR、GDDR(Graphics Double Data Rate)、HBM 四类,其中 DDR 主要应用于服务器和 PC 端,LPDDR 主要应用于手机端和消费电子,GDDR 主要应用于图像处理,HBM 主要用于生成式 AI 等高吞吐速率场景。 DDR5 成为未来的的主流产品。从 1998 年三星生产出最早的商用 DDR SDRAM 芯片,再到 DDR1、 DDR2、DDR3、DDR4 的延续,DDR5 成为近几年的主流产品。DDR5 (五代双倍数据率同步动态随 机存储器)是最新的第五代 DDR SDRAM。2020 年 7 月,DDR5 内存技术标准正式发布,标志着 内存技术开启了新的篇章。与之前的 DDR4 相比,DDR5 的最大优势在于它显著降低了功耗, 同时将带宽提升了一倍,与 DDR4 相比,在性能、容量和功耗上都有着大幅度提升。 从 DDR 的演变看,DDR 的能耗越来越低,传输速度越来越快、存储容量也越来越大;而从制 程工艺的进展来看,早前产品的更新时间大致在 3 到 5 年更新一代,在步入 20nm 以内的制 程后,DDR 在制程上的突破进展呈现放缓趋势。
HBM(High Bandwidth Memory)是一种高性能的 3D DRAM 技术,其出现是由于处理器的性能 按照摩尔定律规划的路线不断飙升,内存所使用的 DRAM 却从工艺演进中获益很少,性能提 升速度远慢于处理器速度,造成了 DRAM 的性能成为制约计算机性能的一个重要瓶颈,即所 谓的“内存墙”。按照 JEDEC 的分类,HBM 属于 GDDR 内存,其通过使用先进的封装方法(如 TSV 硅通孔技术)垂直堆叠多个 DRAM,并与 GPU 封装在一起,HBM DRAM 产品以 HBM(第一代)、 HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的顺序开发。 HBM3E 是 HBM3 的扩展(Extended)版本。根据 MTS2024 集邦咨询预测数据,2024 年,HBM3e、HBM3、 HBM2e 的市场份额占比分别为:46%、40%、14%。
1.4.2.DRAM 技术持续迭代,进入 10nm 时代
不同于其他工艺直接使用确切数字表达制程的方法,存储行业近年通常使用 1X、1Y、1Z、1 α、1β、1γ之类的术语表达制程。10nm-20nm 系列制程大约包括六代产品,1X 大约等同于 19nm,1Y 约等同于 18nm,1Z 大约为 16-17nm,1α、1β、1γ则对应 12-14nm(15nm 以下)。 三星、海力士、美光作为产业龙头推动 DRAM 技术进步。例如,三星是首家商用 1z nm 工艺 的 DRAM 厂商,并积极研发更先进的 1α和 1βnm 工艺。海力士也在技术创新上不断努力,推 出了基于 HKMG(高 K 金属栅)技术的 LPDDR5X 移动 DRAM,以及积极布局 1α和 1βnm 工艺。 美光科技同样在 DRAM 技术上持续创新,宣布无需采用 EUV 光刻机,全球率先进入了 1β节 点,展示了其在制程技术上的突破。根据全球半导体观察,2023 年,三星量产 12nm 级 16Gb DDR5 DRAM;开发出基于 12nm 级工艺技术的 32Gb DDR5 DRAM。将于 2026 年推出 DDR6 内存, 2027 年即实现原生 10Gbps 的速度。SK 海力士第 5 代 10nm 工艺 1bnm 已完成技术研发,采用 “HKMG(High-K Metal Gate)”工艺,与 1a DDR5 DRAM 相比功耗减少了 20%以上。
国内 DRAM 厂商目前正处于起步阶段,包括长鑫存储、兆易创新、紫光国芯、福建晋华、东芯 股份、北京君正等。其中,长鑫存储聚焦手机、PC、服务器等大宗 DRAM 市场。长鑫存储创立 于 2016 年,是一家一体化存储器制造公司,专注于动态随机存取存储芯片(DRAM)的设计、研 发、生产和销售(IDM 模式)。目前已在合肥、北京建成 12 英寸晶圆厂并投产,已推出多款 DRAM 商用产品,广泛应用于移动终端、电脑、服务器、虚拟现实和物联网等领域。据 2023 年 11 月 28 日长鑫存储官网消息,长鑫存储正式推出 LPDDR5 系列产品,包括 12Gb 的 LPDDR5 颗 粒,12GB LPDDR5 芯片及 6GB LPDDR5 芯片。12GB LPDDR5 芯片目前已在国内主流手机厂商小 米、传音等品牌机型上完成验证。LPDDR5 是长鑫存储面向中高端移动设备市场推出的产品, 它的市场化落地将进一步完善长鑫存储 DRAM 芯片的产品布局。
1.5.NAND 堆叠层数取得重大突破,国内厂商奋起直追
NAND 闪存堆叠层数进入 200+层时代。随着应用领域和使用场景愈发多样化,市场对 NAND Flash 的要求也随之提升,先前采用二维平面堆叠方式的 2D NAND 已经不再能满足市场的需 求。 在海外,最早在 3D NAND 领域开拓疆土的是韩国厂商三星。2013 年 8 月,三星推出 V-NAND (3D NAND)闪存,是全球首个 3D 单元结构。虽然采用三维平面堆叠方式增加了存储空间, 但如何突破 3D NAND 层数瓶颈,一直是 NAND 厂商研发的痛点。2022 年,SK 海力士再次将层 数突破到 238 层,达成当前全球首款业界最高层数 NAND 闪存。从原厂动态来看,SK 海力士 和美光率先进入 200+层时代,其中 NAND 闪存业界最高层数为 SK 海力士的 238 层,其次是美 光的 232 层。主流技术 NAND Flash 3D 堆叠层数已跨越 176 层、232 层、迈进 238 层,未来 原厂还将发力 200+层、300 层、400 层、甚至 500 层以上 NAND 技术。
在国内,国产厂商处于起步状态,正在市场份额与技术上奋起直追。其中,最为重要的是长 江存储。长江存储科技有限责任公司成立于 2016 年 7 月,总部位于武汉,是一家专注于 3D NAND 闪存设计制造一体化的 IDM 集成电路企业,同时也提供完整的存储器解决方案。长江存 储为全球合作伙伴供应 3D NAND 闪存晶圆及颗粒,嵌入式存储芯片以及消费级、企业级固态 硬盘等产品和解决方案,广泛应用于移动通信、消费数码、计算机、服务器及数据中心。
1.6.NOR FLASH 技术及产业演进方向
NOR Flash 的技术演进方向主要包括以下几个方面: 1、向 3D 方向发展:3D 芯片是应对晶体管密度提升与先进制程微缩高成本矛盾的方案。目 前 3D NAND Flash 已广泛应用,旺宏等也在做 NOR Flash 的 3D 技术的探索。 2、提升制程工艺:与 NAND Flash 相比,NOR Flash 对先进节点的要求不高,但龙头厂商仍 在努力提升制程。 3、优化存内计算技术:存内计算技术可实现存储与逻辑单元的融合,NOR Flash 作为存内计 算的硬件载体之一,未来可能会在存内计算单元设计和模拟运算实现等方面不断优化,以提 升性能并降低功耗,存内计算技术的发展有望首先在物联网终端推理场景得到应用。 4、拓展应用领域:NOR Flash 凭借其非易失性、高读取速度、可片上执行等特性,在一些特 定领域的应用不断拓展。例如在汽车电子中,从车用广播的低端向中控系统搭载的高容量发展; TWS 耳机、AMOLED、5G 等领域的需求也在不断增长;物联网设备中用于存储启动和运行 系统等需求; AI PC 的 NOR Flash 容量也有望增加。
2.存储行业周期特点显著,供需共同发力推动市场进入上行通道
半导体是典型的周期性行业,繁荣和萧条交替出现。出现半导体周期的原因在于半导体的需 求是连续的,但是供给是阶跃的,呈现周期的核心原因是供给与需求在“时间”和“量”上 的错配。全球半导体市场大约每隔 4~5 年经历一轮周期,存储产业景气度往往被看作研究全 球半导体周期的重要指标,不同细分领域周期底部时间点略有差别。 相较模拟等芯片类型,存储类芯片的产业周期性更为明显。存储芯片是集成电路中销售额最 大的细分领域之一,约占 1/4 左右,在整个产业中占据核心地位。由于存储的供给相对集中, 下游需求又主要集中在手机、PC、服务器等通用类终端,如果供给侧的产能与需求侧产生错 配,比较容易产生价格的大幅度波动。三星、海力士、美光等企业的业绩也会出现较大幅度 的波动。
2.1.主流产品市场规模周期性波动显著,疫情催生需求上行
作为主流产品的 DRAM 和 NAND Flash 的市场规模存在着明显的周期性波动。在需求端,智能 手机等下游需求的爆发或者萎靡,是影响存储进入上行周期还是下行周期的重要因素。同样, 在供给端;厂商的扩产或者减产也会造成供过于求/供不应求使从而影响存储的周期变化。
疫情催生线上经济,带动存储进入周期上行。在本轮周期中,即从 2020 年开始,存储芯片先 是经历了周期上行,主要系疫情下,线上经济、居家办公等需求拉动服务器、TV、PC 出货激 增,5G 手机升级驱动单机容量升级,带动存储价格回升所致。 存储周期在 22H2、23H1 步入周期下行。但是,随着疫情带来的经济放缓,在 2022 年下半年, 智能手机等消费电子需求步入低迷,手机下滑,无法消化国际龙头扩张的产能。存储芯片进 入下行周期。根据集邦咨询报告,2022 年第四季度,全球 DRAM 产业营收 122.8 亿美元,环 比下降 32.5%,跌幅逼近 2008 年底金融海啸时的单季 36%跌幅。
2.2.智能手机、PC、AI 服务器为主要需求市场,三方新需求带动市场发展
以 ChatGPT 等为代表的生成式 AI 技术的蓬勃发展,会显著增加各类算力芯片、存储芯片的 用量,主要逻辑如下:一是云端训练和推理会拉动 HBM、LPDDR5、NAND 等的存储芯片需求量 显著增加;二是 AI 技术在端侧应用,有望带动手机、PC 等换机周期缩短;三是 AI 终端由于 本地部署模型,DRAM 的用量会显著增加。 智能手机、PC、服务器是存储芯片主要应用市场。据 TrendForce 统计,2023 年全球 DRAM 各 类终端占比中,手机端占比为 36.9%,PC 端占比为 12.4%,合计 49.3%。手机与 PC 占 DRAM 终 端市场一半左右。 手机需求在连续下滑多个季度之后在 2024 年回暖,有望带动存储需求走出低谷。受宏观经 济挑战和年初库存增加,2023 年遭遇了十年来全球智能手机市场年出货量增速的最低谷。根 据 Counterpoint Research 的《全球智能手机出货量预测》,2024 年全球智能手机出货量预 计将增长 3%,达到 12 亿部。
PC 市场的同样复苏也利好 DRAM 发展。研究机构 Canalys 发布 2023 年中国 PC 市场统计数据 以及未来预测。2023 年得益于商用市场的换机需求,中国 PC 市场(台式机、笔记本)出货 4120 万台,同比下降 17%;预计 2024 年将增长 3%,并在 2025 年进一步扩大,达到 10%。据 IDC 表示,预测 2024 年上半年出货量同比上升 1.5%,下半年 PC 市场同比增长率将为 5.6%, 其中高性能 PC 产品及轻薄笔记本的市场份额均得到提升,整体呈现“K 型趋势”。而且,业 界普遍看好 AI PC 的出现会引发一轮 PC 换机潮,突破现有的增长桎梏,并有望叠加自然换 机需求,再次唤醒 PC 消费市场。 AI 服务器可望带动存储器需求成长。根据 TrendForce 集邦咨询数据,目前 Server DRAM 普 遍配置约为 500~600GB 左右,而 AI 服务器在单条模组上则多采 64~128GB,平均容量可达 1.2~1.7TB 之间。以 Enterprise SSD 而言,由于 AI 服务器追求的速度更高,其要求优先满 足 DRAM 或 HBM 需求,在 SSD 的容量提升上则呈现非必要扩大容量的态势,但在传输接口上, 则会为了高速运算的需求而优先采用 PCIe 5.0。而相较于一般服务器而言,AI 服务器多增 加 GPGPU 的使用,因此以 NVIDIA A100 80GB 配置 4 或 8 张计算,HBM 用量约为 320~640GB。 未来在 AI 模型逐渐复杂化的趋势下,将刺激更多的存储器用量,并同步带动 Server DRAM、 SSD 以及 HBM 的需求成长。 HBM 会显著消耗 DRAM 产能。2024 年 3 月,在美光公开电话会议上,表 CEO 桑杰・梅赫罗特 拉(Sanjay Mehrotra)表示,相对于传统内存,HBM 对晶圆量的消耗明显更高。在同一节点 生产同等容量的情况下,目前最先进的 HBM3E 内存对晶圆量的消耗是标准 DDR5 的三倍, 并且预计随着性能的提升和封装复杂度的加剧,在未来的 HBM4 上这一比值将进一步提升。
2.3.海外大厂去库存初具成效,存储价格逐步回暖
存储芯片厂商通过减产拉动价格上涨,调整市场供需失衡。为了应对需求低迷的情况,2023 年 Q2 开始,多家存储大厂宣布以减产+涨价的方式调整市场供需。在陆续降低产线稼动率后, 大厂们开启涨价计划。整体而言,从行业周期角度看,随着海外大厂通过减产去库存的策略 逐渐见效,主流存储价格自 2023Q3 开始已经持续回暖。
3.HBM 技术带来内存升级,突破 AI 训练算力瓶颈
3.1.AI 算力需求持续增长,传统内存方案受限
人工智能(AI)训练对内存性能要求持续提高,存储器性能提升陷入瓶颈。自 2022 年 11 月 OpenAI 推出 ChatGPT 以来,AI 大规模应用的时代正式拉开序幕。各大科技公司纷纷投入研 发,推出大型 AI 模型产品,这些大型模型的训练与部署对 AI 算力芯片的需求激增,同时对 于数据存储与传输的要求也显著提高。高速数据处理对带宽的需求已经达到 60GB/s,某些高 级应用预计带宽需求达到 400GB/s 到 1TB/s。然而,存储器带宽的扩展跟不上处理能力的增长,导致内存性能极大限制了处理器性能的发挥,尽管图形双倍数据速率(GDDRx)和动态随 机存取存储器(DRAM)可提供高带宽,但其接口狭窄且功耗较高,应用受限。
高带宽存储器(High bandwidth Memory,HBM)是新一代 DRAM 内存解决方案。HBM 通过先进 的封装方法(如 TSV 硅通孔技术),将多个 DRAM 垂直堆叠起来,并通过中介层紧凑而快速连 接到 GPU 或 CPU 上。通俗来讲,HBM 可以理解为将 DRAM 颗粒从传统的“平房”变成了“楼 房”,从而提高了带宽。相较于传统的存储芯片,HBM 突破了内存容量和带宽的瓶颈,可提供 高达 1TB/s 的带宽,同时与 GDDRx 相比功耗更低且容量更高,能满足日益庞大的数据集和复 杂的计算任务。
HBM 高带宽、低功耗的特性,使其在 AI 市场的热潮中具有广泛应用场景。NVIDIA、AMD 等世 界一线芯片厂商积极布局 HBM 存储器,加速拓展其多元产品线。AI 服务器对存储器带宽提出 更高要求,HBM 成为重要解决方案。Al 服务器 GPU 市场以 NVIDIA GB200、B200、B100、H100 以及 AMD MI250、MI250X 系列为主,基本都配备了 HBM。HBM 方案目前已演进为较为主流的 高性能计算领域扩展高带宽的方案。
3.2.工作原理及加工工艺
HBM 是一种用于 3D 堆叠 SDRAM(同步动态随机存取内存)的计算机内存接口,可用于服务器、 高性能计算。单个 DRAM Die 垂直堆叠以缩短数据传输的距离, Die 之间用 TSV(Through Silicon Via,硅通孔技术)和微凸块相连接。多层 DRAM die 与下 层的 Logic Die(逻辑控制单元)相连,逻辑控制单元中包括缓冲电路和测试逻辑,可对堆 叠的 DRAM 进行控制。CPU/GPU 和 DRAM 可通过中介层(Interposer)和微凸块(uBump)连通。 TSV 硅通孔是 HBM 实现容量和带宽扩展的核心,通过在整个硅晶圆厚度上打孔,在芯片正面 和背面之间形成数千个垂直互连。TSV 技术是目前唯一的垂直电互联技术,是实现 3D 先进封 装的关键技术之一,具有多个优势:(1)高密度集成。通过先进封装,可以大幅度地提高电 子元器件集成度,减小封装的几何尺寸和封装重量;(2)电性能高:大幅度缩短电互连的长 度,克服信号延迟问题;(3)多功能集成:可以把不同的功能芯片(如射频、内存、逻辑、数 字和 MEMS 等)集成在一起实现电子元器件的多功能;(4)成本低:在元器件的总体水平上降 低制造成本。
HBM 的制造工艺包括 TSV、Bumping 和堆叠等工艺。HBM 生产主要 是半导体工艺和晶圆级封装,其中半导体工艺与一般 DRAM 制造工艺没有显著不同,但制备 具有通孔 TSV 结构需要额外工艺,如通过蚀刻形成通孔,在金属化后端制程前填充铜并进行 抛光;晶圆级工艺主要指 Bumping(圆片级凸点)工艺,即在晶圆 Pad 上形成焊料凸点。之 后将载体晶圆剥离并粘贴在承载薄膜上,待完成芯片堆叠后通过二次工艺完成封装。
CoWoS 是一种把晶片堆叠再封装于基板上的先进封装技术,分为 2.5D 封装和 3D 封装。HBM 和 CPU/GPU 或 ASIC 共同连接在中介层上, 通过 CoWoS 2.5D 封装工艺相连,中介层通过铜凸点连接至封装基板上,最后通过锡球与下 方 PCB 基板相连。2.5D 与 3D 封装技术在于堆叠方式,2.5D 封装指将晶片堆叠 于中介层上,以水平堆叠的方式,主要应用于拼接逻辑运算 ASIC 和 HBM;3D 封装则以垂直堆 叠晶片的方式,主要面向高效能逻辑晶片、SoC 制造等。目前先进封装已经面临 7nm 以下的 技术,CoWoS 主要由台积电进行制造。
3.3.龙头企业加速技术迭代,市场规模快速提升
HBM 历经多次更迭,堆叠层数更多、容量更大、带宽更高,性能全面提升。AMD 于 2008 年开 始开发 HBM,以解决计算机内存功耗和尺寸不断增加的问题。2013 年 SK Hynix 制造了第一 颗 HBM 存储芯片,同年 10 月 HBM 被 JEDEC(Joint Electron Device Engineering Council,固体技术协会)采用为行业标准 JESD235。目前 HBM 已迭代到 HBM3e,Sk Hynix 将于今年上 半年开始投入 HBM3e 量产。
截至 2022 年,HBM 市场份额基本由 SK Hynix(50%)、三星(40%)、美光(10%)三大存储器 厂商占据。SK Hynix 当前技术领先,核心在于 MR-MUF 技术,MR-MUF 能有效提高导热率,并 改善工艺速度和良率。SK 海力士于 2021 年 10 月率先发布 HBM3,2023 年 4 月公司实现了全 球首创 12 层硅通孔技术垂直堆叠芯片,容量达到 24GB,比上一代 HBM3 高出 50%,SK 海力士 计划在 2023 年年底前提供 HBM3e 样品,并于 2024 年量产,公司目标 2026 年生产 HBM4。 三星则有万亿韩元新建封装线,预计 25 年量产 HBM4。为应对 HBM 市场的需求,三星电子已 从三星显示(SamsungDisplay)购买天安厂区内部分建筑物和设备,用于建设新 HBM 封装线, 总投资额达到 7000-10000 亿韩元。三星预计将在 2023Q4 开始向北美客户供应 HBM3。 美光则将在 2024 年量产 HBM3e,多代产品研发中。美光在此前的财报电话会议上表示将在 2024 年通过 HBM3e 实现追赶,预计其 HBM3E 将于 2024Q3 或者 Q4 开始为英伟达的下一代 GPU 供应。2023 年 11 月 6 日美光在台湾台中四厂正式开工,宣布将集成先进的探测和封装测试 功能,生产 HBM3E 等产品。 目前市场主流产品为 HBM3,预计从 2024 年起市场关注焦点由 HBM3 转向HBM3e。据TrendForce 集邦咨询调查,第一季由 SK 海力士率先通过验证,美光紧跟其后,并于第一季底开始递交 HBM3e 量产产品,以搭配计划在第二季末铺货的 NVIDIA H200。三星由于递交样品的时程较 其他两家供应商略晚,预计其 HBM3e 将于第一季末前通过验证,并于第二季开始正式出货。 由于三星 HBM3 的验证已经有了突破,且 HBM3e 的验证若无意外也即将完成,这也意味着该 公司的出货市占于今年末将与 SK 海力士拉近差距。
4.终端 AI 不断优化,DDR 需求有望增长
AI 技术持续发展,科技龙头积极布局终端 AI。近年来以 ChatGPT 为代表的 AI 技术持续发展, 已经支持图文识别理解、逻辑推理、写作和文献阅读等一系列功能,人工智能技术日益成为 社会生产力发展的助推器,为千家万户带来便利。各大科技巨头纷纷加速布局面向消费级和 企业级的终端侧 AI。
PC 端进入 AI 智能化进程,AI PC 初现端倪。PC 的 AI 智能化由硬件和软件协同驱动,硬件方 面 AI 模型的训练和部署需要高算力 AI 芯片支撑,因此 AI PC 通常搭载高性能的 CPU 和 GPU, 以及专门的神经处理单元(NPU)等;软件方面相关算法的优化使芯片能高效执行 AI 相关应 用,能支持更加自然和智能的用户交互,提升用户体验。目前,PC 制造商开始向 AI 技术领 域转型,竞相推出自家的 AI PC 产品。群智咨询预计,2024 年作为 AI PC 发展的元年,AI 笔 记本电脑出货量达到 1300 万台,在笔记本电脑市场渗透率达到 7%,2025 年渗透率预计逼近 30%,2026 年渗透率会超过 50%,2027 年 AIPC 成为主流 PC 产品的类别,市场渗透率逼近 80%。
AI 技术驱动智能手机功能变革。手机相当于袖珍的 PC,AI 的发展给移动终端行业带来机会, 将赋予手机算力高效利用能力、真实世界感知能力、自学习能力和创作能力。在手机端侧部 署 AI 模型,实现多模态的人机交互,手机行业和用户体验都将迎来革命性的变化。各大手机 厂商在 AI 手机的布局大同小异,运用 AI 技术提升智能手机/智能设备的体验已经成为确切 的机遇。IDC 预计 2024 年全球新一代 AI 手机的出货量将达到 1.7 亿部,约占智能手机 整体出货量的 15%。
内存性能制约 AI 终端应用,DRAM 需求有望提升。AI 终端算力主要来自于 SoC,目前例如高 通已经为智能手机、PC 等各类终端平台打造了 SoC,智能手机端的高端算力芯片以骁龙 888、 骁龙 888+、8Gen1、8+Gen1、8550、8Gen2 为主,为后续混合 AI 算力提升奠定了基础;在 PC 端主要有 8cx、8cxGen2、8cxGen3 等,算力足够。然而为发挥 SoC 性能,DRAM 配置需同步递 增,美光预估 AI 时代旗舰手机 DRAM 内存用量将提升 50%-100%。OPPO 联合 IDC 发布行业 首个《AI 手机白皮书》指出,16GB RAM 将成为新一代 AI 手机的基础配置,SoC 以外的硬件 需要一同配套升级,如 16GB 的 RAM 对于新一代 AI 手机则属于最低要求。AI 手机的销售有 望进一步带动 DRAM 需求增长。
5.其它产业及技术趋势
5.1.传统体系结构限制存算性能,存算一体架构成为未来主流方案
传统冯诺依曼存储器结构限制芯片算力的提升。冯诺依曼架构是一种处理器和存储器相分离 的结构,处理器设计以提升计算速度为主,存储器则注重容量提升和成本优化。工作时,用 户输入的数据先放到内存当中,CPU 读取数据的时候就直接从内存当中读取,CPU 处理完数 据后又写回内存,然后内存再将数据输出到输出设备,最后由输出设备进行输出显示。然而 近年来处理器的算力大幅提高,尽管存储器从 DDR 发展到 HBM,能够用于显卡、游戏终端和 高性能运算,接口标准也从 PCIe1.0a 升级到 NVLink3.0,但是通信带宽的增长和算力相比 提高幅度非常缓慢。“存”“算”性能失配,导致访存带宽低、时延长、功耗高,限制了整体 芯片处理数据的速度。
存算一体技术能有效克服传统架构的不足,提升系统计算效率。存算一体是一种将存储和计 算功能融合在同一个芯片上的技术架构,存储功能和计算功能有机融合,直接利用存储单元 进行数据处理——通过修改“读”电路的存内计算架构,可以在“读”电路中获取运算结果,并将 结果直接“写”回存储器的目的地址,不再需要在计算单元和存储单元之间进行频繁的数据转 移,消除了数据搬移带来的开销,不仅极大降低了功耗,还大大提升了计算效率。
根据存储与计算的距离远近,存算一体技术可分为三类,分别是近存计算(Processing Near Memory,PNM)、存内处理(Processing In Memory,PIM)和存内计算(Computing in Memory, CIM)。近存计算指计算操作由位于存储芯片外部的独立计算单元完成。在不改变计算单元和 存储单元本身设计功能的前提下,通过采用先进的封装方式以及合理的硬件布局和结构优化, 增强二者间通信带宽,增大数据传输速率,进而提高数据处理效率。存内处理指在物理形式 上,存储单元和计算单元还是相互独立存在,计算操作由位于存储芯片内部的独立计算单元 完成。存内计算指存储单元和计算单元完全融合,没有独立的计算单元,直接通过在存储器 颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作。
存算一体技术的发展趋势包括以下几个方面: 1) 计算密度和能效提升:存算一体技术有望大幅度提升 AI 芯片的计算密度和能效,缓解 AI 芯片性能与功耗之间的矛盾,提升大模型部署的经济性。特别是针对大模型的推理,存 算一体保持权重的特点与大模型中大规模的参数部署需求相匹配。 2) 架构创新:存算一体技术是芯片的底层架构创新,未来可能会出现更多以存算宏单元为 乘累加引擎构建的微架构或片上系统。例如一些基于高带宽存储器(HBM)的存内处理体 系已经出现,将存储器层级纳入系统设计的考虑范畴,以应对模型参数量的急剧增长。 3) 技术产品化:资本和产业的双轮驱动,将促使存算一体芯片在垂直细分领域迎来规模化 商用。基于 SRAM、NOR Flash 等成熟存储器的存内计算会优先在低功耗、小算力的端侧, 如智能家居、可穿戴设备、泛机器人、智能安防等计算场景落地,并逐渐向大算力通用计算场景拓展。基于非易失性、新型存储元件的存算一体,其走向成熟可能还需要 5-10 年时间。 4) 高精度计算:在存算宏单元的设计方面,数字域的高精度存内计算依然是主流,能够实 现较高精度的乘累加计算。例如台积电基于 4nm FinFET 工艺开发的数字域存内计算宏 单元,可支持更高精度的整型矩阵向量乘计算。 5) 多样化的存储介质:存算一体芯片的研发企业和机构目前主要集中在 SRAM、Nor-Flash 和 DRAM 等成熟介质上,部分学术机构则选择切入 RRAM 等新型介质的研发。长期来看, 存算一体芯片产品化的快速发展离不开新型存储介质成熟度的提升。不同的存储介质(如 易失性存储器 SRAM、DRAM 和非易失性存储器 NOR Flash、NAND Flash 等)在传输速率、 存储容量等方面各有特点,而新型存储介质(如 RRAM、MRAM 等)具有类似生物神经突触 的特性,未来有望在存算一体技术中发挥更大作用。 6) 通用型和类脑计算芯片发展:小规模的存算一体宏电路在持续完善,未来将打通协同设 计技术链条,研制出规模可扩展的通用型存算一体芯片和基于多种神经形态器件的类脑 计算芯片。例如以忆阻器为代表的神经形态器件在不断优化,未来将继续提升性能并发 展大规模集成技术,实现多种神经形态器件的异质集成和三维高密度集成。 7) 与其他技术融合:存算一体技术可能会与其他技术(如量子计算、光子芯片、非硅基芯 片等)相互融合,共同推动芯片技术的发展。虽然存算一体芯片相对于 CPU/GPU 等主流 算力并非是取代关系,但它将成为主流算力的重要补充,侧重于提供高能效的算力。
5.2.CXL 技术突破“存储墙”限制,内存使用效率进一步提高
内存利用率难以提升,大量内存资源闲置。当下主流的计算系统依赖于数据存储与数据处理 分离的多级存储,通常采用高速缓存(SRAM)、主存(DRAM)、外部存储(NAND Flash)的三 级存储结构。系统运作时,需要不断地在内存中来回传输信息。数据在三级存储间传输时, 后级的响应时间及传输带宽都将拖累整体的性能,形成“存储墙”,并且由于数据量庞大,系 统需要借助外部存储并用网络 IO 来访问数据,致使访问速度下降几个数量级。Google 报告 指出,该公司数据中心的 DRAM 利用率只有 40%,而微软 Azure 也表示,他们的数据中心内, 当所有的处理器核心都分配给 VM 之后,仍有 25%的 DRAM 资源未被配置,处于闲置状态。但 由于处理器核心已经分配完毕,这些闲置 DRAM 也无法被使用,导致成本浪费,计算系统性能 被制约。
CXL 技术的高兼容性、内存一致性等优势能够有效解决上述问题。CXL(Compute Express Link) 技术是全新的处理器至外围设备/加速器链接协议,旨在提供更高的数据吞吐量和更低的延迟,以满足现代计算和存储系统的需求。CXL 由英特尔、AMD 和其他公司于 2019 年联合推出, 并得到了包括谷歌、微软等公司在内的大量支持。CXL 协议包含三个子协议: 1) CXL.io:这种模式可以将内存扩展到外部设备,使得数据的传输速度更快。CXL.io 通过 PCIe 总线连接 CPU 和外部设备,这样 CPU 就可以与外部设备共享内存,并且可以直接访 问外部设备的 I/O 资源。 2) CXL.cache:这种模式可以通过将内存缓存到外部设备中来提高性能。CXL.cache 模式允 许 CPU 在本地缓存中保留最常用的数据,而将不常用的数据保存在外部设备中。这样可 以减少内存访问时间,提高整体系统性能。 3) CXL.memory:这种模式可以将外部设备作为主内存使用,从而实现更大的内存容量。 CXL.memory 模式允许 CPU 将外部设备看作是扩展内存,从而可以存储更多的数据。这种 方式可以提高系统的可靠性,因为即使发生了内存故障,CPU 仍然可以通过外部设备继 续运行。
CXL2.0 提出内存池化(Pooling)技术,能够提高内存的使用率并降低内存的使用成本。CXL2.0 加入了一层 Switch,在 H1、H2…H#等主机/服务器可通过 CXL Switch 连接多个设备,CXL 技 术能够让设备在内存池里寻找内存空间。在该框架下,跨系统设备实现共享内存池成为可能。 引入 DRAM 池化,按需分配可以大大提高内存使用效率,并节约数据中心的建设成本。CXL 目 前已经完全支持池化技术,成为提高服务器性能另外的重要手段之一。
CXL3.0 推动共享内存技术的进一步发展。CXL 联盟于 2022 年宣布了 CXL3.0,新版本在物理 层面总线可用带宽提升了一倍,达到 64GT/s;在逻辑层面扩展了标准逻辑能力,允许更灵活 的连接拓扑,实现内存共享。CXL 2.0 提供了内存池设计,多个主机可以对设备内存进行访 问,但是每个主机都需要分配自己专属内存段。在 CXL 3.0 中,内存共享变得更开放,多个 主机可以拥有一个共享内存段的一致性副本。
CXL 在计算和存储领域发挥关键作用,行业巨头争相布局。一方面,CXL 高带宽、低延迟的特 性有助于算力提升;另一方面 CXL 具备良好的内存扩展性,通过内存共享或内存池化来提高 性能,最大限度地减少对复杂软件的需求并降低系统总成本,因此 CXL 技术在大型计算集群 和高算力需求的 AI 应用前景广阔。CXL 联盟由 Intel 牵头,各大行业具体微软、戴尔、Meta、 Google、HPE、AMD、华为、阿里巴巴等均参与其中,目前,CXL 联盟扩展出超过 165 个成员, 几乎涵盖了所有主要的 CPU、GPU、内存、存储和网络设备制造商。业界消息显示,2024 年上 半年,CXL1.1 和 CXL2.0 可能会有落地产品,而 CXL3.0 的落地还需要更长时间。 根据 Yolo 的预测,全球 CXL 市场规模预计在 2028 年将达到 150 亿美元。尽管目前只有不到 10%的 CPU 与 CXL 标准兼容,但预计到 2027 年,所有 CPU 都将被设计为支持 CXL 接口,这将 进一步推动 CXL 市场的发展。根据澜起科技 2023 年年报,从 2019 年到 2023 年,CXL 经历了 高速的发展,其应用涉及服务器端,以及存储产品与解决方案端这两大层面。已经有多家厂 商发布 CXL 相关元件、产品,以及成套解决方案。2022 年底到 2023 年初,随着 AMD 发布第 四代 EPYC(代号 Genoa),以及英特尔发布第四代 Xeon Scalable(代号 Sapphire Rapids), 新款处理器平台上市将 CXL 技术应用到服务器端,完善 CXL 的应用环境。经过数年的发展, 目前 CXL 的生态已经初步形成。在元件层级的芯片供应商与设计商,对应产品包括:CXL 控 制器(Controller)、定时器(Retimers)、交换器(Switch)产品。系统层级,目前有三星、 SK Hynix、美光等厂商推出扩展存储类型的 CXL 产品。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
获取精品报告请登录【未来智库】www.vzkoo.com。
立即登录请点击下方图片进入“未来智库”
小程序
。