专栏名称: EETOP

EETOP电子网(中国电子顶级开发网）是国内最顶级的电子行业工程师社区，涉及：嵌入式、智能硬件、半导体集成电路设计及制造等。为您分享论坛精华内容、行业最新资讯、产品及技术。网址：www.eetop.cn bbs.eetop.cn

HBM为什么那么火？

EETOP · 公众号 · 硬件 · 2025-01-03 08:00

正文

随着人工智能、自动驾驶、物联网（IoT）和5G等技术的快速发展，对高带宽内存的需求持续增长，HBM也就应运而生了。HBM（High Bandwidth Memory，高带宽存储器）是一种先进的内存技术。通过高带宽、低功耗和紧凑的封装设计，它能满足高性能计算（HPC）、人工智能（AI）、图形处理（GPU）和数据中心的需求。

HBM的核心特点

高带宽，HBM通过宽接口和多通道设计实现了高数据吞吐量。相较于传统的GDDR内存，HBM提供更高的每针带宽，适合处理大规模并行计算任务。

低功耗，HBM通过减少信号传输路径长度和优化电路设计，降低了功耗。工作电压通常为1.2V或更低，比GDDR显著节能。

紧凑封装，HBM采用2.5D封装，将DRAM芯片垂直堆叠并通过硅中介层（Interposer）连接到处理器，显著减少了PCB面积。

高密度，采用TSV（Through-Silicon Via，硅通孔）技术使得HBM可以支持多层堆叠，每堆可达16层甚至更多。

HBM的技术架构

HBM的架构包括以下几个关键部分：

1.堆叠设计，HBM内存由多层DRAM芯片堆叠组成，层数从4层到16层不等。通过TSV技术在垂直方向实现层间互联，降低信号延迟。

2.宽接口，每堆HBM内存具有数千个I/O接口，典型为1024位宽或更高，显著提高了数据传输速率。

3.硅中介层（Interposer），HBM内存与处理器之间通过硅中介层连接，提供高带宽、低延迟的通信。

4.分片架构，HBM内存被分成多个逻辑分片（Channels），每个分片都有独立的控制器以提高并行访问能力。

从2015 HBM第一代发布到现在近10年的时间，已经商用的是HBM3E，预计明年会发布HBM4。

每一代HBM的发布都会带来非常大的变革。下面我们简单介绍下每一代发布的主要内容，重点比较它们的性能、技术特点和应用领域：

参数	HBM1	HBM2	HBM3	HBM3E	HBM4
发布时间	2015	2016	2021	2023	预计2025年
带宽（每堆叠）	128 GB/s	256 GB/s	819 GB/s	~1.2 TB/s	2 TB/s 或更高
总带宽	512 GB/s	1 TB/s	3.2 TB/s	4.8 TB/s	6 TB/s 或更高
单堆容量	1 GB–4 GB	4 GB–8 GB	16 GB	24 GB	48 GB 或更高
堆叠层数	4–8 层	4–8 层	8–12 层	12–16 层	16 层或更多
I/O 速度	1 Gbps	2 Gbps	6.4 Gbps	9.2 Gbps	12 Gbps 或更高
功耗效率	较低	提升10%	显著提升	进一步优化	更高的能效
工艺节点	28nm	20nm	12nm	10nm 或更先进	<10nm
关键技术	基础 TSV 堆叠	高层 TSV 堆叠	高速通道优化	无助焊剂键合	无助焊剂+更高堆叠
典型应用	图形处理（GPU）	AI 和 HPC	数据中心，HPC	生成式 AI，加速器	下一代 AI 与 HPC
制造商	SK Hynix, AMD	SK Hynix, AMD, Nvidia	SK Hynix, Samsung	SK Hynix, Samsung	SK Hynix, Samsung

为什么不采用GDDR或者DDR5这类存储总线呢？其实个人认为最主要的原因主要集中在带宽、能效、延迟和紧凑性等关键性能指标上。比如单堆叠HBM3的带宽可达 819 GB/s，系统总带宽可超过 3.2 TB/s，虽然GDDR6X最高可达64 GB/s已经很高，但是还是远不及HBM高；DDR5就更加不具备高密度传输的能力了。

以下是关于HBM3与GDDR6/6X以及DDR5的简要对比：

参数	HBM3	GDDR6/GDDR6X	DDR5
主要用途	HPC、AI训练、图形处理、数据中心	游戏显卡、专业显卡	服务器、PC内存
接口宽度	1024 位（或更高）	32 位（单通道）	64 位
带宽（每堆/通道）	819 GB/s（HBM3）	16–21 GB/s（GDDR6）	4.8–6.4 GB/s
带宽（每堆/通道）	819 GB/s（HBM3）	64 GB/s（GDDR6X）	4.8–6.4 GB/s
总带宽	>3.2 TB/s（多堆叠）	1 TB/s（典型显卡）	51.2 GB/s（典型配置）
容量（单模组）	8–16 GB（单堆叠）	8–24 GB（单显存模组）	8–256 GB
功耗效率	高效（低功耗设计）	较高功耗	中等功耗
工作电压	1.1 V	1.35–1.5 V	1.1 V
封装形式	TSV+硅中介层（2.5D封装）	标准显存封装	标准DIMM
延迟	极低	中等	高
典型频率	3.2–6.4 Gbps（有效）	16–21 Gbps（有效）	4.8–6.4 Gbps（有效）
制造成本	高	中等	较低
典型应用场景	HPC、AI加速器（如Nvidia A100/H100）	游戏GPU（如Nvidia RTX、AMD RX系列）	个人电脑、服务器工作负载

这样一对比，HBM的优势与挑战也就显而易见了。HBM的优势就是：

（1）.提供更高的带宽以满足计算密集型任务需求。

（2）.高度集成，减少主板空间和功耗。

（3）.低延迟设计，有助于提升系统响应速度。

其挑战包括了：

（1）.成本高：TSV和硅中介层技术复杂，增加了生产成本。

（2）.热管理：高堆叠层数导致热密度增加，需要有效散热方案。

（3）.制造难度：封装和互联工艺对精度要求极高，影响良率。

HBM技术将不断进化，HBM4可能出现：更高堆叠层数（>16层）、更低功耗设计、更快的I/O速度（>20 Gbps）。

总之，HBM在高带宽、低功耗、低延迟、紧凑设计上具有显著优势，非常适合 AI训练、HPC、高端图形处理等专业应用场景。尽管成本较高，但其性能对于这些领域来说是无可替代的。而 GDDR 和 DDR5 则因功耗、带宽和延迟的限制，更适用于消费级和通用计算领域。

HBM信号完整性设计将在更高的数据速率和更高堆叠层数下，面临更大的技术挑战，信号完整性仿真也是必不可少。HBM信号完整性仿真是一个多维度的复杂过程，从HBM的设计到应用，涵盖频域（封装和PCB）、时域（眼图）和电热协同分析。通过高质量的仿真模型和工具，以及精确的参数优化，可以显著提升HBM的性能和可靠性，确保其在高性能计算和AI领域的稳定运行。如下是在ADS中进行HBM3的仿真原理图：

信号速率为6.4Gbps的仿真结果如下图所示：

文章来源于信号完整性，作者蒋修国

================================

一种大幅提升AI SoC芯片设计的方法

SoC 设计优化相关资料推荐