专栏名称: EETOP
EETOP电子网(中国电子顶级开发网)是国内最顶级的电子行业工程师社区,涉及:嵌入式、智能硬件、半导体集成电路设计及制造等。 为您分享论坛精华内容、行业最新资讯、产品及技术 。 网址:www.eetop.cn bbs.eetop.cn
目录
相关文章推荐
ZOL中关村在线  ·  明基PD2706QN显示器评测:疾速刷新 精准色彩 ·  17 小时前  
哎咆科技  ·  iPhone 壁纸 | 红色系高清壁纸 ·  2 天前  
51好读  ›  专栏  ›  EETOP

HBM为什么那么火?

EETOP  · 公众号  · 硬件  · 2025-01-03 08:00

正文

随着人工智能、自动驾驶、物联网(IoT)和5G等技术的快速发展,对高带宽内存的需求持续增长,HBM也就应运而生了。HBM(High Bandwidth Memory,高带宽存储器)是一种先进的内存技术。通过高带宽、低功耗和紧凑的封装设计,它能满足高性能计算(HPC)、人工智能(AI)、图形处理(GPU)和数据中心的需求。

HBM的核心特点

高带宽,HBM通过宽接口和多通道设计实现了高数据吞吐量。相较于传统的GDDR内存,HBM提供更高的每针带宽,适合处理大规模并行计算任务。

    低功耗,HBM通过减少信号传输路径长度和优化电路设计,降低了功耗。工作电压通常为1.2V或更低,比GDDR显著节能。

    紧凑封装,HBM采用2.5D封装,将DRAM芯片垂直堆叠并通过硅中介层(Interposer)连接到处理器,显著减少了PCB面积。

高密度,采用TSV(Through-Silicon Via,硅通孔)技术使得HBM可以支持多层堆叠,每堆可达16层甚至更多。   

HBM的技术架构

HBM的架构包括以下几个关键部分:

1.堆叠设计,HBM内存由多层DRAM芯片堆叠组成,层数从4层到16层不等。通过TSV技术在垂直方向实现层间互联,降低信号延迟。

2.宽接口,每堆HBM内存具有数千个I/O接口,典型为1024位宽或更高,显著提高了数据传输速率。

3.硅中介层(Interposer),HBM内存与处理器之间通过硅中介层连接,提供高带宽、低延迟的通信。

4.分片架构,HBM内存被分成多个逻辑分片(Channels),每个分片都有独立的控制器以提高并行访问能力。         

 

从2015 HBM第一代发布到现在近10年的时间,已经商用的是HBM3E,预计明年会发布HBM4。   

每一代HBM的发布都会带来非常大的变革。下面我们简单介绍下每一代发布的主要内容,重点比较它们的性能、技术特点和应用领域:

参数

HBM1

HBM2

HBM3

HBM3E

HBM4

发布时间

2015

2016

2021

2023

预计2025年

带宽(每堆叠)

128 GB/s

256 GB/s

819 GB/s

~1.2 TB/s

2 TB/s 或更高

总带宽

512 GB/s

1 TB/s

3.2 TB/s

4.8 TB/s

6 TB/s 或更高

单堆容量

1 GB–4 GB

4 GB–8 GB

16 GB

24 GB

48 GB 或更高

堆叠层数

4–8 层

4–8 层

8–12 层

12–16 层

16 层或更多

I/O 速度

1 Gbps

2 Gbps

6.4 Gbps

9.2 Gbps

12 Gbps 或更高        

功耗效率

较低

提升10%

显著提升

进一步优化

更高的能效

工艺节点

28nm

20nm

12nm

10nm 或更先进

<10nm

关键技术

基础 TSV 堆叠

高层 TSV 堆叠

高速通道优化

无助焊剂键合

无助焊剂+更高堆叠

典型应用

图形处理(GPU)

AI 和 HPC

数据中心,HPC

生成式 AI,加速器

下一代 AI 与 HPC

制造商

SK Hynix, AMD

SK Hynix, AMD, Nvidia

SK Hynix, Samsung

SK Hynix, Samsung

SK Hynix, Samsung

         

 

为什么不采用GDDR或者DDR5这类存储总线呢?其实个人认为最主要的原因主要集中在带宽、能效、延迟和紧凑性等关键性能指标上。比如单堆叠HBM3的带宽可达 819 GB/s,系统总带宽可超过 3.2 TB/s,虽然GDDR6X最高可达64 GB/s已经很高,但是还是远不及HBM高;DDR5就更加不具备高密度传输的能力了。 

以下是关于HBM3与GDDR6/6X以及DDR5的简要对比:         

 

参数

HBM3

GDDR6/GDDR6X

DDR5

主要用途

HPC、AI训练、图形处理、数据中心

游戏显卡、专业显卡

服务器、PC内存

接口宽度        

1024 位(或更高)

32 位(单通道)

64 位

带宽(每堆/通道)

819 GB/s(HBM3)

16–21 GB/s(GDDR6)

4.8–6.4 GB/s

64 GB/s(GDDR6X)

总带宽

>3.2 TB/s(多堆叠)

1 TB/s(典型显卡)

51.2 GB/s(典型配置)

容量(单模组)

8–16 GB(单堆叠)

8–24 GB(单显存模组)

8–256 GB

功耗效率

高效(低功耗设计)

较高功耗

中等功耗

工作电压

1.1 V

1.35–1.5 V

1.1 V

封装形式

TSV+硅中介层(2.5D封装)

标准显存封装

标准DIMM

延迟

极低

中等

典型频率

3.2–6.4 Gbps(有效)

16–21 Gbps(有效)

4.8–6.4 Gbps(有效)

制造成本

中等

较低

典型应用场景

HPC、AI加速器(如Nvidia A100/H100)

游戏GPU(如Nvidia RTX、AMD RX系列)

个人电脑、服务器工作负载

         

 

   

这样一对比,HBM的优势与挑战也就显而易见了。HBM的优势就是:

(1).提供更高的带宽以满足计算密集型任务需求。

(2).高度集成,减少主板空间和功耗。

(3).低延迟设计,有助于提升系统响应速度。

其挑战包括了:

(1).成本高:TSV和硅中介层技术复杂,增加了生产成本。

(2).热管理:高堆叠层数导致热密度增加,需要有效散热方案。

(3).制造难度:封装和互联工艺对精度要求极高,影响良率。

HBM技术将不断进化,HBM4可能出现:更高堆叠层数(>16层)、更低功耗设计、更快的I/O速度(>20 Gbps)。

总之,HBM在高带宽、低功耗、低延迟、紧凑设计上具有显著优势,非常适合 AI训练、HPC、高端图形处理 等专业应用场景。尽管成本较高,但其性能对于这些领域来说是无可替代的。而 GDDR 和 DDR5 则因功耗、带宽和延迟的限制,更适用于消费级和通用计算领域。

HBM信号完整性设计将在更高的数据速率和更高堆叠层数下,面临更大的技术挑战,信号完整性仿真也是必不可少。HBM信号完整性仿真是一个多维度的复杂过程,从HBM的设计到应用,涵盖频域(封装和PCB)、时域(眼图)和电热协同分析。通过高质量的仿真模型和工具,以及精确的参数优化,可以显著提升HBM的性能和可靠性,确保其在高性能计算和AI领域的稳定运行。如下是在ADS中进行HBM3的仿真原理图:   

       信号速率为6.4Gbps的仿真结果如下图所示:

文章来源于信号完整性,作者蒋修国
================================

一种大幅提升AI SoC芯片设计的方法

SoC 设计优化相关资料推荐