小芯片(Chiplet)技术并非近年才诞生,事实上,它已经在半导体领域默默耕耘了数十年。然而,这一技术真正掀起热潮,却是近几年的事情。凭借其独特的优势,小芯片技术被《麻省理工科技评论》评为 2024 年十大突破性技术之一,在半导体领域取得了重大进展。如今,小芯片有望成为行业标准。那么小芯片到底是什么?为何如此重要?它们又将如何塑造技术的未来?
小芯片是一种模块化的处理器。与将所有部分整合到单个芯片(称为单片设计)不同,小芯片将特定部分制造为独立的芯片。然后,这些独立的芯片通过复杂的连接系统组装到单个封装中。
这种设计让那些能用最新技术的部分变得更小,效率更高并容纳更多组件。至于那些没法缩小或者没必要缩小的部分,就用老办法做,既省钱又省事。尽管制造此类处理器的过程复杂,但总体成本通常也更低。
要充分理解为什么处理器制造商会转向小芯片技术,首先需要深入了解这些设备是如何制造的。CPU 和 GPU 最初是由超纯硅制成的大圆盘,直径通常略小于 12 英寸(300 毫米),厚度为 0.04 英寸(1 毫米)。
这些硅晶圆会经过一系列复杂的步骤,形成多层不同的材料——绝缘体、电介质和金属。这些层的图案是通过光刻工艺创建的,即紫外线通过放大的图案(掩模)照射,然后通过透镜缩小到所需尺寸。
图案以固定的间隔在晶圆表面重复排列,每个图案最终都会成为一个处理器。由于芯片是矩形的,而晶圆是圆形的,因此图案必须覆盖到圆盘的边缘,重叠的部分最终会被丢弃。
完成后,晶圆上的每个芯片都会使用探针进行测试。电气测试结果会显示处理器的质量是否符合一系列标准。这个初始阶段被称为芯片分级,有助于确定处理器的“等级”。
例如,如果芯片要用作 CPU,则每个部件都应正常工作,以特定的电压在设定的时钟速度范围内运行。然后根据这些测试结果对每个晶圆部分进行分类。
完成后,晶圆会被切割成可用的单个“晶粒”。这些晶粒随后被安装在一个基板上,类似于一个专门的主板。处理器经过进一步封装(例如加上散热片)后,就可以准备分发了。
整个制造过程可能需要数周时间,台积电和三星等公司会根据所使用的工艺节点,对每片晶圆收取高达3000至20000美元的费用。
“工艺节点”是用来描述整个制造系统的术语。之前它们以晶体管的栅极长度命名。然而,随着制造技术的进步,组件变得越来越小,命名规则不再遵循晶粒的任何物理特性,现在这个名词更多偏向于一个营销工具。
尽管如此,每个新的工艺节点都带来了更多的优势。它可能更便宜、在相同时钟速度下功耗更低,或者具有更高的密度。后一个指标衡量的是在给定晶粒面积内可以容纳多少组件。下图展示了GPU多年来的演变。
工艺节点的改进为工程师提供了一种提高产品性能的方法,无需使用大而昂贵的芯片。然而,处理器的每个方面并不是都能从这些进步中受益。
芯片内部的电路可分为以下几大类:
虽然逻辑电路随着工艺节点技术的每一次重大进步而不断缩小,但模拟电路却几乎没有变化,而SRAM也开始达到极限。
尽管逻辑电路仍然占据晶粒的最大部分,但近年来CPU和GPU中的SRAM数量显著增加。例如,AMD用于Radeon VII显卡(2019年)的Vega 20芯片,其L1和L2缓存总量为5 MB。仅仅两代GPU之后,为Radeon RX 6000系列(2020年)提供动力的Navi 21芯片,其缓存总量超过了130 MB——这是一个惊人的25倍增长。
预计这些缓存将随着新一代处理器的开发继续增加,但由于存储器无法像逻辑电路那样缩小,这就导致一个问题:如果所有部分都用最新技术制造,成本会很高。
在理想情况下,可以设计一种晶粒,其中模拟部分使用最大且最便宜的工艺节点制造,SRAM部分使用更小的节点,而逻辑部分则保留给最尖端的技术。然而,这在实际中是不可行的。不过,还有一种替代方法。
1995 年,英特尔推出了 Pentium II,这是其初代 P5 处理器的继任者。它与当时其他处理器的不同之处在于其塑料外壳下的隐藏设计:一块容纳两个芯片的电路板。主芯片包含所有处理逻辑和模拟系统,而一个或两个独立的 SRAM 模块用作二级缓存。
虽然主芯片由英特尔制造,但缓存来自外部供应商。在 20 世纪 90 年代中后期,这种做法在台式电脑中相当普遍,直到半导体制造技术取得进步,使得逻辑、内存和模拟系统能够完全集成到单个芯片中。
英特尔奔腾 II :CPU在中间,缓存芯片在右边
尽管英特尔继续尝试在同一封装中使用多颗芯片,但在处理器方面,它主要还是采用所谓的单片式方法,即所有功能都集成在一颗芯片上。对于大多数处理器来说,一颗芯片就已足够,因为制造技术已经足够成熟(且成本可控),能够轻松实现这一点。
然而,其他公司对采用多芯片方法更感兴趣,其中最著名的当属 IBM。2004 年,市场上出现了 8 芯片版本的 POWER4 服务器 CPU,它由四个处理器和四个缓存模块组成,所有组件都安装在同一主体内(这种方式称为多芯片模块,即 MCM )。
大约在这个时候,“异构集成” 一词开始出现,异构集成旨在将处理系统的各个部分分开,在最适合每个部分的制程节点上单独制造,然后将它们组合到同一个封装中。
如今,这一技术更广为人知的名字是系统级封装(SiP),自智能手表诞生以来,它就一直是为智能手表配备芯片的标准方法。例如,第一代 Apple Watch 在单个结构中集成了一个 CPU、一些DRAM和NAND 闪存、多个控制器以及其他组件。
Apple S1 SiP 的 X 光图(来源:iFixit)
通过将不同的系统集成在单个芯片上(即片上系统,SoC)也能实现类似的配置。然而,这种方法无法利用不同制程节点的成本差异,而且并非所有组件都能以这种方式制造。
对于技术供应商来说,将异构集成用于小众产品是一回事,但将其用于大多数产品组合又是另一回事。这正是 AMD 对其处理器系列所做的。2017 年,这家半导体巨头推出了基于 Zen 架构的单芯片锐龙桌面 CPU。仅仅几个月后,AMD 又推出了两条多芯片产品线:Threadripper 和 EPYC,后者最多可配置四个芯片。
两年后,随着 Zen 2 的推出,AMD 全面采用了异构集成(HI)、多芯片模块(MCM)、系统级封装(SiP)。他们将大部分模拟系统从处理器中分离出来,放入一个单独的芯片中。这些芯片采用更简单、成本更低的制程节点制造,而更先进的制程节点则用于其余的逻辑和缓存部分。
于是,“小芯片(Chiplet)” 成为了热门词汇。
AMD 为什么会选择这个方向呢?下图展示了 Ryzen 5 系列的两个老款CPU,左边是采用Zen+ 架构的 2600,右边是基于 Zen 2 架构的 3600。
来源:Fritzchen Fritz
两种型号的散热器均已拆除。2600 的单个芯片内有 8 个内核,但针对这款特定型号,其中两个核心是禁用的。3600 也是如此,可以看到它的封装中有两个芯片:顶部的核心复合芯片 (CCD),包含核心和缓存,底部的输入/输出芯片 (IOD) ,包含所有控制器(用于内存、PCI Express、USB 等)和物理接口。
由于两款 Ryzen CPU 都安装在同一个主板插槽中,因此两张图片基本上是按比例绘制的。从表面上看,3600 中两个芯片的总面积似乎比 2600 中的单个芯片要大,但表象具有欺骗性。直接对比包含核心的芯片,可以清楚地看到老款型号中模拟电路占据了很多空间(金色核心和缓存周围蓝绿色的部分都是模拟电路)。然而,在 Zen 2 的 CCD 中,分配给模拟系统的芯片面积极少,几乎完全由逻辑电路和 SRAM 组成。
Zen+(上)与 Zen 2 CCD(下)
Zen+ 芯片面积为 213 平方毫米,由GlobalFoundries采用其 12 纳米制程工艺制造。Zen 2的面积为 125 平方毫米,而面积为 73 平方毫米的 CCD 则采用台积电更先进的 N7 制程。
新款芯片的总面积更小,且L3 缓存也增加了一倍,支持更快的内存和 PCI Express。不过,小芯片方法最大的优点在于,CCD 的紧凑尺寸让 AMD 在封装中有更大的利用空间。这一进展催生了Ryzen 9系列,为台式电脑提供 12 核和 16 核型号。
使用两个较小的芯片而非一个大芯片,每个晶圆也可以产出更多芯片。以 Zen 2 的 CCD 为例,一个 12 英寸(300 毫米)的晶圆生产的芯片数量,相比 Zen+ 型号的芯片,最多可多出 85%。
从晶圆上切下的芯片越小,就越不容易出现制造缺陷。综合考虑所有这些因素,小芯片方法不仅让 AMD 有能力扩充其产品系列,而且成本效益更高。同样的 CCD 可用于多种型号,每个晶圆能生产出数百个 CCD!
但如果这种设计优势如此明显,为什么英特尔不这么做呢?为什么我们没看到被用在其他处理器上,比如 GPU?
其实英特尔也在逐步采用小芯片技术。他们推出的第一款使用小芯片的消费级 CPU 架构名为Meteor Lake。不过,英特尔的方法有些特别。
这一代处理器将之前的单片设计拆分成四个独立的芯片,英特尔用 “tile”而非 “Chiplet”来称呼它们:
SoC tile与其他三个tile之间通过高速、低延迟的连接互通,并且它们都连接到另一个被称为 “中介层(interposer)” 的芯片。这个中介层为每个芯片供电,并包含它们之间的走线。中介层和四个tile随后被安装到另一块电路板上,以便进行整体封装。
与英特尔不同,AMD 不使用任何特殊的安装芯片,而是拥有自己独特的连接系统 ——Infinity Fabric,用于处理小芯片之间的数据传输。AMD 通过相当标准的封装来实现供电,并且使用的小芯片也更少。那么,英特尔为什么要采用这样的设计呢?
AMD 的方法面临着一个挑战,它不太适合超移动、低功耗领域。这就是 AMD 在该领域仍使用单片式 CPU 的原因。英特尔的设计使他们能够根据特定需求灵活搭配不同的tile。例如,面向平价的笔记本电脑可以在各处使用小得多的tile,而 AMD 针对每个用途只有一种尺寸的小芯片。
英特尔系统的缺点是生产起来复杂且成本高昂。不过,这两家 CPU 公司都全力投入到小芯片概念中。一旦制造链的每个部分都围绕它进行设计,成本有望降低。
说到 GPU,与芯片的其他部分相比,其模拟电路相对较少。不过,内部 SRAM 的数量一直在稳步增加。这一趋势促使 AMD 在 Radeon 7000 系列中运用其小芯片技术专长,其中Radeon RX 7900 GPU 采用了多芯片设计。这些 GPU 包括一个用于核心和 L2 缓存的大芯片,以及五到六个较小的芯片,每个小芯片包含一部分L3 缓存和一个内存控制器。
通过将这些组件从主芯片中分离出来,工程师们能够在不依赖最新、最昂贵制程节点的情况下,显著增加逻辑电路数量,同时又能控制芯片尺寸。虽然这一创新有助于降低总体成本,但并没有显著拓宽 AMD 图形产品系列的广度。
目前,英伟达和英特尔的消费级 GPU 尚未显示出采用 AMD 小芯片方案的迹象。两家公司都将所有制造任务外包给台积电,似乎更倾向于生产大尺寸的芯片。
不过,两家公司都在积极探索和实施基于小芯片的架构,并将其应用于部分 GPU 设计中。例如,英伟达的 Blackwell 数据中心 GPU 采用了小芯片设计,其中两个大型芯片通过每秒 10 TB 的高速互连连接,可有效充当单个 GPU。
尽管半导体制造技术取得了巨大进步,但每个组件的缩小程度存在极限。
为了持续提升芯片性能,工程师们主要有两条途径:增加更多逻辑电路以及支持其运行所需的内存,还有提高内部时钟频率。关于后者,普通 CPU 在这方面多年来并无显著变化。2013 年 AMD 的 FX - 9590 处理器在某些工作负载下能达到 5GHz,而其当前型号中最高时钟频率为 5.7GHz(Ryzen 9 9950X)。
英特尔最高主频的消费者级 CPU 是酷睿 i9 - 14900KS,双核最高睿频可达 6.2 GHz。然而,电路和 SRAM 的数量有所变化。前面提到的 AMD FX - 9590 有 8 个内核(8 线程)以及 8MB 的 L3 缓存,而 9950X 则拥有 16 个内核、32 线程以及 64MB 的 L3 缓存。英特尔的 CPU 在核心和 SRAM 方面也有类似的扩展。
英伟达 2006 年推出的首款统一渲染架构 GPU——G80,芯片面积为 484 平方毫米,包含 6.81 亿个晶体管、128 个内核以及 96KB 的L2缓存。到 2022 年推出 AD102 时,在 608 平方毫米的芯片面积内,它已包含 763 亿个晶体管、18432 个核心以及 98304KB 的L2缓存。
1965 年,仙童半导体公司的联合创始人戈登・摩尔注意到,在芯片制造早期,在固定的最低生产成本下,芯片内组件的密度每年都会翻倍。这一观察结果后来被称为 “摩尔定律”,基于制造趋势,它后来被解读为 “芯片中的晶体管数量每两年翻一番”。
近六十年来,摩尔定律相当准确地反映了半导体行业的发展。CPU 和 GPU 在逻辑电路和内存方面取得的巨大进步,很大程度上得益于制程节点的不断改进,随着时间推移,组件尺寸逐渐变小。然而,无论出现何种新技术,这一趋势都不可能永远持续下去。
AMD 和英特尔等公司没有被迫等待,而是采用了小芯片技术,探索创新方法将这些模块化组件组合起来,以持续制造出性能越来越强大的处理器。
几十年后,普通个人电脑中的 CPU 和 GPU 可能只有手掌大小。但是,揭开散热片,你会发现一堆微小芯片,所有的芯片都巧妙地拼接和堆叠在一起。小芯片的主导时代才刚刚开始。
原文链接:
https://www.techspot.com/article/2678-chiplets-explained/#google_vignette