专栏名称: Dance with GenAI
关于生成式人工智能AIGC的一切
目录
相关文章推荐
中国知识产权报  ·  河北省推行知识产权专员制度,助力企业降本增效 ·  2 天前  
知识产权那点事  ·  协力荣誉 | 协力荣获Corporate ... ·  6 天前  
知识产权那点事  ·  全国首例AI文生视频案!AI一键剪片,是创新 ... ·  6 天前  
51好读  ›  专栏  ›  Dance with GenAI

读书笔记之《AI芯片:前沿技术与创新未来》

Dance with GenAI  · 公众号  ·  · 2025-02-02 11:18

正文

《AI芯片:前沿技术与创新未来》由张臣雄所著,该书全面介绍了AI芯片的发展历程、当前的热门技术和未来的展望。

张臣雄:毕业于上海交通大学电子工程系,在德国获得工学硕士和工学博士学位。曾在西门子、Interphase任职多年,曾任上海通信技术中心及一家世界500强大型高科技企业分别担任CEO/CTO、首席科学家等职,长期从事及主管半导体芯片的研究和开发,推动芯片的产业化应用。张臣雄博士是两家创业公司的创始人之一。他拥有200余项专利及专利申请,出版了多本专著并发表了100多篇论文。

第一篇 导论

第1章:介绍了AI芯片作为人工智能发展的核心,回顾了AI芯片的历史,并概述了AI芯片需要完成的基本运算任务,探讨了不同类型的AI芯片及其研发概况。

AI芯片(这里指用于深度学习加速的芯片)的本质是“高速张量运算及并行处理”。神经网络处理单元主要就是由乘积累加模块、激活函数模块和汇集模块组成的。

CPU、GPU、FPGA及ASIC这4种芯片不同的架构:

AI芯片研发和产业化概况(截至2020年9月)

第2章:讨论了用于执行深度学习训练和推理任务的AI芯片,强调了深度学习算法在当前的主导地位,以及为了适应这些算法而产生的计算范式和实现方法的创新。

DNN是一种统计方法,本质上是不精确的,它需要大数据(即加标记的大型数据集)的支撑,而这是许多用户缺乏的。DNN也比较脆弱,并不是一种十分稳固的结构:模式匹配在数据集不完整的时候,会返回十分奇怪的结果;而在数据集损坏时,则会返回误导的结果。因此,DNN的分类精度在很大程度上取决于数据集的质量和大小。另一个主要问题是数据不平衡的情况:某个类别的数据在训练数据中可能只有很少的代表,如信用卡欺诈检测中真正的申请通常远远超过欺诈的申请,这样的不平衡就会给分类精度带来问题。

DNN模型最本质的问题是没有与生物大脑的学习模式相匹配:大脑神经元的激活过程是不是存在“反向传播”,还是一个有争议的问题。生物大脑和DNN存在明显的物理差异。因此,从这个意义上说,深度学习算法并没有真正“仿脑”,也不是真正意义上的“学习”,而只是一个数学模型。

从长远来看,云端和边缘侧的AI计算所要实现的目标是不一样的。它们各自需要的AI芯片特性有很大的不同,将会走上不同的演进路径。基于云端的强大运算能力,AI芯片最终可能实现自学习,从而超越人类智能。云端的AI可以完成一些“大事”,如发现人类未知的科学知识、解决社会问题等;而边缘侧的AI计算主要作为人类助手,取代人类所做的工作,并逐渐起到代替人类感官的作用。目前的AI只是取代了人类一些重复性的工作,但是未来将会取代人类创造性的工作。目前边缘侧的AI计算主要完成推理,但是在未来,将会把训练和推理交织在一起完成。

一些AI芯片的创新实现方法:

第二篇 最热门的AI芯片

第3章:深入探讨了深度学习加速器AI芯片,包括其硬件实现、算法优化、架构设计、电路设计等,同时提供了性能衡量标准。

一旦存内计算技术得到大量应用,可以进一步把功耗降低两个数量级。

衡量一个AI芯片性能最基本的指标是芯片每秒的操作数(常用单位为TOPS),表示完成任务的速度。当前,微控制器和嵌入式GPU的能效仅限于几十至几百GOPS/W,而如果要实现边缘侧设备“永远在线”推理,AI芯片的系统级能效需要远超过10 TOPS/W。

要达到这些指标并在市场上保持竞争力的最关键条件是采用最先进的芯片制造工艺(当前是5nm)。具有领先工艺节点的AI芯片对于AI算法经济高效和快速的训练和推理越来越重

要。这是因为它们显示出能效和速度上的明显提高。因此,AI开发人员和用户必须拥有最先进的AI芯片才能在AI研发和部署中保持竞争力。

模拟计算、存内计算等新方法的提出,可能会从根本上改变AI芯片的架构;而类脑芯片、自然计算芯片、量子启发芯片等的出现,又为AI芯片增添了全新的品种和应用。新型元器件和电路技术的出现,能够探索极大规模的集成系统来模拟复杂的生物神经元结构,从而可

以有效地用于这些新型AI芯片,并将使现有的深度学习得到高出几个数量级的加速。

神经网络算法的进步不会停止,它将一代一代不断更新,将会出现更复杂的神经算法。随着脑科学和认知科学的不断发展,神经网络算法也将引入更复杂的认知功能,将会使AI算法的智能程度越来越接近人类。同时,新的算法也将带来网络架构和芯片架构的变革,要实

现新架构又必须具备相适应的电路和元器件。算法进步带来的好处不亚于半导体工艺的进步带来的好处,甚至更大,但是它又很难像摩尔定律那样较准确地加以预测。这些算法的突破本质上是非确定性的,每次发生,都会让它们的市场地位重新洗牌。

第4章:分析了近年来产业界对AI芯片市场的期待,描述了“1+3”大公司格局(即一个领导者加上三个主要竞争者),并关注学术界和初创公司在这一领域的贡献。

根据美国市场调研公司Tractica的预测,深度学习加速器的市场规模将在2025年达到663亿美元(见图4.1),其中GPU市场规模将超过140亿美元。该研究机构表示,2016年已经确定了27个不同的行业细分市场和191个AI用例。从应用角度来看,AI芯片主要应用在云端和边缘侧(边缘侧也包含终端设备),而云端(数据中心)的AI芯片占很大的比例(见图

4.2),主要用于加速深度学习训练和推理;而在边缘侧,则根据在智能手机、安防、汽车等领域应用场景的不同开发出了各类AI芯片。其中云端训练、云端推理、边缘推理大约各占1/3(云端推理稍弱)。根据预测,从2023年开始,边缘侧训练将有一定需求,不过占的比例仍将很小。云端AI芯片的市场规模预计将从2019年的42亿美元增长到2024年的 100 亿 美 元 。目 前 这 一 领 域 的 领 导 者 英 伟 达 和 英 特 尔 正 受 到Graphcore、Groq和寒武纪等公司的挑战。英特尔于2019年收购了Habana Labs。英伟达仍然是这个市场中无可争议的领导者,这主要缘于其成熟的开发者生态系统及先发优势。至少在可预见的未来,英伟达仍将处于强势地位。

第5章:聚焦于神经形态计算和类脑芯片,解释了脉冲神经网络原理,比较了基于深度神经网络(DNN)和脉冲神经网络(SNN)的AI芯片,并展示了类脑芯片的例子和发展趋势。

第三篇 用于AI芯片的创新计算范式

第6章至9章:分别介绍了模拟计算、存内计算、近似计算/随机计算/可逆计算、自然计算和仿生计算等多种新兴计算范式,阐述了它们的特点、应用范围和技术挑战。

可逆计算(Reverse Computing,RC)的历史始于IBM的物理学家鲁尔夫·兰道尔(Rolf Landauer)在1961年发表的一篇题为《计算过程中的不可逆性和热量产生》的论文。在这篇论文中,兰道尔认为传统计算操作的逻辑不可逆性直接影响了正在执行这些操作的器件的热力学行为。

最基本的物理学定律是可逆的。物理的可逆性意味着我们永远无法真正消除计算机中的信息。每当我们用新值覆盖某些信息时,先前的信息可能出于实际目的而丢失,但实际上并没有真正被破坏。相反,它已被推入机器的热环境中,在该环境中,它变成熵(本质上是随机信息)并表现为热量。

当今的计算机一直都在抹除信息,以致传统设计中的每个有源逻辑门在每个时钟周期都会破坏性地覆盖其先前的输出,从而浪费了相关能量。从本质上讲,一台传统的计算机是一台昂贵的电加热器,它会执行少量的计算,但计算只是一个副产品。

根据兰道尔的证明,在室温下,抹去每一个比特必须耗散至少0.017 eV的能量。虽然看上去这非常少,但是计算机中发生的所有操作加在一起,就是一个很大的数字。如今的CMOS技术消耗的能量实际上比兰道尔计算的要大得多,它擦除每一个比特消耗的能量在5000 eV

左右。标准CMOS设计可以在这方面作些改进,但每擦除一次,仍有不低于500 eV的能量损失。

根据Landauer理论,当使用一个逻辑上不可逆的门电路时,就已经把能量耗散在环境中。他同时指出,可逆门是不耗散能量的必要条件,但不是充分条件。一个消耗能量为零的计算机,不能用传统的门电路来设计,而只能用逻辑上可逆的电路来设计。

很多研究人员继续探索可能的可逆计算电子实现方式。他们称理想化的热力学状态下的电路为“绝热的”。在该状态下,能量被禁止以热量形式离开系统。原则上,使用足够良好的绝热机制,几乎不会产生熵,并且几乎不需要消耗任何自由能(当然,实际上还有其他产

生熵的来源,如泄漏、摩擦效应等)。这些想法后来在麻省理工学院得到了实现。

近年来,为了实现高能效的深度学习AI芯片,研究人员使用了可逆的超导电子器件——绝热量子通量参变器(Adiabatic QuantumFlux-Parametron,AQFP) 。这款芯片同时也应用了随机计算技术。

随着芯片的速度成倍提升,更快、更密集的封装和更高的晶体管密度会引起热力学问题。可逆计算的思想来自热力学和信息论核心理论,实际上,这是物理学定律中唯一可能把计算性能和能效一直不断提高的途径。现在的计算机(包括超级计算机)都是非可逆计算,因

此每次要把FLOPS提高时,功耗就必然提高。可以想象,再过十多年到几十年,具有超级计算能力的计算机(或数据中心)所需的能量,将会超过一个核电站的发电量。只有可逆计算(包括使用可逆计算的架构、算法和器件)可以避免这样的现象出现。

可逆计算的一个例子是量子计算的应用。量子计算机是可逆的,因此理论上没有净能源消耗(实际运行时,由于大多数量子计算机在超低温下工作,冷却开销增加了能源的有效成本)。量子可逆性意味着量子计算机以无穷小(可逆)的步骤推动自己向前操作,就像香水分子从香水瓶中扩散出来一样。量子计算机程序不是“运行”的,而是随着输入到输出处理程序,因而被称为是“进化的”。顺便提一句,可逆性还意味着输出中隐含量子计算机的输入,该程序可以逆向运行以获取输入。

没有10~20年或更长时间的努力,可逆计算还不可能走向商业应用。但是,可逆计算是一条将对未来的芯片、AI和计算机科学起到极其重要作用的康庄大道,只有它可以谈得上是计算领域真正意义上的一种颠覆性创新,因为所有其他的新兴计算范式(近似计算、随机计算、模拟计算、神经形态计算、储备池计算等)都不是可逆计算,而且在未来的某个时刻都会达到极限。

第四篇 下一代AI芯片

第10章至13章:探讨了受量子原理启发的AI芯片、提升智能程度的AI算法及芯片、有机自进化AI芯片以及光子AI芯片和储备池计算,预测了这些新技术可能带来的突破。

实现DNN的AI芯片最需要满足的是降低功耗和提高吞吐量这两个需求,这些需求催生了新颖方法的出现,包括新兴的光子神经网络。由于光子器件的高通信带宽,光子实现方式有望实现高速传输;由于波导中光传输的低损耗,光子实现方式有望实现极低功耗。光子行进的

速度比电子快得多,并且光子的移动成本与距离无关。因此,光子计算与电子计算相比有着明显的优势。

AI所涵盖的许多功能,只要能够转换成有效的算法和架构,都能用硅光芯片来验证实现,很多非常新颖的硅光AI芯片从而诞生。硅光芯片具有在光域实现深度学习所需的矩阵计算的潜力,也具有在光域实现如储备池计算这样新颖算法的能力。这些都大大提高了运算速度,并节省了功耗、优化了空间使用。目前,这些芯片大部分都只是原型样片,由学术界领头开发,要经过一段时间的验证和试验之后才能实现真正的商用。其中比较有代表性的有两种:一种是用硅光芯片实现光子深度学习,另一种是基于储备池计算的AI芯片。

第五篇 推动AI芯片发展的新技术

第14章:讨论了超低功耗与自供电AI芯片的设计理念和技术进展。

未来超低功耗AI芯片的目标是在超低功耗的运行状态下,把峰值性能提高到1000 TOPS的等级,同时不牺牲分类精度及可编程性(见图14.1中的箭头)。另外一个目标是把神经网络的规模尽量缩小,从而让芯片不需要达到很高的性能即可有效运算。这里的能效目标是

10,000 TOPS/W。

第15章:展望了后摩尔定律时代半导体芯片技术的发展方向,特别是量子计算芯片的重要性。

从制造这种芯片的经济成本、芯片的散热、物理学的极限(接近原子的大小)来说,工艺节点不可能无限缩小下去,因此晶体管数量的指数级增长不可能永远持续下去,它正在走向基于硅材料的CMOS的极限。原子的基本物理尺寸限制是硬性限制(两个硅原子的间隙约为

0.5nm)。因此,当量子效应发挥作用且不再可能继续缩小时,接下来会发生什么?换句话说,就是随着工艺尺寸的继续缩小,摩尔定律必将终结。

一般来说,基于摩尔定律的半导体产业有3条发展路径(见图15.2):

“摩尔定律进一步”(More Moore)、“比摩尔定律更多”(More than Moore)和“超越CMOS”(Beyond CMOS)。

所谓的“摩尔定律进一步”(More Moore),是指“正宗”的摩尔定律,即仍然基于硅材料MOSFET/CMOS,按照晶体管数量每两年翻一番的速度继续向前发展。FinFET本身结构达到了物理极限。因此,不少研究人员认为未来的主流技术将是环绕式栅极(GateAll-Around,GAA)技术(又称GAA横向晶体管技术),把栅极从四面全部包裹起来。1.4nm尺寸,仅相当于12个硅原子的大小。

大多数专家认为,硅MOSFET将在2030年之前的某个时候耗尽其缩小优势,晶体管密度也不可能再继续加大。而垂直堆叠(3D)、芯粒(Chiplet)及先进的封装技术可能会节省成本,同时解决AI芯片的性能提升问题。这就是所谓的“比摩尔定律更多”策略。“比摩尔定律更多”(More than Moore)策略从另一个方向接受了挑战:与其使芯片性能更好、让应用更得心应手,不如从应用需求出发、由应用驱动来开发芯片,如从智能手机和超级计算机到云端数据中心,从上到下检查需要哪些芯片来支持它们。“比摩尔定律更多”的想法不仅着眼于单块芯片的计算能力,还从更高的角度观察整个系统的效率。它鼓励功能多样化,这些功能不一定根据摩尔定律进行扩展,而是以不同的方式为最终应用提供额外的价值。它从单一技

术过渡到各种技术的整合。摩尔定律最初是在逻辑和存储电路的开发中提出并得到验证的。

“比摩尔定律更多”进一步探讨了在系统级别集成众多功能及部件的机会,这些功能及部件通常包括非数字功能及部件,如模拟、射频、传感器、执行器、嵌入式DRAM、微机电系统(MEMS)、高压电路、电源控制和无源组件,尤其是先进的封装技术,如3D堆叠、芯粒

(Chiplet)、大芯片(晶圆级封装)、异质集成等。从新型晶体管结构和各种电路的工艺兼容性到先进的封装技术,“比摩尔定律更多”可以提高整体集成效率,使系统能够支持更多功能,同时降低整体系统成本。从本质上讲,它从“摩尔定律进一步”的“更便宜、更快”

演变为“更好、更全面”。

即使用了3D堆叠芯片,也有不少人认为它在成本上可能并不占优势,而且可能比 2D芯片更糟。因此,只有将作为逻辑开关的晶体管,从材料和物理学上作出根本性的颠覆,才可能出现“后摩尔时代”的一场革命。全世界几乎每个主要的半导体研究中心都在寻找CMOS的后继半导体工艺技术。这是“超越CMOS”(Beyond CMOS)的领域。

这些新型器件中有一些器件不是以电荷的状态变量进行操作,有的还具有超出“0”和“1”二值器件的功能,这对于更复杂的操作很有用。CMOS器件都是以电荷作为状态变量来工作的,而新的器件引入了新颖的切换机制(如自旋轨道相互作用、自旋霍尔效应、激子扩散

等),改用其他状态变量(如自旋磁偶极子、电荷电偶极子、光子、激子、轨道状态、应变等)来进行操作。很多正在研发的新颖器件使用了新材料,如用Ⅲ-Ⅴ族化合物、锗、碳纳米管和二维材料(包括石墨烯、TMD等)做成的各种场效应晶体管(FET)等。也有新型器件仍然把电荷作为状态变量,但是使用了新的沟道材料(如Ⅲ-Ⅴ族化合物、石墨烯等)和器件结构(如前面提到的环绕式栅极),以提高平面硅FET的性能。也有基于电荷的新型器件利用非传统机制来实现更好的性能或新功能,如隧道场效应晶体管(TunnelField-Effect Transistor,TFET)中能带到能带的隧道效应、单电子晶体管中的库仑阻塞效应等。







请到「今天看啥」查看全文