答应大家要给一个ISSCC 2024的总结,终于得
闲
写了。
ISCCC 2024或多或少具有具有里程碑含义,史上最高投稿量(873篇,往年都在600-650之间)。
由于房间和时间的限制,这也导致近年来最低录用率(26.8%,往年在31-34%之间),组委会为了容纳更多的文章,也缩短
了
每个报告的时长
,尽量在每个session多塞一个报告。
其中,大陆+港澳占了69
篇
,再创新高,站稳第一位置,将美国(50+篇)远远刷在后面。
这一期,小编聊聊AI大模型热
门的大环境
下这届ISSCC AI芯片的学术论文。
翻看今年的ISSCC Advanced Program,大家可以发现出现以大模型(LLM
)、Transformer为题的文章
少之又少。真正意义上,关于Transformer的数字芯片工作,仅有一篇,
是来自韩国KAIST的C-transformer。这个工作的思想是将DNN transformer和Spiking (SNN)transformer融合,利用类脑SNN低位宽、高能效的特性,降低整个网络部署的能效
。
C-Transformer的核心想法是通过一个混合的乘累加的计算单元,它可以配置成两种模式,一种是标准的乘法式模式,用高精度的DNN计算,另一种是低位宽的Spiking模式,可以实现八个累加的计算。
通过将计算单元配置成其中的某一种模式来映射DNN或者是SNN Transformer的计算.这一方法有点类似清华大学Tianji系列芯片。
值得欣慰的是,Program还有两篇高性能的AI处理器,是提供Transfomrer的Benchmark结果,其中最具有最吸引眼球的无疑就是AMD的MI300系列。在工业邀请论文中,Instinct MI300系列作为一个AMD全新一代超算旗舰处理器,利用了各类三维集成芯片的技术,造出全新的庞然大物。即使只看结构,也可以感受到巧夺天工,它作为3层堆叠结构,包含了有源硅基板(Active Interposer, Base IO Die
)
、无源硅基板(Si Interposer)、hybrid bonding等各类技术。
从架构上,它既解决了单封装内仅仅增加GPU,而不提升CPU-PCIe控制端带宽导致的性能饱和,又首次实现了CPU Die在2两个完全不同的产品线上的复用,Zen 4CPU芯粒同时在MI300系列和EPYC Zen两个产品线复用
。看着版图的俯视图,都觉得是一个艺术品。
AI芯片在今年ISSCC较前两年ISSCC数量大幅减少的原因,主要是主要来自于Steering Committee将Machine Learning Track剔除,取而代之地增加了Security Track。
ML芯片回归到传统digital architecture、digital circuit track和Memory track(存
算
部分)。
当然,这也导致了今年论文的不少笑话,比如Compute-in-memory Session中有一篇号称支持Transformer的CIM,把Transformer CIM的要求定位为更高的精度(INT10b)。
然而这个结论在Nvidia 的forum talk中啪啪打脸,现有大模型已经在INT4量化下的精度损失可以控制在0.6%以下。
小编觉得,或许这就是Memory designer 和Machine Learning SoC designer对于大模型算法发展的认识的时间差。也是取消ML track的一个坏处。
顺便提一句这个forum,今年的ISSCC单独设了一个面向大模型芯片的forum,这个论坛里邀请了来自英伟达、谷歌、Intel、三星等的多个大模型芯片公司的企业报告了最新的大模型进展,不得不说这个forum是整场ISSCC 会议中对于大模型芯片最大的亮点,小编尤为推荐英伟达在这个forum的talk。
只可惜这个forum是要额外付钱。
另一个学术界无法实现大模型设计的主要原因是其规模,对学校和研究结构而言,不管是流片规模(经费)还是Co-design网络训练成本,都难以支撑B级以上模型的原型实验。所以,在今年的论文中,学校的大部分工作都转向了另外一个方向——智能机器人。这个领域有一个更高大上的名字:具身智能,我觉得可以理解为钢铁侠的贾维斯能干的事情。
这个具身智能的芯片分为两类,一类是提升机器的本来能力,比如导航。美国佐治亚理工的团队提出了一个基于RRAM的导航机器人芯片,它具有两个功能,第一个功能是场景智能感知与理解,通过采用RRAM实现CNN等算法;第二个是对于环境中的导航定位,它主要来处理SLAM中状态方程的求解问题。
来自韩国蔚山科技学院(UNIST)的工作是一个面向激光雷达(Lidar)的3D点云的SLAM芯片,它既通过KNN完成了点云的本身信号处理。同时也通过加入非线性优化功能来完成SLAM的方程求解工作。
第二类是虚拟现实的图像场景生成,其中目前重要的算法是NERF(神经隐式建图),他的效果是通过对物体的简单学习
,可以完成不同角度(光线投射下)物体的三维图像渲染和重现,有点类似元宇宙或者是Apple Vision Pro的建图。具体技术
就不一一解释了(小编也不太懂),推荐如下两篇文章。
类似的虚拟现实
工作还有来自清华大学的Diffusion
SoC
芯片。
更有甚者,把两者结合又成像又导航。可以想象为在虚拟现实中走了一个迷宫,最后拿到了文献中的上古宝物,有点类似盗墓笔记。(不过这篇文章除了
把NERF、SLAM和MoE-多模态缝合起来,就做了一个MLP的加速,实际乏善可陈。
)
存算一体在历经了多年发展之后,今年ISSCC上最大存算亮点无疑是来自联发科与台积电。联发科发布了一个3nm NPU,其中的计算部分采用了TSMC 3nm最新一代存算核心,这个Macro实现也在今年CiM的Session中有一篇论文,真真的一次流片两篇论文。虽然这个存算一体的大部分技术沿用了TSMC DCIM经典路线(
主要性能提升来源是3nm),
但是
联发科
基于这个路线的技术开发了成熟的NPU产品,未来在手机上在产品中应用可期。
(顺带吐槽下,这个Multi-Row DCIM我们在ISSCC 2022上COMB-MCM提过)
在没有更新工艺的加持下,在存
算
传统工艺赛道上(28/22nm节点)还有哪些花活呢?首先是卷浮点计算,毕竟INT CIM的计算能效已经上天了。另外,
今年我们看到学术界的录用论文的不少创新都来自于四个字:混合异构。
第
一种异构是不同电路计算机制的融合。东南大学和中科院微电子的两篇文章,都是通过模
拟和数字的混合异构来保证精度的同时
提升了计算能效,把对计算结果影响不那么重要的部分划给模拟做。如何
选择
模拟计算和数字计算的边界是有趣的讨论。
除了模拟和数字的异构外,还有不同存储介质的融合。
台湾清华大学采用了4T Gain Cell(DRAM)和7T SRAM融合结构实现了面向数据流的存储优化架构。