专栏名称: 矽说
半导体行业深度解读
目录
相关文章推荐
卤猫  ·  开工大吉 ·  昨天  
51好读  ›  专栏  ›  矽说

AI向左,ISSCC向右

矽说  · 公众号  ·  · 2024-03-25 08:17

正文

编者按







众里寻 Transformer 千百度



翻看今年的ISSCC Advanced  Program,大家可以发现出现以大模型(LLM )、Transformer为题的文章 少之又少。真正意义上,关于Transformer的数字芯片工作,仅有一篇, 是来自韩国KAIST的C-transformer。这个工作的思想是将DNN transformer和Spiking (SNN)transformer融合,利用类脑SNN低位宽、高能效的特性,降低整个网络部署的能效

C-Transformer的核心想法是通过一个混合的乘累加的计算单元,它可以配置成两种模式,一种是标准的乘法式模式,用高精度的DNN计算,另一种是低位宽的Spiking模式,可以实现八个累加的计算。 通过将计算单元配置成其中的某一种模式来映射DNN或者是SNN Transformer的计算.这一方法有点类似清华大学Tianji系列芯片。

值得欣慰的是,Program还有两篇高性能的AI处理器,是提供Transfomrer的Benchmark结果,其中最具有最吸引眼球的无疑就是AMD的MI300系列。在工业邀请论文中,Instinct MI300系列作为一个AMD全新一代超算旗舰处理器,利用了各类三维集成芯片的技术,造出全新的庞然大物。即使只看结构,也可以感受到巧夺天工,它作为3层堆叠结构,包含了有源硅基板(Active Interposer, Base IO Die 、无源硅基板(Si Interposer)、hybrid bonding等各类技术。

从架构上,它既解决了单封装内仅仅增加GPU,而不提升CPU-PCIe控制端带宽导致的性能饱和,又首次实现了CPU Die在2两个完全不同的产品线上的复用,Zen 4CPU芯粒同时在MI300系列和EPYC Zen两个产品线复用 。看着版图的俯视图,都觉得是一个艺术品。

AI芯片在今年ISSCC较前两年ISSCC数量大幅减少的原因,主要是主要来自于Steering Committee将Machine Learning Track剔除,取而代之地增加了Security Track。 ML芯片回归到传统digital architecture、digital circuit track和Memory track(存 部分)。 当然,这也导致了今年论文的不少笑话,比如Compute-in-memory Session中有一篇号称支持Transformer的CIM,把Transformer CIM的要求定位为更高的精度(INT10b)。

然而这个结论在Nvidia 的forum talk中啪啪打脸,现有大模型已经在INT4量化下的精度损失可以控制在0.6%以下。

小编觉得,或许这就是Memory designer 和Machine Learning SoC designer对于大模型算法发展的认识的时间差。也是取消ML track的一个坏处。

顺便提一句这个forum,今年的ISSCC单独设了一个面向大模型芯片的forum,这个论坛里邀请了来自英伟达、谷歌、Intel、三星等的多个大模型芯片公司的企业报告了最新的大模型进展,不得不说这个forum是整场ISSCC 会议中对于大模型芯片最大的亮点,小编尤为推荐英伟达在这个forum的talk。 只可惜这个forum是要额外付钱。



数字芯片前沿聚焦机器人



另一个学术界无法实现大模型设计的主要原因是其规模,对学校和研究结构而言,不管是流片规模(经费)还是Co-design网络训练成本,都难以支撑B级以上模型的原型实验。所以,在今年的论文中,学校的大部分工作都转向了另外一个方向——智能机器人。这个领域有一个更高大上的名字:具身智能,我觉得可以理解为钢铁侠的贾维斯能干的事情。


这个具身智能的芯片分为两类,一类是提升机器的本来能力,比如导航。美国佐治亚理工的团队提出了一个基于RRAM的导航机器人芯片,它具有两个功能,第一个功能是场景智能感知与理解,通过采用RRAM实现CNN等算法;第二个是对于环境中的导航定位,它主要来处理SLAM中状态方程的求解问题。

来自韩国蔚山科技学院(UNIST)的工作是一个面向激光雷达(Lidar)的3D点云的SLAM芯片,它既通过KNN完成了点云的本身信号处理。同时也通过加入非线性优化功能来完成SLAM的方程求解工作。

第二类是虚拟现实的图像场景生成,其中目前重要的算法是NERF(神经隐式建图),他的效果是通过对物体的简单学习 ,可以完成不同角度(光线投射下)物体的三维图像渲染和重现,有点类似元宇宙或者是Apple Vision Pro的建图。具体技术 就不一一解释了(小编也不太懂),推荐如下两篇文章。

类似的虚拟现实 工作还有来自清华大学的Diffusion SoC 芯片。 更有甚者,把两者结合又成像又导航。可以想象为在虚拟现实中走了一个迷宫,最后拿到了文献中的上古宝物,有点类似盗墓笔记。(不过这篇文章除了 把NERF、SLAM和MoE-多模态缝合起来,就做了一个MLP的加速,实际乏善可陈。




存算一体的下一步是 异构混合么?



存算一体在历经了多年发展之后,今年ISSCC上最大存算亮点无疑是来自联发科与台积电。联发科发布了一个3nm NPU,其中的计算部分采用了TSMC 3nm最新一代存算核心,这个Macro实现也在今年CiM的Session中有一篇论文,真真的一次流片两篇论文。虽然这个存算一体的大部分技术沿用了TSMC DCIM经典路线( 主要性能提升来源是3nm), 但是 联发科 基于这个路线的技术开发了成熟的NPU产品,未来在手机上在产品中应用可期。

(顺带吐槽下,这个Multi-Row DCIM我们在ISSCC 2022上COMB-MCM提过)

在没有更新工艺的加持下,在存 传统工艺赛道上(28/22nm节点)还有哪些花活呢?首先是卷浮点计算,毕竟INT CIM的计算能效已经上天了。另外, 今年我们看到学术界的录用论文的不少创新都来自于四个字:混合异构。

一种异构是不同电路计算机制的融合。东南大学和中科院微电子的两篇文章,都是通过模 拟和数字的混合异构来保证精度的同时 提升了计算能效,把对计算结果影响不那么重要的部分划给模拟做。如何 选择 模拟计算和数字计算的边界是有趣的讨论。

除了模拟和数字的异构外,还有不同存储介质的融合。 台湾清华大学采用了4T Gain Cell(DRAM)和7T SRAM融合结构实现了面向数据流的存储优化架构。







请到「今天看啥」查看全文