AI向左，ISSCC向右

矽说 · 公众号 · · 2024-03-25 08:17

正文

编者按

众里寻 Transformer 千百度

翻看今年的ISSCC Advanced Program，大家可以发现出现以大模型（LLM ）、Transformer为题的文章少之又少。真正意义上，关于Transformer的数字芯片工作，仅有一篇，是来自韩国KAIST的C-transformer。这个工作的思想是将DNN transformer和Spiking （SNN）transformer融合，利用类脑SNN低位宽、高能效的特性，降低整个网络部署的能效。

C-Transformer的核心想法是通过一个混合的乘累加的计算单元，它可以配置成两种模式，一种是标准的乘法式模式，用高精度的DNN计算，另一种是低位宽的Spiking模式，可以实现八个累加的计算。通过将计算单元配置成其中的某一种模式来映射DNN或者是SNN Transformer的计算.这一方法有点类似清华大学Tianji系列芯片。

值得欣慰的是，Program还有两篇高性能的AI处理器，是提供Transfomrer的Benchmark结果，其中最具有最吸引眼球的无疑就是AMD的MI300系列。在工业邀请论文中，Instinct MI300系列作为一个AMD全新一代超算旗舰处理器，利用了各类三维集成芯片的技术，造出全新的庞然大物。即使只看结构，也可以感受到巧夺天工，它作为3层堆叠结构，包含了有源硅基板（Active Interposer, Base IO Die ）、无源硅基板(Si Interposer)、hybrid bonding等各类技术。

从架构上，它既解决了单封装内仅仅增加GPU，而不提升CPU-PCIe控制端带宽导致的性能饱和，又首次实现了CPU Die在2两个完全不同的产品线上的复用，Zen 4CPU芯粒同时在MI300系列和EPYC Zen两个产品线复用。看着版图的俯视图，都觉得是一个艺术品。

AI芯片在今年ISSCC较前两年ISSCC数量大幅减少的原因，主要是主要来自于Steering Committee将Machine Learning Track剔除，取而代之地增加了Security Track。 ML芯片回归到传统digital architecture、digital circuit track和Memory track（存算部分）。当然，这也导致了今年论文的不少笑话，比如Compute-in-memory Session中有一篇号称支持Transformer的CIM，把Transformer CIM的要求定位为更高的精度（INT10b）。

然而这个结论在Nvidia 的forum talk中啪啪打脸，现有大模型已经在INT4量化下的精度损失可以控制在0.6%以下。

小编觉得，或许这就是Memory designer 和Machine Learning SoC designer对于大模型算法发展的认识的时间差。也是取消ML track的一个坏处。

顺便提一句这个forum，今年的ISSCC单独设了一个面向大模型芯片的forum，这个论坛里邀请了来自英伟达、谷歌、Intel、三星等的多个大模型芯片公司的企业报告了最新的大模型进展，不得不说这个forum是整场ISSCC 会议中对于大模型芯片最大的亮点，小编尤为推荐英伟达在这个forum的talk。只可惜这个forum是要额外付钱。

数字芯片前沿聚焦机器人

另一个学术界无法实现大模型设计的主要原因是其规模，对学校和研究结构而言，不管是流片规模（经费）还是Co-design网络训练成本，都难以支撑B级以上模型的原型实验。所以，在今年的论文中，学校的大部分工作都转向了另外一个方向——智能机器人。这个领域有一个更高大上的名字：具身智能，我觉得可以理解为钢铁侠的贾维斯能干的事情。

这个具身智能的芯片分为两类，一类是提升机器的本来能力，比如导航。美国佐治亚理工的团队提出了一个基于RRAM的导航机器人芯片，它具有两个功能，第一个功能是场景智能感知与理解，通过采用RRAM实现CNN等算法；第二个是对于环境中的导航定位，它主要来处理SLAM中状态方程的求解问题。

来自韩国蔚山科技学院（UNIST）的工作是一个面向激光雷达（Lidar）的3D点云的SLAM芯片，它既通过KNN完成了点云的本身信号处理。同时也通过加入非线性优化功能来完成SLAM的方程求解工作。

第二类是虚拟现实的图像场景生成，其中目前重要的算法是NERF（神经隐式建图），他的效果是通过对物体的简单学习，可以完成不同角度（光线投射下）物体的三维图像渲染和重现，有点类似元宇宙或者是Apple Vision Pro的建图。具体技术就不一一解释了（小编也不太懂），推荐如下两篇文章。

类似的虚拟现实工作还有来自清华大学的Diffusion SoC 芯片。更有甚者，把两者结合又成像又导航。可以想象为在虚拟现实中走了一个迷宫，最后拿到了文献中的上古宝物，有点类似盗墓笔记。（不过这篇文章除了把NERF、SLAM和MoE-多模态缝合起来，就做了一个MLP的加速，实际乏善可陈。）

存算一体的下一步是 异构混合么？

存算一体在历经了多年发展之后，今年ISSCC上最大存算亮点无疑是来自联发科与台积电。联发科发布了一个3nm NPU，其中的计算部分采用了TSMC 3nm最新一代存算核心，这个Macro实现也在今年CiM的Session中有一篇论文，真真的一次流片两篇论文。虽然这个存算一体的大部分技术沿用了TSMC DCIM经典路线（主要性能提升来源是3nm），但是联发科基于这个路线的技术开发了成熟的NPU产品，未来在手机上在产品中应用可期。

（顺带吐槽下，这个Multi-Row DCIM我们在ISSCC 2022上COMB-MCM提过）

在没有更新工艺的加持下，在存算传统工艺赛道上（28/22nm节点）还有哪些花活呢？首先是卷浮点计算，毕竟INT CIM的计算能效已经上天了。另外，今年我们看到学术界的录用论文的不少创新都来自于四个字：混合异构。

第一种异构是不同电路计算机制的融合。东南大学和中科院微电子的两篇文章，都是通过模拟和数字的混合异构来保证精度的同时提升了计算能效，把对计算结果影响不那么重要的部分划给模拟做。如何选择模拟计算和数字计算的边界是有趣的讨论。

除了模拟和数字的异构外，还有不同存储介质的融合。台湾清华大学采用了4T Gain Cell（DRAM）和7T SRAM融合结构实现了面向数据流的存储优化架构。

AI向左，ISSCC向右

正文

请到「今天看啥」查看全文