专栏名称: 半导体行业资讯

分享最新半导体及范半导体行业资讯，行业动态，前沿科技。

全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选

半导体行业资讯 · 公众号 · 半导体 · 2019-10-15 16:15

正文

点击半导体行业资讯

关注我哟 ☀ 覆盖 20万半导体人的专业平台，分享最新半导体及范半导体行业资讯，行业动态，前沿科技。

来源：微信公众号“半导体行业观察”，「QbitAI」，「量子位」报道，编辑整理：乾明 ”。版权归原作者所有，如有侵权请联系删除，感谢！

AI芯片哪家强？现在，有直接的对比与参考了。

英国一名资深芯片工程师James W. Hanlon，盘点了当前十大AI训练芯片。

并给出了各个指标的横向对比，也是目前对AI训练芯片最新的讨论与梳理。

其中，华为昇腾910是中国芯片厂商唯一入选的芯片，其性能如何，也在这一对比中有了展现。

△ *代表推测，†代表单芯片数据。

Cerebras Wafer-Scale Engine

这一芯片于今年8月份正式面世，被称为“史上最大AI芯片”，名为“晶圆级引擎”（Cerebras Wafer Scale Engine，简称WSE）。

其最大的特征是将逻辑运算、通讯和存储器集成到单个硅片上，是一种专门用于深度学习的芯片。

一举创下4项世界纪录：

晶体管数量最多的运算芯片：总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片，却是用于存储的eUFS。
芯片面积最大：尺寸约20厘米×23厘米，总面积46225平方毫米。
片上缓存最大：包含18GB的片上SRAM存储器。
运算核心最多：包含410,592个处理核心

之所以能够有如此亮眼的数据，直接得益于其集成了 84个 高速互连的芯片，单个芯片在FP32上的峰值性能表现为40 Tera FLOPs，芯片功率达15千瓦，与AI集群相当。

片上缓存也达到了18GB，是GPU缓存的3000倍；可提供每秒9PB的内存带宽，比GPU快10,000倍。

晶片规模集成，并不是一个新的想法，但产量、功率传输和热膨胀相关的问题使其很难商业化。在这些方面，Cerebras都给出了相应的解决办法：

为了解决缺陷导致良率不高的问题，Cerebras在设计的芯片时候考虑了1~1.5%的冗余，添加了额外的核心，当某个核心出现问题时将其屏蔽不用，因此有杂质不会导致整个芯片报废。
Cerebras与台积电合作发明了新技术，来处理具有万亿加晶体管芯片的刻蚀和通讯问题。
在芯片上方安装了一块“冷却板”，使用多个垂直安装的水管直接冷却芯片。

Cerebras公司由Sean Lie（首席硬件架构师）、Andrew Feldman（首席执行官）等人于2016年创立。后者曾创建微型服务器公司SeaMicro，并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工，其中包括173名工程师，迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。

Google TPU（v1、v2、v3）

Google TPU系列芯片正式发布于2016年，第一代芯片TPU v1只用于推理，而且只支持整数运算。

通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数，从而为主机CPU提供加速，节省了大量的设计和验证时间。其主要数据为：

芯片面积331平方毫米，28nm制程
频率为700 MHz，功耗28-40W
片上存储为28 MB SRAM：24MB 用于激活，4MB 用于累加器
芯片面积比例：35%用于内存，24%用于矩阵乘法单元，剩下的41%面积用于逻辑。
256x256x8b收缩矩阵乘法单元(64K MACs/cycle)
Int8和 INT16算法(峰值分别为92和23 TOPs/s)

IO数据：

可以通过两个接口访问8 GB DDR3-2133 DRAM，速度为34 GB/s
PCIe-3x16 (14 GBps)

2017年5月，Google TPU v2发布，改进了TPU v1的浮点运算能力，并增强了其内存容量、带宽以及HBM 集成内存，不仅能够用于推理，也能够用于训练。其单个芯片的数据如下：

20nm制程，功耗在200-250W（推测）
BFloat16上性能表现为45 TFLOPs，也支持 FP32
具有标量和矩阵单元的双核
集成4块芯片后，峰值性能为180 TFLOPs

单核数据：

128x128x32b收缩矩阵单元(MXU)
8GB专用HBM，接入带宽300 GBps
BFloat16上的最大吞吐量为22.5 TFLOPs

IO数据：

16Gb HBM集成内存，600 GBps带宽(推测)
PCIe-3 x8 (8 GBps)

Google TPU v2发布一年之后，Google再度发布新版芯片——TPU v3。

但关于TPU v3的细节很少，很可能只是对TPU v2一个渐进式改版，性能表现翻倍，增加了HBM2内存使容量和带宽翻倍。其单个芯片的数据如下：

16nm或12nm制程，功耗估计在200W
BFloat16的性能为105 TFLOPs，可能是MXUs的2倍到4倍
每个MXU都能访问8GB的专用内存
集成4个芯片后，峰值性能420 TFLOPs

IO数据：

32GB的HBM2集成内存，带宽为1200GBps (推测)
PCIe-3 x8 (8 GBps)（推测）

Graphcore IPU

Graphcore成立于成立于2016年，不仅备受资本和业界巨头的青睐，还颇受业内大佬的认可。

2018年12月，宣布完成2亿美元的D轮融资，估值17亿美元。投资方有宝马、微软等业界巨头，还有著名的风投公司Sofina、Atomico等。

AI巨头Hinton、DeepMind创始人哈萨比斯，都直接表达了赞美。

Graphcore IPU是这家公司的明星产品，其架构与大量具有小内存的简单处理器高度并行，通过一个高带宽的“交换”互连连接在一起。

其架构在一个大容量同步并行(BSP)模型下运行，程序的执行按照一系列计算和交换阶段进行。同步用于确保所有进程准备好开始交换。

BSP模型是一个强大的编程抽象，用于排除并发性风险，并且BSP的执行，允许计算和交换阶段充分利用芯片的能源，从而更好地控制功耗。可以通过链接10个IPU间链路来建立更大的IPU芯片系统。其核心数据如下：

16nm制程，236亿个晶体管，芯片面积大约为800平方毫米，功耗为150W，PCIe卡为300 W
1216个处理器，在FP32累加的情况下，FP16算法峰值达到125 TFLOPs
分布在处理器核心之间有300 MB的片上内存，提供45 TBps的总访问带宽
所有的模型状态保存在芯片上，没有直接连接DRAM

IO数据：

2x PCIe-4的主机传输链接
10倍的卡间IPU链接
共384GBps的传输带宽

单核数据：

混合精度浮点随机算法
最多运行六个线程

Habana Labs Gaudi

H aba na Labs同样成立于2016年，是一家以色列AI芯片公司。

2018年11月，完成7500万美元的B轮募资，总募资约1.2亿美元。

Gaudi芯片于今年6月亮相，直接对标英伟达的V100。

其整体的设计，与GPU也有相似之处，尤其是更多的SIMD并行性和HBM2内存。

芯片集成了10个100G 以太网链路，支持远程直接内存访问(RDMA)。与英伟达的NVLink或OpenCAPI相比，这种数据传输功能允许使用商用网络设备构建大型系统。其核心数据如下：

TSMC 16 nm制程（CoWoS工艺），芯片尺寸大约为500平方毫米
异构架构：GEMM操作引擎、8个张量处理核(TPCs)
SRAM内存共享
PCIe卡功耗为200W，夹层卡为300W
片上内存未知

TPC核心数据：

VLIW SIMD并行性和一个本地SRAM内存
支持混合精度运算：FP32、 BF16，以及整数格式运算(INT32、INT16、INT8、UINT32、UINT8)
随机数生成、超越函数：Sigmoid、Tanh、GeLU

IO数据：

4x 提供32 GB的HBM2-2000 DRAM 堆栈，整体达1 TBps
芯片上集成10x 100GbE 接口，支持融合以太网上的 RDMA (RoCE v2)
PCIe-4 x16主机接口

Huawei Ascend 910

华为昇腾910，同样直接对标英伟达V100，于今年8月份正式商用，号称业内算力最强的AI训练芯片。主打深度学习的训练场景，主要客户面向AI数据科学家和工程师。

其核心数据为：

7nm+EUV工艺，456平方毫米
集成4个96平方毫米的 HBM2栈和 Nimbus IO处理器芯片
32个达芬奇内核
FP16性能峰值256TFLOPs (32x4096x2) ，是 INT8的两倍
32 MB的片上 SRAM (L2缓存)
功耗350W

互联和IO数据：

内核在6 x 4的2d网格封包交换网路中相互连接，每个内核提供128 GBps 的双向带宽
4 TBps的L2缓存访问
1.2 TBps HBM2接入带宽
3x30GBps 芯片内部 IOs
2 x 25 GBps RoCE 网络接口

单个达芬奇内核数据：

3D 16x16x16矩阵乘法单元，提供4,096个 FP16 MACs 和8,192个 INT8 MACs
针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算
支持标量操作

Intel NNP-T

这是Xeo n P hi之后，英特尔再次进军AI训练芯片，历时4年，壕购4家创业公司，花费超过5亿美元，在今年8月份发布。

神经网络训练处理器NNP-T中的“T”指Train，也就是说这款芯片用于AI推理，处理器代号为Spring Crest。

NNP-T将由英特尔的竞争对手台积电（TSMC）制造，采用16nm FF+工艺。

NNP-T有270亿个16nm晶体管，硅片面积680平方毫米，60mmx60mm 2.5D封装，包含24个张量处理器组成的网格。

全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选

正文

△ *代表推测，†代表单芯片数据。

Cerebras Wafer-Scale Engine

Google TPU（v1、v2、v3）

Graphcore IPU

Habana Labs Gaudi

H aba na Labs同样成立于2016年，是一家以色列AI芯片公司。

Huawei Ascend 910

Intel NNP-T

请到「今天看啥」查看全文