Google的硬件选择——Tensor Processing Unit 体系架构

矽说 · 公众号 · 半导体 · 2017-04-06 10:02

正文

选自 Google Drive

作者：Norman P. Jouppi 等

痴笑@矽说编译

该论文将正式发表于 ISCA 2017

从去年七月起，Google就号称了其面向深度学习的专用集成电路（ASIC）产品——Tensor Processing Unit （TPU），然而其神秘面纱一直未被揭开。直至本周，Google公开了其向ISCA（国际计算机体系架构年会）投稿的的预录取论文——In Datacenter Performance Analysis of a Tensor Processing Unit，TPU的技术细节才公开发表，令我们才有幸见识其真面目。虽然可能只是“犹抱琵琶半遮面”，但其作为CPU/GPU/FPGA后的另一深度学习选项，特别是TPU和tensorflow间可能存在的微妙联系值得我们特别关注。矽说在第一时间选编、翻译 了其中的重要部分，以飨读者 。

论文地址：（需翻墙）
https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view

前言

文章具体描述了Tensor Processing Unit (TPU)的体系结构，并与目前主流的CPU（Intel Haswell Xeon）和GPU（Nvidia K80）的性能做出了比较，采用的benchmark包含了CNN，RNN（LSTM）和全链接（MLP）神经网络。其特点包括：

（1）面向inference的专用app与硬件，强调了吞吐率上的性能

（2） TPU的不仅在面积和功耗上低于GPU，而且在乘累加的数量和存储器容量是K80的25倍和3.5倍

（3） TPU的速度上的优势明显，达到GPU和CPU的15到30倍

（4）在6个NN架构中，4种神经网络的性能瓶颈在于存储器带宽。若存储器带宽达到K80的性能，作者相信性能能提升到30到50倍

（5） TPU的能效值（TOPS/W）达到在目前其他产品的30到80倍

（6） CNN在TPU中工作量的比列只有5%

起源、架构与实现

早在2006年开始，Google就开始讨论在数据中心部署GPU，FPGA或定制ASIC。在2013年，当DNN已经展露头脚，以致可能会使我们的数据中心的计算需求加倍时，传统的CPU已经被认为不合时宜了。因此，我们开始了一个高度优先的项目，以快速生成用于Inference的定制ASIC，（训练仍使用GPU）。目标是将性能提升10倍以上。根据这一任务，Google的TPU的设计和验证在短短15个月内完成，并构建并部署在数据中心。

而不是与CPU紧密集成，为了减少延迟部署的可能性，TPU被设计为PCIe I/O总线上的协处理器，允许它像GPU那样插入现有的服务器。此外，为了简化硬件设计和调试，主机服务器发送TPU指令来执行，而不是自己提取它们。因此，TPU在精神上比FPU（浮点单元）协处理器更接近于GPU。

TPU的目标是运行整体深度学习的神经网络模型，以减少与主机CPU的交互，并且具有足够的灵活性，以满足2015年及其后的NN需求，而不仅仅是2013年NN所需。

图1是TPU的整体体系架构。TPU指令通过PCIe Gen3 x16总线从主机发送到指令缓冲区。内部块通常通过256字节宽的路径连接在一起。从右上角开始，Matrix Multiply Unit是TPU的核心。它包含256x256个乘累加单元（MAC），可以对有符号或无符号整数执行8位乘法和加法。求和单元（Accumulator）的输入为16位乘积，输出和的位宽为32，共有4906个，每个的输入个数为256。因此，矩阵单元每个时钟周期产生一个256元素的部分和。

当使用8位权重和16位激活函数的混合计算结构时，MMU的计算速度将减半，当它们都是16位，计算速度将减为四分之一。它每个时钟周期读取和写入256个值，并且可以执行矩阵乘法或卷积。矩阵单元采用两个64KiB的权重tile的双缓冲设计，其中的一个仅在非稀疏模式下才会被激活，这样就提升了TPU对于稀疏网络的性能支持。Google相信稀疏性将在未来的设计中占有优先地位。

矩阵单元的权重通过片上Weight FIFO进行分级，该FIFO从片外8 GiB DRAM读取（在inference中，权重是只读的）。Weight FIFO存储了四个4个tile。中间结果保存在24 MiB片上Unified Buffer中，可作为未来的Matrix单元的输入。可编程DMA控制器向CPU主机内存和Unified Buffer传输数据。

图2显示了TPU芯片的布局图。 24 MiB Unified Buffer几乎是芯片的三分之一，Matrix Multiply Unit是四分之一，因此数据路径占到了整个芯片的三分之二。由于开发时间短，部分设计选取了简单的值以简化编译器设计。控制逻辑占到总面积的只有2％。图3显示了搭载在PCB上的TPU实现图，期接口类似SATA磁盘，可通过PCIe直接接入数据中心。

TPU的指令是通过PCI额发射的，遵循CISC传统，包括重复字段。这些CISC指令的每个指令的平均时钟周期（CPI）在10到20之间。它总共有大约十多个指令，这里罗列最关键的五个：

（1） Read_Host_Memory

（2） Read_Weights

（3） MatrixMultiply/Convolve

（6） Activation

（5） Write_Host_Memory

其他指令是备用主机内存读/写，设置配置，两个版本的同步，中断主机，调试Jtag，空操作和停止。 CISC MatrixMultiply指令为12个字节，其中3个为Unified Buffer地址; 2是累加器地址; 4是长度（有时是卷积的2个维度）; 其余的是操作码和标志。TPU微架构的理念是保持MMU的繁忙。因此，MMC的CISC指令使用4级流水线结构，其中每条指令在其中的单独一级执行。其目标是通过将其执行与MatrixMultiply指令重叠来隐藏其他指令（如Read_Weights等）。但，当激活的输入或权重数据尚未就绪，矩阵单元将进入等待模式。

Google的硬件选择——Tensor Processing Unit 体系架构

正文

请到「今天看啥」查看全文