来源:
半导体行业观察
深度学习加速器目前主打的是性能和能效比,其性能能帮助深度学习的推理流畅执行,而其能效比则保证了算法加速过程中不会消耗太多电池,可以在移动端长时间使用。目前在移动领域,智能摄像头、无人机、手机等都是深度学习加速器潜在的应用领域,其中以手机的应用市场最大。
关于深度学习加速器的用法,一般分为芯片和IP两种。芯片的代表如Movidius的Myriad系列(以及基于Myriad芯片的neural stick产品)和,用户可以把芯片集成到自己的系统中来做深度学习加速。然而,在BOM可谓寸土寸金的手机领域,额外加一块芯片加速深度学习几乎不可能,可行的做法是在手机SoC里面集成一块深度学习加速器IP,在手机执行深度学习应用的时候可以把计算放到加速器模块去执行。
华为、苹果和Imagination纷纷发布人工智能加速IP
GOPS的数量级。这样的数字能够支持基础的深度学习算法:
目前,苹果宣称其A11中的neural engine主要是加速Face ID应用,而华为的展示项目则是实时物体辨识。预期在未来,这些人工智能加速器的应用场景会远远多于这些,同时也促成移动端人工智能应用的井喷式发展。
另一方面,我们也应该看到,100GOPS数量级的算法运行计算量更大的实时物体检测(object detection,从画面中同时定位并识别多个物体)还不够流畅,因此深度学习IP还有不少进步的空间。
Nvidia DLA:为AI生态铺路的前瞻性产品
与华为、苹果等定制深度学习IP模块不同,Nvidia选择了开源其深度学习加速架构DLA。目前,DLA已经在github上发布了其RTL代码可供编译、仿真以及验证,预计在未来Nvidia将进一步公布其C模型等重要设计组件。
Nvidia DLA最主要的部分是计算单元,据悉目前DLA会使用Winograd算法来减小卷积的计算开销,同时也会使用数据压缩技术,来减少DRAM访问时的数据流量。
Nvidia同时给出了NVDLA构成的两种系统,在比较复杂的大系统中, DLA的接口包括与处理器交互的IRQ/CSB,与片外DRAM交互的DBBIF,以及与SRAM交互的SRAMIF,而在小系统的例子中,则省去了SRAMIF,因为小系统中的SRAM比较宝贵可能没有可供NVDLA使用的部分。
在性能方面,NVDLA在使用2048个MAC的时候可以每秒完成269次ResNet-50推理,相当于2.1TOPS的性能,当然其对于内存的带宽要求也达到了20GB/s,接近DDR4系列的最高带宽。
动端人工智能市场真正蓬勃发展后,即使DLA不带来收入也能从人工智能产业链的上游获得大量收益,因此开源DLA的举动是Nvidia布局人工智能生态的重要一步。
Intel Loihi:神经拟态芯片,试验性产品
与前述的几家公司不同,Intel推出的Loihi是一款基于神经拟态(neuromorphic)的芯片。目前最流行的深度学习神经网络中,神经网络把人类的神经系统的统计行为抽象为一系列运算(高维卷积以及非线性运算)的数学系统,与真正的生物神经工作并不相同,而之前介绍的几款产品(以及绝大多数其他人工智能加速器硬件)都是加速这类经典神经网络结构的。