专栏名称: 传感器技术
制造业的未来是智能化,智能化的基础就是传感器; 互联网的方向是物联网,物联网的基石也是传感器; 关注传感器技术,获得技术资讯、产品应用、市场机会,掌握最黑科技,为中国工业导航。
目录
相关文章推荐
量子位  ·  姚班天才创办的大模型公司,卖了 ·  23 小时前  
新智元  ·  Claude 3.7 ... ·  23 小时前  
爱可可-爱生活  ·  【[1.5k星]Wan2.1:阿里开源的大规 ... ·  昨天  
伯益说环保  ·  我们随时可能被淘汰,环评已进入AI时代 ·  昨天  
伯益说环保  ·  我们随时可能被淘汰,环评已进入AI时代 ·  昨天  
心禅道  ·  deepseek推荐导致 AI搜索引擎优化 ... ·  2 天前  
心禅道  ·  deepseek推荐导致 AI搜索引擎优化 ... ·  2 天前  
51好读  ›  专栏  ›  传感器技术

智慧云中的FPGA

传感器技术  · 公众号  ·  · 2017-07-03 06:03

正文

人工智能大热之前,Cloud或Data Center已经开始使用FPGA做各种加速了。而随着Deep Learning的爆发,这种需求越来越强劲。本文主要讨论Cloud巨头Amazon和Microsoft的FPGA策略。


在Microsoft Build 2017大会上,微软Azure云计算平台CTO Mark Russinovich做了一个名为 “Inside Microsoft's FPGA-Based Configurable Cloud”的演讲,介绍了Azure平台中使用FPGA的情况(大家可以点击文末的阅读原文收看视频);另外,在Amazon的“Amazon EC2 F1 Instances”网站,有一个Webinar视频,介绍AWS的FPGA服务。本文将结合这两个讲座展开讨论,以下分别简称MS和AWS。


智能云对数据处理的需求




从需求层面来看,云端智能对数据处理有了更高的要求,体现在巨大的规模,低时延和高吞吐率几个方面。而从这几个角度来说,FPGA都有自己独特的优势。



AWS在云端部署FPGA所针对的应用主要包括:Real Time Video Processing,Financial Analysis, Genomic Research, Big Data Search and Analytics, and Seurity。这里虽然没有专门提到AI和Deep Learning,但这些应用实际上也都和AI技术有关。而他们预期实现的目标如下:






AWS给出了另外一个视角的比较,CPU为了实现最大的灵活和通用,芯片中的很大一部分芯片面积用来提供控制功能(也包括复杂的存储架构,比如Cache);而在GPU当中,用作运算的芯片面积比例大大提高,能够支持大规模的并行处理;而到了FPGA,已经没有预先定义的指令集概念,也没有确定的数据位宽。这些你都可以根据应用来自己设计。你可以设计一个只支持几条指令的处理器;也可以只设计数据通道和简单的控制逻辑,根本不用指令。

下图来自MS的讲座,对比了CPU和FPGA进行数据处理的特点。



CPU可以看作是一种时间计算模型,指令顺序进入,每条指令处理一定的数据。FPGA可以看作是空间计算模型,大量数据可以并行的进行处理。Deep Learning的处理,比如CNN的卷积运算,就是非常适合空间计算模型的例子。这一点我在之前的文章“ 深度神经网络的模型·硬件联合优化 ”中已有介绍。下面我们具体看看FPGA的内部结构。


此外,一般FPGA中还提供片上Memory模块(Block RAM,UltraRAM),各种高速接口,IP和很多辅助电路。根据应用需求不同,有的型号的FPGA本身也是一个SoC,还集成了处理器核(比如ARM),甚至视频编解码等功能。


下表中列出的Xilinx Virtex UltraScale+ FPGA系列的具体参数。后面要介绍的AWS F1 instance用的就是VU9P。



在这里,我们观察CLB Flip-Flops,CLB LUT和DSP Slices的数量,以及memory的数量,基本就可以了解该FPGA的规模,也就是在这个FPGA上可以实现多大规模的数字电路。


在云端部署FPGA


首先,作为加速功能,FPGA需要配合Host CPU来工作。比如在下图中,一个应用中有一个滤波器功能,需要大量的运算,比较合适放到FPGA来处理;而其它部分功能,主要和控制相关,则放在CPU来运行。





在一块Catapult V2的板卡上,有一颗Altera Stratix FPGA和本地的DRAM,这块卡上有三个和外部连接的接口,一个PCIe,两个QSFP。这种架构中,FPGA和WCS Server Blade的连接非常灵活,同时也支持很大的吞吐率。FPGA可以支持对网络应用(从NIC到Switch的channel),存储应用(CPU到Switch的channel)以及运算应用(CPU和FPGA)的加速。而这种架构也具有高度的伸缩性,如下图所示。



连接在一起的FPGA可以构成一个独立的运算层。多个FPGA可以组合在一起实现不同的加速功能,比如Deep neural network,Web search ranking,SQL,SDN offload等等。


MS还提出一个HW Microservices的概念:“A hardware-only self-contained service that can be distributed and accessed from across the datacenter compute fabric”。使用这个Microservices有如下优势:



总的来说,就是有更多的灵活性,可以更有效的分享和利用FPGA资源。而针对DNN应用,MS也提出了一个专门的架构。首先,在FPGA上提供DNN Engine,包括了Neural FU(数据通道)和Instruction Decoder&control(控制面功能)。而多个FPGA可以部署为一个大规模的HW microservices,实现分布式处理。



而相应的,MS正在研发一套“编译”工具,可以把在常见的Deep Learning Framework中训练好的model自动部署到一个或多个FPGA(也包括GPU,CPU)中。



不过,这些看起来不错的设计和功能我们现在还用不了,只能等MS准备好公开发布的时候才能使用。所以,Mark Russinovich最后说,“We look forward to eventually making this available to you, a major step toward democratizing AI with the power of FPGA”。希望这个时间不会太远吧。


AWS F1 Instance


相对而言,AWS的FPGA云服务离我们更近。它的规格如下图所示:



其中f1.16xlarge由8个FPGA组成,配合64个vCPUs,接近1T的Memory,规模相当大。其中每个FPGA连接4个DDR。FPGA之间则有两种互连方式,第一种是FPGA Link,这是一种双向环状连接,用于支持Streaming方式串联多个FPGA的应用;另一种是FPGA Direct,这是点到点的PCIe链路,可以从一个FPGA连接到任意一个其它FPGA。另外,为了简化FPGA I/O的设计,AWS还提出FPGA Shell的概念。如下图所示:









请到「今天看啥」查看全文