专栏名称: AI掘金志
雷锋网《AI掘金志》频道:只做计算机视觉 +「安防、医学影像、零售」三大传统领域的深度采访报道。
目录
相关文章推荐
中国能源报  ·  日本计划开始→ ·  昨天  
中国能源报  ·  日本计划开始→ ·  昨天  
温度新闻  ·  李准基涉嫌逃税,被追缴9亿韩元! ·  2 天前  
温度新闻  ·  李准基涉嫌逃税,被追缴9亿韩元! ·  2 天前  
51好读  ›  专栏  ›  AI掘金志

赛灵思单羿:如何基于FPGA定制计算,构建AI及智能安防系统?

AI掘金志  · 公众号  ·  · 2019-11-06 19:15

正文

当前面对大量应用需求和海量非结构化数据时,需要的不是一个通用的处理器架构,而是针对不同领域的专用计算架构(DSA),去适配不同的应用和数据结构, “定制计算”由此而来,它也是解决现在智能社会多样需求的一个重要手段。

编辑 | 卡卡


近日,由雷锋网 & AI掘金志主办的「全球AI芯片·城市智能峰会」,在深圳大中华喜来登酒店盛大召开。


延续雷锋网大会一贯的高水准、高人气,「全球AI芯片·城市智能峰会」以“城市视觉计算再进化”为主题,全面聚焦城市视觉与城市算力领域,是业内首个围绕“算法+算力”展开的大型智能城市论坛。


峰会邀请到了业内极具代表性的14位业内知名专家,世界顶尖人工智能科学家、芯片创业大牛、产业巨头首席技术高管、明星投资人齐聚,为行业资深从业者们分享前瞻的技术研究与商业模式方法论。

在大会上午环节,赛灵思人工智能研发高级总监单羿发表了题为《基于FPGA定制计算构建AI系统》的精彩演讲。


以下是单羿的演讲全文,雷锋网做了不改变原意的编辑和整理:


大家好!我是赛灵思单羿,之前在深鉴科技做CTO。去年8月份深鉴科技被赛灵思全资收购,现在我在赛灵思主要带领团队负责AI研发和项目落地的接洽。

我今天演讲的题目是《基于FPGA为行业定制构建AI系统》,这里面的一个关键词是“定制计算”,后面我也会围绕定制计算这一主题详细介绍相关内容。

赛灵思是一家美国上市公司,主要销售FPGA芯片,年收入大概在30亿左右。目前公司有4400多名员工,可以看到公司的规模在某种程度上甚至可能小于国内的一些创立不久的公司,所以是一家人均创造价值非常高的传统芯片公司。


赛灵思的客户群横跨很多行业,从航天航空到汽车工业化,同时也包括安防和数据中心等领域。

大家都知道赛灵思是世界上第一家Fabless半导体公司,我们发明了世界上第一款FPGA芯片。在FPGA这一赛道上主要有两大玩家:一个是赛灵思,一个是Altera。由于整个行业都意识到了FPGA的重要性,所以英特尔在2015年花重金收购了Altera。


FPGA是一种非常稳定的芯片,可以看到大概平均在200万个芯片中,只有不到2个才会出问题。赛灵思所销售的芯片,都能保证15年以上的供货周期。


我们不仅关注芯片这一侧,而且更多是专注开发芯片所用的工具,比如推出了Vivado Design Suite、ACAP等平台及相应的开发包。

其实大家今天谈AI芯片的时候,谈得比较多的是性能、应用性,以及支持的范围等,但其实在工业界,芯片很重要的一点便是稳定性、可靠性,尤其是在智能时代,当面对大量应用需求和海量非结构化数据时,需要的不只是一个通用的处理器架构,而是针对不同领域的专用计算架构(DSA, domain specific architecture),去适配不同的应用和数据结构。


定制计算这一概念,就是由此而来,它也是解决现在智能社会多样需求的一个重要手段。


什么叫做定制计算呢?我举个简单的例子,下图是各种人工智能Network的名字,整个行业都在不断地演进这些算法,但这里我们需要思考一个问题:算力的演进能跟得上算法更迭速度吗?

我们知道,通常一个芯片的研发需要两年时间,要做到量产则更长。在这个时间里,一般情况下,我们为旧的网络打造一个处理器架构,但当芯片完成后,又出现了新的网络,此时芯片原有的架构就很难满足新网络架构以及新算法对算力高效性的需求。在某种程度上讲属于打水漂了,浪费了投片的成本。


尤其是大家相继迈入7纳米制程之后,每颗芯片的成本开发成本动辄千万甚至上亿美金,所以很难会为AI算法未确定、应用未真正推广的时候,去打造一款最终的通用芯片。


而在这个时候,FPGA则可以发挥它的作用。


FPGA是一种硬件可编程的器件,工程师可以在上面改变它的电路逻辑,人们通常在写FPGA的时候,写的是软件代码,但是心里想的是电路结构、处理器结构。所以FPGA硬件可以反复擦写,这一特性,既降低了一次性投片的成本,同时也提高了芯片的处理性能。


下图是赛灵思产品的一个特定应用域,它在处理问题的时候,往往有这样一个流水线,来处理很多不同的任务。

赛灵思想要做的,不再是用一颗通用CPU或GPU去满足所有的应用。


我们的目的是,分析这个应用里不同的特点:如每一个操作的数据流是什么样、每个操作所需要的精度如何、怎么去做多级的存储、怎么去定制化一个芯片跟外界的I/O、通信的接口。像安防摄像头,或者NVR、DVR,很多接口都是需要定制的。所以在这样一个定制化需求的情况下,赛灵思可以用FPGA非常容易地去打造成一个AI处理器。


我们可以定制结构、定制数据宽度、定制存储架构,甚至还可以定制接口,这些都是FPGA的优势。

所以在做AI产品的时候,FPGA是一个非常有力的助手,同时我们也非常关注安防这个垂直的应用领域。

在安防前端低成本摄像头类目中,赛灵思提供28纳米的FPGA芯片。


而在更智能、更高端的摄像头中,则提供16纳米芯片,在云端服务器这边也有相应的服务器板卡解决方案。


赛灵思可以提供从“普通”到“高强度”等级的算力,以及非常高密度的计算服务器搭配,品类非常齐全,非常适合用于搭建整体的安防系统。

举个例子,我们在边缘计算领域有多种芯片,这里面仅仅列了非常少的一部分。用户可以根据需求去选择某一款芯片。比如说当用户选择一些友商的芯片时,往往只有三五种选择,而这几种选择之间的跨度非常大,成本也是成倍上升的,而赛灵思每一颗芯片和每一颗芯片之间的差距相对比较小,价格也会更细分,所以用户可以用更低的成本、更低的功耗去找到适应需求的那一颗芯片,执行任务。


这是之前在深鉴时候的一些尝试,我们提供低成本的FPGA的模组,搭配其它友商的SOC做智能摄像头。

除此之外,也有可以提供接近500G每秒处理次数的高性能摄像头模组,功耗只需要5瓦。

我们通过16纳米的FPGA芯片,不仅可以完成之前的功能,实现更强的运算能力,还可以把其它公司的SOC去掉,仅仅用一颗单位芯片,就能处理摄像头芯片中AI的运算,包括编解码和接口的功能,做到单芯片的解决方案。


同时我们还可以用单芯片做边缘服务器里对多路视频分析的运算以及编解码的解决方案。

这是客户松下对我们的评价,松下觉得我们产品主要特点是低延时和低功耗。这在摄像头领域是非常重要的,摄像头一般是在室外,功耗非常重要,而且我们处理的是实时图像,不会把图像缓存下来做批处理,后者是友商的模式,但是它不利于对实时场景的快速反馈。


所以低延时和低功耗一直是赛灵思在安防领域的一个重要卖点。

在这个领域,我们也有一些低延时的解决方案,并且在不断地调整AI架构去适应AI模型的更迭,同时更注重从端到端整体地解决一个AI部署之后的效率问题。


具体来看一下其中的一些挑战:

从上图的应用里面可以看到,在面对诸多AI需求时,都有着不同算力大小的需求,而且往往场景和清晰度多样。而且我们经常需要把多组模型、多组摄像头的输入放在一起,送到计算平台里,这中间对计算平台的算力要求有很大的挑战。


另外一点,这些模型仅仅是我们安防系统中核心AI方面的一部分,我们还有很多前处理和后处理的模块没有涉及到,于是推出了“机器学习+X”的概念,FPGA很适合做接口预处理和后处理的工作,结合对机器学习的运行能力,构建一个端到端的优化系统。


下图是整体的解决方案:

我们给客户提供的产品,从硬件角度是定制化硬件处理器体系结构,针对不同的芯片,去做不同规模的处理器给客户选择。


在上层同时也提供了一个完整的软件开发环境,包括从用户的模型输入、分析、优化,以及编译、部署、运行支持,都是一个完整的工具包。而且还辅助客户去做很多参考设计,比如一些预处理和后处理的模型优化,也提供了很多相关的库。


赛灵思希望做到的是在垂直方向给客户提供一个软件开发工具的优化,在水平方向给客户提供一个端到端整体系统参考解决方案。


在垂直方向,赛灵思做了很多模型优化的工作。


我们知道客户的模型一般是用GPU来做离线训练,这些模型往往比较大而且是用浮点精度运算的,其实它并不一定适合放在实际的AI芯片或者是FPGA AI处理器上进行运算,所以只要保证精度,是可以做一些优化的。所以我们很多工作是为了基于FPGA在运算时有比较友好的模型和算法。







请到「今天看啥」查看全文