专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
51好读  ›  专栏  ›  DeepTech深科技

特稿│中国技术创业公司登上世界处理器巨头的舞台

DeepTech深科技  · 公众号  · 科技媒体  · 2016-08-31 14:40

正文

DeepTech深科技  麻省理工科技评论独家合作



这是DT君前不久专访过的一家深度学习初创公司:深鉴科技。这次,他们正式推出了自家的“深度学习处理器”(DPU)。(专访如下,点击标题阅读)


深度揭秘│一家试图替换CPU、GPU的中国技术创业公司



美国时间8月22日,深鉴科技在加州举办的Hot Chips峰会上,首次发布了两款针对深度学习的专用处理架构:用于卷积神经网络(CNN)的Aristotle架构,以及用于稀疏深度神经网络(DNN)和循环神经网络(RNN)的Descartes架构。(点击“阅读原文”可下载深鉴科技Hot Chips 2016演讲PPT)

 

Hot Chips是世界处理器行业的技术峰会,也是ARM、Intel、NVIDIA、微软等巨头展示最新技术的舞台。芯片架构设计领域每年都涌现大量新生代,但其中只有约20款最新的处理器架构设计能够在这个平台进行展示,这使得该峰会成为世界芯片巨头的必争之地,每年的发表席位大多被ARM、高通、Intel、AMD等处理器巨头占据。

 

今年,来自于中国的深度学习初创公司深鉴科技,得到了全世界处理器行业专家的认可。公司CEO姚颂有幸登上了Hot Chips的演讲台,这也使得深鉴科技和姚颂本人成为了Hot Chips历史上最年轻的公司与最年轻的主讲人。 



深鉴科技CEO姚颂在Hot Chips的演讲照片


姚颂提到,深度学习专用处理平台必须适应最新的算法,如CNN中卷积核越来越小、LSTM中的矩阵尺寸越来越大。而深鉴之所以选择FPGA作为其“深度学习处理器”(DPU)的载体,正是因为其允许较短的开发速度与架构的迭代,同时能够提供合适的性能与功耗、较高的片上存储带宽。

 

深鉴科技已经实现的一键编译技术。首先,对于神经网络层面进行深度压缩,去除算法连接关系上的冗余;之后,再进行数据量化,去除单个数值在精度要求上的冗余;最后,根据深鉴设计的Aristotle与Descartes架构指令集,当对神经网络模型进行编译,而不进行重新训练时,仅需要半分钟即可完成从算法模型到可执行指令的全套编译流程。

 


基于FPGA的深度学习解决方案 



Aristotle架构

 

Aristotle架构专为基于CNN的深度学习应用设计,为小尺寸卷积核优化,高效支持1x1,3x3等卷积操作;支持卷积、Pooling、ReLU、Concat、Batch Normalization等多种层,不限制网络层数、规模;支持R-FCN等多种物体检测框架。

 


深鉴科技开发的用于CNNAristotle架构

 

Aristotle搭载于Zynq 7020 FPGA上,可取得比NVIDIA Tegra K1 GPU好一个数量级的能效比;如果映射到相应的芯片工艺上,毫无疑问可以取得进一步明显的能效提升。Aristotle架构可以广泛应用于无人机、安防监控、机器人、自动驾驶等图像相关的各大领域中。



搭载了深鉴DPU的无人机

 


Descartes架构

 

Descartes架构则专为稀疏DNN/RNN-LSTM设计,支持LSTM中多个矩阵操作的复杂调度,支持各种稀疏率、矩阵尺寸,以及多种非线性函数,搭载与KU系列FPGA,可以实现比GPU超过一个数量级的能效提升,可以广泛用于语音识别、翻译、OCR等多种应用领域。

 

值得一提的是,深鉴科技在峰会上首次介绍了基于Aristotle架构的深度学习处理平台“雨燕”,该平台将在10月实现批量供货。

 

“雨燕”平台基于Xilinx Zynq FPGA,支持各类神经网络、多种物体检测框架,并且集成了HOG、KCF等物体追踪常用模块,能够广泛用于无人机、机器人、ADAS等领域。这也代表着深度学习专用处理平台真正从学术走向了市场。





深科技招聘自由撰稿人,要求

文笔好,懂科技,稿酬优

联系:[email protected]



IEEE中国是DeepTech深科技的战略合作伙伴,想要获得最新的科技资讯和会议信息,敬请关注IEEE中国。



MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。

分享至朋友圈才是义举


DeepTech深科技

     ID:mit-tr

长按关注