专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

特稿│中国技术创业公司登上世界处理器巨头的舞台

DeepTech深科技 · 公众号 · 科技媒体 · 2016-08-31 14:40

正文

请到「今天看啥」查看全文

DeepTech深科技 麻省理工科技评论独家合作

这是DT君前不久专访过的一家深度学习初创公司：深鉴科技。这次，他们正式推出了自家的“深度学习处理器”（DPU）。（专访如下，点击标题阅读）

美国时间8月22日，深鉴科技在加州举办的Hot Chips峰会上，首次发布了两款针对深度学习的专用处理架构：用于卷积神经网络（CNN）的Aristotle架构，以及用于稀疏深度神经网络（DNN）和循环神经网络（RNN）的Descartes架构。（点击“阅读原文”可下载深鉴科技Hot Chips 2016演讲PPT）

Hot Chips是世界处理器行业的技术峰会，也是ARM、Intel、NVIDIA、微软等巨头展示最新技术的舞台。芯片架构设计领域每年都涌现大量新生代，但其中只有约20款最新的处理器架构设计能够在这个平台进行展示，这使得该峰会成为世界芯片巨头的必争之地，每年的发表席位大多被ARM、高通、Intel、AMD等处理器巨头占据。

今年，来自于中国的深度学习初创公司深鉴科技，得到了全世界处理器行业专家的认可。公司CEO姚颂有幸登上了Hot Chips的演讲台，这也使得深鉴科技和姚颂本人成为了Hot Chips历史上最年轻的公司与最年轻的主讲人。

深鉴科技CEO姚颂在Hot Chips的演讲照片

姚颂提到， 深度学习专用处理平台必须适应最新的算法 ，如CNN中卷积核越来越小、LSTM中的矩阵尺寸越来越大。而深鉴之所以选择FPGA作为其“深度学习处理器”（DPU）的载体，正是因为其允许较短的开发速度与架构的迭代，同时能够提供合适的性能与功耗、较高的片上存储带宽。

深鉴科技已经实现的一键编译技术。首先，对于神经网络层面进行深度压缩，去除算法连接关系上的冗余；之后，再进行数据量化，去除单个数值在精度要求上的冗余；最后，根据深鉴设计的Aristotle与Descartes架构指令集，当对神经网络模型进行编译，而不进行重新训练时， 仅需要半分钟即可完成从算法模型到可执行指令的全套编译流程。

基于 FPGA 的深度学习解决方案

Aristotle架构

Aristotle架构专为基于CNN的深度学习应用设计，为小尺寸卷积核优化，高效支持1x1，3x3等卷积操作；支持卷积、Pooling、ReLU、Concat、Batch Normalization等多种层，不限制网络层数、规模；支持R-FCN等多种物体检测框架。

深鉴科技开发的用于 CNN 的 Aristotle 架构

Aristotle搭载于Zynq 7020 FPGA上，可取得比NVIDIA Tegra K1 GPU好一个数量级的能效比；如果映射到相应的芯片工艺上，毫无疑问可以取得进一步明显的能效提升。 Aristotle架构可以广泛应用于无人机、安防监控、机器人、自动驾驶等图像相关的各大领域中。

搭载了深鉴 DPU 的无人机

Descartes架构

Descartes架构则专为稀疏DNN/RNN-LSTM设计，支持LSTM中多个矩阵操作的复杂调度，支持各种稀疏率、矩阵尺寸，以及多种非线性函数，搭载与KU系列FPGA， 可以实现比GPU超过一个数量级的能效提升 ，可以广泛用于语音识别、翻译、OCR等多种应用领域。

值得一提的是，深鉴科技在峰会上首次介绍了基于Aristotle架构的深度学习处理平台“雨燕”，该平台将在10月实现批量供货。

“雨燕”平台基于Xilinx Zynq FPGA，支持各类神经网络、多种物体检测框架，并且集成了HOG、KCF等物体追踪常用模块，能够广泛用于无人机、机器人、ADAS等领域。 这也代表着深度学习专用处理平台真正从学术走向了市场。

分割线

深科技招聘自由撰稿人，要求

文笔好，懂科技，稿酬优

联系：[email protected]

IEEE中国是DeepTech深科技的战略合作伙伴，想要获得最新的科技资讯和会议信息，敬请关注IEEE中国。

MIT Technology Review 中国唯一版权合作方，任何机构及个人未经许可，不得擅自转载及翻译。

分享至朋友圈才是义举

DeepTech深科技

ID：mit-tr

长按关注