美国时间8月22日,深鉴科技在加州举办的Hot Chips峰会上,首次发布了两款针对深度学习的专用处理架构:用于卷积神经网络(CNN)的Aristotle架构,以及用于稀疏深度神经网络(DNN)和循环神经网络(RNN)的Descartes架构。(点击“阅读原文”可下载深鉴科技Hot Chips 2016演讲PPT)
Hot Chips是世界处理器行业的技术峰会,也是ARM、Intel、NVIDIA、微软等巨头展示最新技术的舞台。芯片架构设计领域每年都涌现大量新生代,但其中只有约20款最新的处理器架构设计能够在这个平台进行展示,这使得该峰会成为世界芯片巨头的必争之地,每年的发表席位大多被ARM、高通、Intel、AMD等处理器巨头占据。
今年,来自于中国的深度学习初创公司深鉴科技,得到了全世界处理器行业专家的认可。公司CEO姚颂有幸登上了Hot Chips的演讲台,这也使得深鉴科技和姚颂本人成为了Hot Chips历史上最年轻的公司与最年轻的主讲人。
深鉴科技CEO姚颂在Hot Chips的演讲照片
姚颂提到,深度学习专用处理平台必须适应最新的算法,如CNN中卷积核越来越小、LSTM中的矩阵尺寸越来越大。而深鉴之所以选择FPGA作为其“深度学习处理器”(DPU)的载体,正是因为其允许较短的开发速度与架构的迭代,同时能够提供合适的性能与功耗、较高的片上存储带宽。
深鉴科技已经实现的一键编译技术。首先,对于神经网络层面进行深度压缩,去除算法连接关系上的冗余;之后,再进行数据量化,去除单个数值在精度要求上的冗余;最后,根据深鉴设计的Aristotle与Descartes架构指令集,当对神经网络模型进行编译,而不进行重新训练时,仅需要半分钟即可完成从算法模型到可执行指令的全套编译流程。
基于FPGA的深度学习解决方案
Aristotle架构
Aristotle架构专为基于CNN的深度学习应用设计,为小尺寸卷积核优化,高效支持1x1,3x3等卷积操作;支持卷积、Pooling、ReLU、Concat、Batch Normalization等多种层,不限制网络层数、规模;支持R-FCN等多种物体检测框架。
深鉴科技开发的用于CNN的Aristotle架构
Aristotle搭载于Zynq 7020 FPGA上,可取得比NVIDIA Tegra K1 GPU好一个数量级的能效比;如果映射到相应的芯片工艺上,毫无疑问可以取得进一步明显的能效提升。Aristotle架构可以广泛应用于无人机、安防监控、机器人、自动驾驶等图像相关的各大领域中。
搭载了深鉴DPU的无人机
Descartes架构
Descartes架构则专为稀疏DNN/RNN-LSTM设计,支持LSTM中多个矩阵操作的复杂调度,支持各种稀疏率、矩阵尺寸,以及多种非线性函数,搭载与KU系列FPGA,可以实现比GPU超过一个数量级的能效提升,可以广泛用于语音识别、翻译、OCR等多种应用领域。
值得一提的是,深鉴科技在峰会上首次介绍了基于Aristotle架构的深度学习处理平台“雨燕”,该平台将在10月实现批量供货。
“雨燕”平台基于Xilinx Zynq FPGA,支持各类神经网络、多种物体检测框架,并且集成了HOG、KCF等物体追踪常用模块,能够广泛用于无人机、机器人、ADAS等领域。这也代表着深度学习专用处理平台真正从学术走向了市场。
深科技招聘自由撰稿人,要求
文笔好,懂科技,稿酬优
联系:[email protected]
IEEE中国是DeepTech深科技的战略合作伙伴,想要获得最新的科技资讯和会议信息,敬请关注IEEE中国。
MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。
分享至朋友圈才是义举