谭洪贺,资深IC工程师。博士毕业于清华大学,多年一直从事于数字集成电路开发工作。从DSP、ASIP到特定加解密算法的ASIC低功耗实现,从音视频编解码的高性能设计到计算机视觉、语音识别的高效能实现,逐步进入AI领域。
现任地平线机器人技术资深IC工程师,深度参与AI算法在芯片端的实现工作。
本文首发于谭洪贺个人知乎,从ISSCC2017的session 14 Deep Learning Processor的几篇文章出发,分析同行们都用了哪些方法来降低DL 加速器和处理器的功耗,提高能效。
本文适用读者:对Deep Learning算法有一定了解的IC工程师,对IC设计和计算机架构有一定了解的算法工程师。
先来一张slide镇镇场,tutorial上Verhelst总结了近几年VLSI和ISSCC会议上发表的一些结果。其中,灰色的图标应该都是ISSCC2017以前的结果。这张图体现了性能、错误率、能效三方面的trade off。
性能上,大家似乎很难超GPU,但是能效上,可以算是秒杀。大家都喜欢拿自己的数据和NVIDIA的GPU比较,然后可以给出很漂亮的对比结果,甩出NVIDIA几条街。
但是大家也不要兴奋,学术界成果给出的数据,总是不能闭着眼睛就接受的。大家都是过来人,都懂的。
目录
1、使用低功耗工艺。涉及14.1,14.5
2、降低数据计算功耗
2.1 降低weight量化位数。涉及14.2
2.2 优化乘法。涉及14.2
2.3 降低计算精度。涉及14.5
2.4 稀疏化。涉及NVIDIA,combricon,leuven
3、降低数据翻转功耗。涉及14.3
4、降低数据存储访问功耗。涉及14.6,14.7
5、存储器上的新花样
原文链接:
https://mp.weixin.qq.com/s/Tvk2QIAAZsiEbcA8Pe-mfQ