专栏名称: 智慧产品圈

营造智慧产品生态圈

人工智能AI芯片你了解多少？ | 智慧产品圈

智慧产品圈 · 公众号 · · 2017-09-28 07:00

正文

随着人工智能市场的升温，如何构建这些系统的困惑也随之升温。

每个人的参考点不同，但有一点是无疑的，人工智能将是随之而来的一件大事，它将在未来扮演一个重要角色。

这就说明了为什么这个行业在过去18个月中如此狂热。一些大公司为了AI的研发支付数十亿美元甚至更多收购初创公司，全球各国政府向大学和研究院投入数十亿美元开发AI芯片及系统。一场全球性的竞赛正在进行中，其目标是创建最佳的体系结构和系统，处理人工智能需要计算的海量数据。

关于这个行业的市场预测也在升温。根据Tractica研究所的报告，到2025年AI产业的年销售额可达368亿美元。据称，到目前为止，已经确定了27个不同的工业部门和191个人工智能应用案例。

图1、AI营收增长预测（来源：Tractica）

但在深入研究后很快发现，并没有一个最好的单一方法来处理人工智能。事实上，甚至没有一个一致的定义，什么是AI或AI需要分析的数据类型？

“有三个问题需要解决，”Onespin Solution的总裁兼CEO Raik Brinkmann说。“首先，需要处理大量的数据；第二是要建立并行处理互连；第三是电源问题，耗电与移动的数据量有直接关系。因此，需要从冯诺依曼架构转变到数据流体系结构，但这个数据流结构究竟是什么样子呢？”

目前为止很少有清晰的答案。这就是为什么在这个市场上的首选方案包括了各种现成的CPU、GPU、FPGA和DSP组合。而新的设计正在开发中，例如Intel、谷歌、NVIDIA、高通和IBM，还不清楚哪一家的方法会成功。现在看来至少需要一个CPU控制这些系统，但由于数据流是并行的，还需要各种类型的协处理器协同工作。

AI的大部分处理涉及矩阵乘法和加法。大量的GPU并行处理提供了一个廉价的方法，但惩罚是高功耗。内置DSP模块和本地存储器的FPGA更节能，但价格更昂贵。这也是需要软件和硬件共同开发的部分，但是大部分软件远远落后于硬件。

“在研究和教育机构有大量的活动，”Mentor Graghics的董事长兼CEO Wally Rhines说。“有新处理器开发竞赛，也有用于深度学习的标准GPU，同时还有一大堆人在和CPU一起工作。目标是使神经网络的行为更像人脑，这将刺激新一波的设计浪潮。”

当涉及到AI时，视觉处理备受关注，很大程度上是因为当特斯拉的自主驾驶汽车面世时，特斯拉在15年前就开始研发这种自主驾驶能力了。这为该项技术、图像处理传感器、雷达和激光雷达收集数据所需的芯片，以及总体系统架构开辟了一个巨大的市场。许多经济学家和咨询公司都在关注这个市场之外AI将如何影响整体生产力。最近来自Accenture的报告预计，人工智能将使一些国家的国内生产总值增加一倍以上（见下图2）。同时，将会造成大批失业，整体营收的提高之大无法忽视。

图2、AI的预期影响

Synopsys董事长兼首席执行官Aart de Geus指出，电子学分三波：计算和网络、移动、数字智能。在数字智能中，焦点从技术本身转移到它能为人们做什么？

“你会看到神经网络IP处理器的面部识别技术和具有视觉处理的汽车，”Aart de Geus说。“这个技术的另一面是机器学习，目前正在开发的重点是更多的功能和更快的处理速度。这将推动7nm、5nm和更进一步技术节点的开发。”

目前的方法

自主驾驶中的视觉处理是当前人工智能研究的重要内容，但这项技术在无人飞行器和机器人方面也发挥着越来越大的作用。

“人工智能在成像中的应用，计算复杂度很高，”Achronix总裁兼CEO Robert Blake说。“无线技术，用数学很好理解。但图像处理，就有点像野蛮的西部。这是一个非常不同的工作量。这个市场需要5到10年的时间才能实现，当然，可编程逻辑也有很大作用，因为需要以高度并行的方式实现可变精度运算。”

FPGAs应用于矩阵乘法是非常好的。最重要的是，可编程为设计增加了必要的灵活性和可验证性，因为有时候还不清楚所谓的智能会不会存在于设计中。用于决策的一些数据在本地处理，还有一些在数据中心处理。但根据实现的方式这个比例是可以变化的。

对人工智能芯片和软件设计来说，还有一个大的变化。虽然人工智能大的蓝图没有改变太多，但大部分被贴上人工智能标签的东西比真正的人工智能更接近机器学习，这导致对如何构建这些系统的理解已经有了重大变化。

“比如汽车，人们现在做的是把现有的东西放在一起，”Arteris营销副总裁Kurt Shuler说。“尽管一个真正有效的嵌入式系统能够学习，但是它需要一个高效的硬件系统。这方面有几个正在使用的不同方法。如果你观看视觉处理，你所做的就是试图弄清楚一个设备看到的是什么，以及你是如何作出推断来的。这可能包括来自视觉传感器、激光雷达和雷达的数据，然后应用专门的算法计算。这里所发生的很多事情都是试图用深层和卷积神经网络来模拟大脑中正在发生的事情。”

这与真正的人工智能不同之处在于，目前最先进的技术是能够检测到并能够回避对象，而真正的人工智能则增加了推理能力。比如怎样穿过一大群正在过马路的人群，一个孩子追逐一个球会不会跑到街上？在前者中，判断是基于大量数据处理和预先编程行为的各种传感器的输入。在后者中，机器将能够做出价值判断，如转弯避免孩子许多可能的后果，这才是最好的选择。

“传感器融合是上世纪90年代来自飞机的一个概念，”Shuler说。“我们把它变成一个普通的机器可以压缩的数据格式，如果你在军队，担心有人朝你开枪；你在汽车上，有人推着婴儿车在你面前经过。所有这些系统都需要非常高的带宽，并且这些系统都必须有安全性。最重要的是，你必须保护数据，因为安全问题正变得越来越大。你需要的是计算效率和编程效率。”

这是当今许多设计中所缺少的，因为许多开发者使用的都是现有的方案。

“如果可以优化网络、优化问题、比特数最小化，并利用卷积神经网络定制的硬件，你可以在功率降低方面实现一个2到3倍的增长量，”Cadence高级结构设计师Samer Hijazi说。“效率源于软件算法和硬件IP。”

但谷歌正试图改变这个公式。公司开发了张量处理单元（TPUs），这是专门为机器学习开发的ASIC。为了加快智能发展，2015年谷歌已将tensorflow软件源代码开放。

图3、谷歌的TPU板（来源：谷歌）

其他人也有自己的平台，但别指望会成为最终产品。这只是一种进化，并没有人确切的知道人工智能在未来十年将如何演变，部分原因是这种技术仍有使用的案例。在一个领域中有效的东西，如视觉处理，不一定在另一个应用中有效，例如确定一个气味是危险的还是良性的，或者两者都有。

“我们像在黑暗中摸索，”Netspeed市场营销和业务发展副总裁Anush Mohandass说。“我们知道如何进行机器学习和人工智能，但在这一点上，它们实际上如何工作和如何收敛是未知的。目前的方法是拥有大量的计算能力和不同类型的计算引擎CPU、用于神经网络应用程序的DSP，并且需要确保它工作。但这只是人工智能的第一代，其重点是放在计算能力和异质性上。”

然而，随着问题的解决变得更具针对性，这一点预计会有所改变。正如早期的物联网设备版本一样，没有人清楚市场会如何演义，所以系统公司不惜血本投入，利用现有的芯片技术将产品推向市场。举智能手表的例子，结果是电池在充电后只能维持几个小时。随着为这些特定应用开发的新芯片，功耗和性能与更具针对性的功能相结合而得到平衡，更智能的分配处理本地设备和云之间的解析，并更好地理解瓶颈在设计中的位置。

“面临的挑战是要找到你不知道的瓶颈和约束，”ARM建模技术总监Bill Neifert说。“但是工作负载不同，处理器可能与软件交互不同，软件本质上是一个并行应用程序。因此，如果您正在查看诸如财务建模或天气图这样的工作，那么每一个强调底层系统的设计方法都是不同的。你只有钻进去才能明白。”

他指出，软件方面正在解决的问题需要从更高层次上来看待。因为它使他们更容易控制和修复，这像拼图是一个重点的地方。随着人工智能进入更多的市场，所有这些技术都需要发展，以达到与一般技术行业相同的效率，特别是半导体行业过去已经证明了这一点。

“但异质性的负面影响是，整个分而治之的方法土崩瓦解，”Mohandass说。“因此，解决方案通常涉及过度配置或配置不足。”

新的方法

人工智能随着越来越多的案例被用于超越自主车辆，应用有逐步扩大趋势。

这就是为什么英特尔去年8月买下Nervana的原因。Nervana开发的2.5D深度学习芯片，利用一个高性能的处理器核心，移动数据到高带宽的内存。目标是比基于GPU的解决方案减少100倍的时间训练深度学习模型。

图4、Nervana AI芯片（来源：Nervana）

“这些都很像高性能计算芯片，这基本上是2.5D芯片采用了一个硅中介层，”eSilicon营销副总裁Mike Gianfagna说。“你需要大量的吞吐量和超高带宽的内存。在这方面我们已经看到不少公司，虽然还不算很多，尽管有点儿早。当你谈到实现机器学习和自适应算法时，以及如何将这些传感器和信息流集成起来，这是极其复杂的。如果您看一个汽车，您将从多个不同来源传输数据，并为避免冲突添加自适应算法。”

解决这些问题面临两个挑战：一是可靠性和认证，另一个是安全性。

随着人工智能发展，可靠性需要在系统层面考虑，包括硬件和软件。ARM在十二月份收购Allinea给我们提供了一个启示。另一个是来自斯坦福大学，那里的研究人员正试图从软件量化修剪计算的影响。他们发现大规模切割或修剪对最终产品没有显著影响。加州大学伯克利分校一直在开发一种类似的计算方法，基于小于100％的计算精度。

“粗粒式修剪与细纹式修剪相比不影响精度，” 斯坦福大学一位正在研究节能深度学习的博士生Song Han说。在斯坦福开发的一个稀疏矩阵可以减少10倍的计算量和小于8倍的内存占用，比DRAM少用120倍的能源。这种在斯坦福称之为高效的语音识别引擎，压缩导致了加速推理。（这些研究成果发表在Cadence最近的嵌入式神经网络峰会上。）

量子计算为AI系统增加了另一种选择。Leti的CEO Marie Semeria说，量子计算是她的团队的未来方向之一，特别是在人工智能应用领域。IBM研究科学和方案副总裁Dario Gil解释说，使用经典计算，只有四分之一的几率猜到哪四张牌是红色的，如果其他三张是蓝色的话。使用量子计算机和量子纠缠叠加，通过颠倒纠缠，系统将每次都提供正确的答案。

图5、量子处理器（来源：IBM）

结论

人工智能不是单一的事情，因此没有一个单一的系统在任何地方都能最佳工作。但是对AI系统有一些一般要求，如下图所示。

图6、人工智能基础（来源：Onespin）

AI已经在许多市场应用，所有这些都需要广泛的改进、昂贵的工具和生态系统支持。多年来，依靠缩放器件来改进功耗、性能和成本，整个市场都在反思它们将如何走向新市场。这对结构设计师来说是一个巨大的胜利，它不仅为设计团队增加了巨大的创意选择，而且从工具和IP供应商到封装和工艺开发，也会沿着这条路继续大规模的发展。就像重启高科技产业的按钮，未来几年将对整个生态系统的发展都是有益的。

翻译：韩继国智慧产品圈顾问

✄-----------------------------------

投稿或寻求报道：[email protected]
广告&商务合作：[email protected]

✄-----------------------------------

（可添加首席分析师微信号：jody_li 了解详情）

点击”阅读原文“获取《2017-2020年中国智能门锁技术与应用市场分析报告》（电子精华版/纸质完整版）订购入口：