Hot Chips 2017 上,微软团队推出了一个新的深度学习加速平台,名为“脑波计划”(Project Brainwave),旨在能够提升深度学习模型云服务方面的性能与灵活性。本文作者在通过搜集资料进行深入分析,大胆预测:脑波计划的发展前景可能会优于谷歌的 TPU。 Brainwave 项目为微软公司面向各类实时人工智能服务打造的专用平台,其基于英特尔 Stratix 10 FPGA 构建而成。
谷歌公司则利用固定功能 ASIC(即专用集成电路)打造出其张量处理单元,简称 TPU。ASIC 在灵活性方面显然不及微软采用的 FPGA 型设计方案。
本文原作者在这里作出大胆预测,即 Brainwave 项目及其它基于 FPGA 的深度学习加速器方案很可能在发展前景方面优于谷歌的 Cloud TPU。
Brainwave 项目的实时 AI 能力亦将帮助微软公司缩小与 AWS 之间的云业务竞争差距。
搜索引擎巨头百度公司也在其 256 核心 XPU 云 /AI 加速处理器之上采用一套 Xilinx FPGA 设计方案(而非 ASIC)。
在微软与 Alphabet(即谷歌母公司)之间的这场云计算 / 深度学习对决当中,胜利女神似乎更偏向于前者。目前,微软已经成为仅次于 Amazon 旗下 AWS 的第二大云 IaaS(基础设施即服务)供应商。另外,微软公司亦在企业级 SaaS(软件即服务)领域扮演着当之无愧的领导者角色。
凭借着 Brainwave 项目带来的强大平台,微软 Azure 很可能会进一步扩大其与 Google Cloud 之间的领先优势。Brainwave 项目属于微软专门面向实时人工智能(简称 AI)方案打造的实时软件 / 硬件平台,并且与 Google Cloud 所采用的张量处理单元(简称 TPU)属于直接竞争关系。考虑到 Azure 已然成为增长速度最快的云计算基础设施服务,Brainwave 项目的加入无疑将为其未来发展带来更为显著的提振作用。
利用这款更强的深度学习与 AI 加速平台,微软公司最终将从云 AI 服务市场需求的持续增长当中获得巨大收益。具体来讲,AI、深度学习与机器学习等工作负载将极大提升云计算行业的整体规模。根据 Tractica 作出的预测,到 2025 年,人工智能软件的总体收入将可能达到 598 亿美元。
IDC 公司同样作出乐观估计,认为 AI 业务到 2020 年将实现 400 亿美元收入总值。因此,全部云计算企业都将拥有明确的理由加大对云计算 / 深度学习服务的投入力度。事实上,目前在人工智能领域快速推进的十大技术巨头当中,也有相当一部分属于 IaaS、SaaS、PaaS 以及托管私有云领域的领军企业。
Brainwave 项目为何比谷歌 TPU 更具吸引力
未来的深度学习 / 人工智能云计算服务客户可能会意识到 Brainwave 项目更具吸引力。谷歌 ASIC(即专用集成电路)Cloud TPU 的弊端在于,其在灵活性方面远逊于 Brainwave 项目。具体而言,Brainwave 项目基于英特尔的 Stratix 10 FPGA(即现场可编程门阵列)。
下图为微软 Brainwave 项目中供实时人工智能应用使用的加速器板。尽管谷歌公司对 ASIC 十分看好,但微软方面则自 2011 年以来一直在部署 Altera FPGA 加速器,用于支持其 Azure 云以及数据中心服务器农场。可能也正因为微软方面对于 FPGA 加速器长久以来的青睐,才促使英特尔公司斥资 167 亿美元收购 Altera。
(图片来源:微软公司)
谷歌公司并没有公布其浮点运算性能规格,但表示第二代 ASIC TPU 能够实现每秒 180 万亿次运算。微软公司的早期测试结果则显示,其 Stratix 10 FPGA 深层神经网络处理器(简称 DNN)在其定制化 FP8 设置条件下可实现每秒 39.5 万亿次运算能力。后续改进应该还能够将 Stratix 10 的 FP8 性能水平提升到新的高度。
需要强调的是,基于 ASIC 的张量处理单元是否较微软 Brainwave 项目内 Catapult 2 等加速器拥有更强性能表现其实并不重要。云计算企业 / 订阅客户需要的是最大程度获取投资回报。ASIC 硬件在设计思路上仅能够以最佳性能处理一类任务,而 FPGA 处理器则可进行多次编程以确保在完成当前应用 / 实现任务之后,转而执行其它针对性操作。
换句话来说,成本高昂的 ASIC 张量处理单元服务器机架设计往往会因其初始固定应用失去盈利能力或者成为冗余资产后,彻底沦为无用的垃圾。相比之下,微软公司的 Brainwave 项目则可作为普适性深度学习推理加速器。而在相关任务完成之后,客户能够对其重新编程并转而利用其加速各类传统数据中心任务,具体包括工资单生成、财会计算、人力资源管理以及 CRM 等等。
谷歌公司目前是惟一一家使用 / 推广 ASIC 张量处理单元的厂商。据了解,Facebook、Amazon 以及其它互联网巨头并无意支持 ASIC TPU 在深度学习 / 数据中心领域的应用。很可能是考虑到 ASIC 糟糕的灵活性表现,中国搜索引擎巨头百度公司才选择跟随微软选择 FPGA 支撑自家云计算的脚步。具体来讲,百度公司的 256 核心 XPU 同样采用 FPGA。不过与微软的英特尔支持型 Brainwave 项目不同,百度公司决定采用 Xilinx 提供的 FPGA 方案。
(图片来源:NextPlatform 网站)IBM 公司的 OpenPower 生态系统目前也支持利用 GPU 或者 FPGA 加速器构建超大规模服务器设计方案。IBM 公司并没有提到任何关于 ASIC 类服务器设计的发展思路。这意味着除了谷歌一家的 ASIC 单人秀之外,其它大多数同业企业都将 FPGA 视为 AI 领域的最佳选项。
除了谷歌一家的 ASIC 单人秀之外,其它大多数同业企业都将 FPGA 视为 AI 领域的最佳选项。
微软公司目前的 AI 发展态势值得肯定。作为一款实时人工智能平台,Brainwave 项目将给微软 Azure 带来巨大助力。而基于 FPGA 的数据中心与深度学习参考加速器设计方案也将帮助 Azure 缩小与 AWS 之间的市场竞争差距。此外,Brainwave 项目的设计思路也将令专注于 ASIC 的 Google Cloud 很难在竞争中占得上风。
虽然必应搜索引擎一直无法在人气上与谷歌搜索引擎相提并论,但微软公司完全可以通过在云计算基础设施领域占据先机来弥补这一不足。另外值得一提的是,AWS 还没有公布任何新型数据中心加速器方案——Amazon 当前采取的是租用英伟达公司 GPU 型深度学习平台的实现思路。
基于 FPGA 的加速器方案还将帮助微软公司吸引到更多活跃的第三方网站使用其 Web 服务器。Netcraft 在 2017 年 6 月的调查报告中指出,谷歌公司已经在活跃网站客户数量方面超过了微软。由此可见,任何能够帮助微软重新压制谷歌的因素都将受到微软投资方的高度重视。向网站运营方出租服务器已经成为 IaaS 行业当中的一大业务重心,而谷歌在这方面的表现目前已经领先于微软。
关注 AI 前线公众账号(直接识别下图二维码),点击自动回复中的链接,按照提示进行就可以啦!还可以在公众号主页点击下方菜单“加入社群”获得入群方法~AI 前线,期待你的加入!
人工智能发展到今天,几乎已经无处不在了。从传媒到零售,从教育到金融,从家居到医疗,从安防到物流,人工智能正在一个又一个行业掀起变革!新时代的来临,必将淘汰一批人,同时成就一批人。摆在技术人面前的,是一个巨大的挑战,也是一个难得的机遇,但身为公司技术领导人的你,该向谁学习?——极客邦旗下的高端技术领导者社群 EGO,汇聚全国近 400 位技术大牛,链接技术圈顶级资源,提供丰富的学习交流形式,助力技术领导者开拓视野、提升能力、解决问题、达成合作,精准把握时代脉搏!9 月 1 日至 9 月 15 日,EGO 会员招募季明天正式开启,抓紧报名!点击阅读原文查看招募季详情。