科大讯飞一飞冲天,令当前市场中的大多数人摸不着头脑。
尤其身后还有一众头顶AI光环的小弟跟风猛涨,让人惊呼A股已经提前进入人工智能时代。
没有无欲无故的爱,只有后知后觉的恨。
我们无从知道现在上车是否还来得及,但能够知道的是,这一高速专列名为“寒武纪”。
就在上周五(8月18日),国内人工智能芯片初创企业北京中科寒武纪科技有限公司,宣布完成1亿美元A轮融资。
据媒体报道,这一被称为全球AI芯片界首个独角兽的初创公司,其战略投资方包括阿里巴巴、联想、科大讯飞等。 尤其科大讯飞,系其原始股东。
自滴滴之后,中国科技产业界已经在独角兽断档期盘亘数年有余,寒武纪的横空出世,似乎有望再度点燃希望之火。
从寒武纪的公司全称不难看出,这是一家中科院系的企业;根据其工商信息显示,北京中科算源资产管理有限公司确系其主要的原始股东之一。
而查询其过往新闻亦可见,昨日(8月21日)涨停的中科曙光,早在2016年4月,曾与寒武纪达成过战略合作关系。
如是说来,近期从科大讯飞一枝独秀,到后续中科信息接连涨停,再到昨日中科曙光坚实封板,背后的逻辑中,贯穿着一条名为“寒武纪”的主线。
AI战略之于中国的意义不遑多说,尤其中科院系统背书,这一概念在近期走出独立行情,足见市场中从不缺少聪明的资金。
“寒武纪”究竟意味着什么?不妨让我们分享一份来自安信证券的研报梗概。
寒武纪:人工智能中国芯
人工智能将推动新一轮计算革命,而芯片行业作为产业最上游,是人工智能时代的开路先锋,也是人工智能产业发展初期率先启动、弹性最大的行业。
信息时代产生了英特尔这样的千亿市值芯片巨头,拥有更大应用市场的人工智能时代必将孕育出更多的“英特尔”。
最近一年多的时间内,先后发生了这样几件大事:
英伟达股价再度上涨超过4倍,继续领涨美国科技股;
2016年7月20日,软银宣布将以243亿英镑(约合320亿美元)收购英国芯片设计公司ARM;
2016年9月,英特尔收购视觉芯片公司movidius;
2017年3月,英特尔宣布以153亿美元收购Mobileye;
2017年8月,国内人工智能芯片明星公司寒武纪宣布A轮融资高达1亿美元,成为全球AI芯片领域首个独角兽。
芯片是下游IT产业的前瞻指标,近一年AI芯片的繁荣实际上正在向我们预示着人工智能产业未来空前广阔的市场。
但由于AI芯片是一个非常前沿专业的领域,不少人仍然对这一领域有疑惑和误解,再加上近一年行业发生的巨大变化,我们试图在一年后再对这一领域的关键问题进行分析阐述。
一、为什么一定需要人工智能芯片?
投资者关注的核心,就是一定要明白现在大家讲的人工智能,跟我们以往的传统计算机软件有什么差别,判断标准是它们解决的问题:
传统计算机软件解决的是确定问题,即可以通过固定的流程或者规律来描述(比如从1加到100),通过编程交由计算机执行,那么我们设计计算机基础芯片CPU的核心目的是帮助我们一条一条有序的执行我们编译好的指令。
所以IBM把传统的计算机时代又称为编程时代,新的计算机时代称为认知时代。
现在真正意义上的人工智能解决的是欠定问题,即这些问题难以用固定的流程或者规律描述,它的准确答案取决于我们对于这些问题的反应。
典型的例子就是一个3-4岁的小朋友就可以很轻松从世间万物中认出狗或者猫,但传统计算机方法通过总结所有猫的固定特点来编程识别非常困难。
而这一瓶颈恰被此轮以深度学习算法为代表的人工智能技术突破了。所谓深度学习,简单说就是用数学方法模拟人脑神经网络,用大量数据训练机器来模拟人脑学习过程,其本质是把传统算法问题转化为数据和计算问题。
所以对底层基础芯片的要求也发生了根本性改变:人工智能芯片的设计目的不是为了执行指令,而是为了大量数据训练和应用的计算。
图1:传统计算与神经网络的差别
客观的讲,CPU拥有更好的通用性,几乎任何计算任务都可以分解为一条条指令让CPU完成。我们需要人工智能芯片并非CPU不能用,而是效率太差。
深度学习对计算资源需求几乎是空前的,这一点我们从初代AlphaGo所需要的计算资源就可以看到,所以迫切需要一款适合的芯片能够高效计算深度学习任务,而GPU因为其极佳的并行计算特性恰逢其实。
图2:初代AlphaGo需要1920个CPU核心和280块GPU
数据来源:谷歌、百度
二、人工智能芯片市场一定会被英伟达垄断吗?
GPU的天然并行计算优势使得英伟达在人工智能时代如日中天,但我们可以非常肯定的预判:人工智能芯片市场不会被英伟达垄断。
理由是人工智能芯片跟我们传统意义上的芯片有很大的不相同,它其实包括两个计算过程:
1、训练(Train);
2、应用(Inference)。
实际上谷歌首先开始提出设计TPU芯片的目的时就指出了英伟达的GPU在训练阶段具有优势,但在执行阶段效率并不高。
图3:深度学习任务训练和预测环节对计算资源需求有很大差别
数据来源:百度
此外人工智能芯片和传统计算芯片一样,同时还包括两大类市场:
数据中心为代表的后端市场;
广义终端市场。
传统计算机时代在数据中心服务器市场几乎垄断的英特尔,在智能终端市场一样不敌ARM。
而如果我们关注英伟达近年来的财务报表,其真正意义上人工智能高增长的业务其实就只是数据中心业务。
图4:英伟达2016-2017年各季度不同细分市场营收(百万美元)及同比增速一览
以上特点实际构建了四种不同的芯片应用场景:
图5:人工智能芯片四种应用场景
实际上英伟达同时满足四种应用需求并都具备垄断性优势的可能性不大,目前主要优势也只是在数据中心方面,但也面临谷歌TPU的强劲竞争,而这种竞争的核心将是生态的竞争:
1、谷歌的人工智能系统TensorFlow生态趋于成熟。
基本上任何线性代数矩阵计算任务都可以通过TensorFlow提供的工具来帮助用户组装,自动分配到各种计算设备(包括TPU设备)完成并行地执行运算。
而底层计算需求的规整使得采用ASIC(专用定制设计)将极大提升芯片计算效率,全新的Cloud TPU计算能力惊人,而且同时针对机器学习的训练和应用两方面设计。四个处理芯片每秒可完成180 tflops计算任务。
将 64 个 Cloud TPU 相互连接可组成谷歌称之为Pod的超级计算机,Pod将拥有11.5 petaflops的计算能力(1 petaflops为每秒进行1015次浮点运算)。
图6:数据流图中这些数据“线”可以代表传输多维数据数组,即“张量”(tensor),张量从图中流过的直观图像是这个工具取名为“Tensorflow”的原因。
数据来源:谷歌
2、 Cloud TPU 将加入谷歌云计算平台,并整合进谷歌计算引擎(Google Compute Engine),即普通用户在云端就可以调用这些世界上最领先的计算芯片来训练自己的人工智能任务。
谷歌将为开发者们提供最好、最广泛的硬件选择,从CPU、到 GPU(包括 Nvidia 上周最新发布的 GPU 产品)、再到 TPU。
图7:cloud TPU由四块芯片组成
数据来源:谷歌
对于终端市场来说,对芯片的功耗、面积、价格都有极为苛刻的要求,目前终端人工智能芯片主要是执行神经网络算法的功能,安防和自动驾驶是最大的两个市场。
对于终端训练功能芯片目前尚不成熟,但可能是未来几年发展的重点,可以想象通过芯片不断进步使得谷歌大脑规模的神经网络嵌入在随身携带的手机里,将会带来怎样的产业变革。
虽然英伟达也针对终端市场推出了Jetson TX系列芯片,但价格、功耗等综合考量并不占据绝对优势。
而以Movidius为代表的新兴企业成则为了业界新秀。
这也不难解释英特尔为何先后收购了movidius和Mobileye两家公司,他们分别对应机器视觉和自动驾驶两个最大的终端市场。
终端领域人工智能芯片有两种类型:
第一,采用较为通用的处理器,如movidius、英伟达的Jetson系列芯片,通用性较好,能够运行各类神经网络算法,但价格相对较高,主要针对高端市场。
就像当年 iPhone 5s 加入了M7协处理器,针对计算机视觉领域在一些终端设备上提供一块专门的低功耗处理芯片,在处理深度学习的问题时更加高效,可以针对卷积神经网络的训练特征从芯片级别进行优化,从而促进基于深度学习的计算机算法在终端设备上的普及。
这类芯片的代表就是刚刚被intel收购的Movidius公司。
它们推出 Myriad 系列VPU(视觉处理器)平台可以用于3D感知及扫描建模的芯片,可以支持室内导航、360度全景视频处理等机器视觉应用,其视觉处理性能超出其它处理器平台十倍,功耗则低一个数量级,而尺寸和价格都仅为五分之一。
Myriad 的第二代VPU采用全新的体系架构,提升性能达到二十倍,增强视觉处理能力使之成为新的VPU标杆。
图8:movidius架构,其中的关键在于加速深度学习算法的线性代数运算矩阵
图9:movidius芯片的应用场景
数据来源:movidius
第二,将已经训练好的较为通用的智能识别类算法直接固化为IP,嵌入到SOC芯片中,优点是因为是专用芯片(ASIC),量产后功耗、价格等都极具优势,但功能拓展性有限。
例如在安防领域,商汤科技的SenseEmbed将深度学习人脸识别算法通过高性能计算极致优化,搭建底层算法最优解决方案。
利用商汤科技自主研发的PPL、FastCV高性能异构并行计算组件库,能将复杂的深度学习算法集成在一张小小的芯片中,进行毫秒级识别速度。
目前已支持海思Hi3519/Hi3516A/Hi3516D、飞思卡尔IMX6、ARMCortexA7等多款主流嵌入式芯片,将为硬件设备提供最优深度学习算法引擎。
三、人工智能芯片的形式是GPU、FPGA还是ASIC?
实际上这本身并不是一个问题,GPU、FPGA、ASIC无非是在通用性和性能两个标准的权衡下的选择。不只是人工智能,在很多传统芯片应用领域都是通用芯片、FPGA、AISIC共存的。
打个形象的比方,我们设计一款人工智能芯片就像设计一个某种功能的房子,那么我们有三种选择:
买一个已有的比较通用的房子,然后改变内部的软件设施来让这个房子达到我们需要的功能,优点是对于用户代价小,但肯定没法达到性能最大化,这就对应了通用型芯片;
买一个半成品的房子,我们可以随时改变房子里面的各个房间格局,优点是相对第一种房子性能肯定会更贴近我们需求,而且也保证了一定灵活性,如果需求有改变,可以随时再改变内部房间格局,这对应了FPGA芯片;
完全一块砖一块砖按自己需求重新搭建一个房子,这种肯定性能上最能贴近我们的需求,但是一次性投入太大,如果不是确定性需求需要冒风险,这就对应ASIC芯片。
所以我们可以不难理解为什么大部分创业公司都会采用英伟达GPU这类生态成熟的通用芯片,为什么在人工智能算法没有最终成熟需要不断改进时FPGA会出现在一些应用领域,而谷歌这类财大气粗自己需求量很大的公司自己用ASIC的TPU。
从对于机器学习算法的性能和功耗的角度来说:FPGA 可以开发出为机器学习算法专用的架构,但是 FPGA 本身的峰值性能较 GPU 要差很多。
FPGA 和 GPU 哪个跑机器学习算法更强(平均性能更好),完全取决于 FPGA 架构优化能否弥补峰值性能的劣势。
1、FPGA 实现的机器学习加速器在架构上可以根据特定应用优化所以比 GPU 有优势,但是 GPU 的运行速度(>1GHz) 相比 FPGA 有优势 (~200MHz)。
所以,对于平均性能,看的就是 FPGA 加速器架构上的优势是否能弥补运行速度上的劣势。
图10:FPGA与GPU性能与功耗的比较
数据来源:百度
2、功耗方面,虽然 GPU 的功耗(200W)远大于 FPGA 的功耗(10W),但是如果要比较功耗应该比较在执行效率相同时需要的功耗。
如果 FPGA 的架构优化能做到很好以致于一块 FPGA 的平均性能能接近一块 GPU,那么 FPGA 方案的总功耗远小于 GPU,散热问题可以大大减轻。
反之,如果需要二十块 FPGA 才能实现一块 GPU 的平均性能,那么 FPGA 在功耗方面并没有优势。
而对于AISC芯片出现的领域一般会有下面几个特征:
市场需求成熟确定,比如谷歌自己的数据中心芯片需求量足以影响整个行业,干脆自己投入设计TPU,或者市场确定将成熟的下游巨大市场,比如安防领域。
涉及到国家战略,可以不惜代价建立自己的应用生态弯道超车,比如寒武纪深度学习处理器,其ASIC芯片已经流片量产。
我们可以关注一个新闻:据科技部3月13日消息,科技部副部长李萌率队前往寒武纪芯片公司就人工智能领域技术和产业发展进行专题调研,创新发展司司长许倞、高新技术产业化司司长秦勇、中关村管委会主任郭洪参加调研和座谈。
不难解释为什么寒武纪A轮融资额就高达1亿多美元:
作为A股人工智能第一团队,能够看到寒武纪这样的国内顶尖人工智能芯片公司快速崛起,我们非常欣慰和兴奋,因为未来10年不仅是人工智能席卷一切的黄金10年,也是我国芯片产业的黄金10年。
来源 | 阿尔法工场
芯师爷独家整理
各位小伙伴们好,芯师爷致力于为产业人士搭建最强人脉圈,在这里除了能收获产业优质文章,更能加入高端人脉群。
加群方法:
长按二维码,加群主为好友,备注:入群。
行业群:
物联网IOT、电子代工厂SMT、机器人与人工智能、充电桩行业、工业自动化与4.0、无人机群、汽车电子科技、智能可穿戴
新能源汽车产业、VR/AR虚拟现实、安防与监控系统、IC设计与原厂、半导体材料设备晶圆、半导体封测、半导体代理分销、半导体投融资群、元器件撮合交易1群
职能群:
市场销售、采购、供应链管理、设计工程师、AE.FAE、品牌公关媒介、人事招聘
群规:
1、所有群都是实名制,入群即修改群昵称:昵称+公司+职位;
2、欢迎群友交流,自我介绍资源,杜绝刷屏广告;
3、鼓励多多讨论产业相关话题,禁止使用粗俗、恶意词汇。
回复“报告”可查看所有半导体产业研究报告
往期精彩回顾(点击蓝字 直接阅读):
Kennext想颠覆电子行业的商业模式,它要怎样做?
一夫当关,万夫莫开,当东芝收购案遇上中国反垄断法
兆易创新又融了14.5亿,看国家和地方IC基金都在忙啥
盘点那些在智能插座赚到钱的公司