上周,百度与
AMD
宣布将携手合作,评估、优化
AMD
新型处理器技术在百度
AI
技术领域的应用,推动人工智能开发与发展。
据悉,双方将建立GPU技术联合实验室,测试、评估和优化AMD的Radeon Instinct加速器,在需求分析、性能优化、定制化开发等多方面密切合作,探索将创新的AMD GPU技术应用于百度数据中心。
百度的“All-In AI”
最近两年,百度在AI方面投入了非常大的力度。
就在上个月初的百度AI开发者大会上,百度集团总裁兼COO陆奇揭晓了未来百度在AI领域的战略与思路,他认为,AI是中国的历史性机遇,同时,也是百度的机会,百度将全力挺进这一领域“All-In AI”。
陆奇表示,历史上,计算平台经过好几代的演变,从PC,到互联网、移动互联网、到云。每一代的技术平台都由前端与后端构成:前端主要是通过人机交互的能力来驱动,后端主要是由计算资源的规模来驱动。AI时代的计算平台将向前迈进一大步。
AI技术与其他技术的不同之处,在于数据起到了重要、特殊的作用。须通过系统+数据,经过学习和训练,来获取能力;数据是观察世界的桥梁,是观察知识的载体,用好的算法,加上软件和硬件,可从数据中获取知识。
百度2017年的搜索业务和早起的战略投入,已积累大量人才、技术和数据资源,让百度成为最有能力、最有机会来推动AI的发展的一个公司。技术方面,目前拥有全球最大规模的神经网络;人才方面,百度目前有超过2000多个AI研发人员,有一流AI研发中心;数据方面,百度有百亿级的定位数据和万亿级的搜索数据。他称,百度有能力、有决心成为中国乃至世界的AI标杆企业。
陆奇说,百度是一家AI公司,核心能力是AI技术、数据和人才。百度用AI来提升搜索、信息流、手机百度等现有的核心业务,用AI来建设金融服务、智能云、DuerOS、自动驾驶汽车等一系列基于AI的新业务。这些业务都有强大的发展空间和商业模式,它们都有能力成为将来百度的骨干业务,尤其是Duer-OS和自动驾驶汽车领域。
DuerOS是百度在2017国际消费电子展(CES)推出的对话式人工智能操作系统。与其他操作系统不同的是,DuerOS强调了通过自然语言进行语音对话的交互方式。
按照百度董事长李彦宏的描述,DuerOS的定位,是要让冰箱、桌子等日常用品在任何环境下都具备与人对话的能力。目前已与海尔、美的、浪潮以及中信国安旗下国安广视的智能家电策略联盟。
今年3月,百度也正式发布了DuerOS智能芯片与模块,并与紫光展锐、ARM、上海汉枫电子科技有限公司达成战略合作。
百度开始推AI芯片了
过去几年,百度在深度学习领域,尤其是基于GPU的深度学习领域取得了不错的进展。而且,百度也在开发被称作XPU的新处理器。
在刚结束不久的Hot Chips大会上,百度发布了一款AI芯片——XPU,这是一款256核、基于FPGA的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。
百度研究员欧阳剑表示,百度设计的芯片架构突出多样性,着重于计算密集型、基于规则的任务,同时确保效率、性能和灵活性的最大化。
图:XPU具有256个内核,集成了一个共享内存用于数据同步。所有内核都运行在600MHz
XPU的目标是在性能和效率之间实现平衡,并处理多样化的计算任务。FPGA加速器本身很擅长处理某些计算任务,但随着许多小内核交织在一起,多样性程度将会上升。
GPU出货量暴涨
上周,国外调查机构JPR出炉了2017第二季度的GPU出货量报告,结果显示,第二季度是近10年来罕见的一次Q2出货实现暴涨,独立显卡的增幅高达31%。
总的GPU出货,AMD增长了8%,NVIDIA增长了10%,Intel增长了6%。
AMD近期的GPU进展
近期,肩负AMD能否由NVIDIA手中收复失土的新一代Vega绘图芯片(GPU)终于上阵,三款全新Radeon RX Vega系列显卡于15日起陆续开卖。
然而,有业者表示,原预期AMD的Vega能扭转NVIDIA掌控绘图卡产业竞况局面,但令人失望的是,Vega首发缺货严重,但并非供不应求,而是供货量甚少,传出是绘图芯片封装良率低于预期所导致,原因可能是AMD力拱的高带宽存储器(High Bandwidth Memory;HBM)整合至绘图芯片技术设计复杂度大增,影响封装良率,或是日月光本身封装技术问题等。
AMD于8月初正式发表全新Radeon RX Vega系列绘图芯片,包括配备64个运算单元的Radeon RX Vega 64水冷版本、Radeon RX Vega 64空冷版本,以及Radeon RX Vega 56,首发售价分别为699美元、599美元及399美元。
图:从左到右:Vega 64有填充、Vega 56无填充、样卡无填充
为拉升买气,AMD还祭出全新Radeon Packs搭售策略,包含34吋三星CF791曲面超宽FreeSync显示器的200美元折扣优惠,以及特定Ryzen 7 1800X处理器和X370主机板搭售组的100美元折扣,同时在特定地区赠送2款游戏大作。
Vega系列卖点包括Rapid Packed Math技术、HBCC高频宽快取控制器以及全新几何与画素引擎等多项特色,其中,在显示存储器设计方面,Vega绘图芯片整合了8GB HBM2存储器,除每针脚频宽比前代HBM技术增加1倍,并提供比GDDR5多出60%的存储器频宽,效能对比先前采用HBM技术的R9 FURY X,约有40%的提升。
据了解,Radeon RX Vega绘图芯片系列,采用GlobalFoundries公司14纳米FinFET制程,整合SK海力士(SK Hynix)、三星HBM2存储器,并交由日月光进行难度甚高的SiP封装技术。
值得注意的是,继全新Ryzen处理器后,PC与绘图卡相关业者对于AMD新一代效能大幅强化的Radeon RX Vega绘图芯片期许甚高,希望AMD能由NVIDIA手中抢回版图,市占至少能回升至4成,扭转NVIDIA独大局势。
但有业者表示,Vega系列出货远低于预期,各业者手上的量甚少,连撼讯与SAPPHIRE(蓝宝)等AMD阵营的业者所分配的量亦相当有限,加上3款Vega系列首发售价高于预期,与对手NVIDIA现有同级产品GTX1080 GTX1070等价差并不显著,且功耗表现平平,因此Vega系列首发气势并不如预期强劲。
业者进一步指出,Vega系列之所以在供货与价格策略表现与市场期待有所落差,近期传出可能是最新HBM2存储器设计更为复杂,与绘图芯片同一个芯片封装技术难度升高,使得生产良率远低于预期,同时也拉高了成本,目前此生产问题仍未解决,预计10月才会逐步放量。
然而,AMD的Vega首发气势并不理想,也让NVIDIA压力解除,原预计最快会在年底开始出货的Volta绘图芯片将放缓面市脚步,其采用台积电12纳米制程,视Vega放量情况,预计2018年第1季再上阵应战。
另一方面,AMD过去与台积电关系紧密,但2015年则将APU及绘图芯片大举转单予GlobalFoundries,却发生产能、良率不如预期等问题,错失市占回升机会。
不过,随着与GlobalFoundries重新修订晶圆供应协议,可下单其他晶圆代工厂,AMD现已调整代工策略,2018~2020年7纳米、7+纳米APU将同时下单GlobalFoundries与台积电,绘图芯片则是全面拥抱台积电,未来应可全面改善产能与成本劣势。
AMD表示,Radeon RX Vega 64市场需求持续超过预期,现正积极与合作伙伴紧密合作,满足市场需求,初期发表的产品数量包括以499美元售价独立贩售的Radeon RX Vega 64、售价为599美元的Radeon RX Vega 64 Black Packs以及售价699美元的Radeon RX Vega 64 Aqua Packs,接下来数周会与厂商合作,针对Radeon RX Vega 64等产品补货。
GPU小知识
GPU是显示卡的“心脏”,也就相当于CPU在电脑中的作用,它决定了该显卡的档次和大部分性能,同时也是2D显示卡和3D显示卡的区别依据。 2D显示芯片在处理3D图像和特效时主要依赖CPU的处理能力,称为“软加速”。3D显示芯片是将三维图像和特效处理功能集中在显示芯片内,也即所谓的“硬件加速”功能。
显示芯片通常是显示卡上最大的芯片(也是引脚最多的)。GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时。GPU所采用的核心技术有硬体T&L、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬体T&L技术可以说是GPU的标志。
1、工作原理
简单的说,GPU就是能够从硬件上支持T&L(Transform and Lighting,多边形转换与光源处理)的显示芯片,因为T&L是3D渲染中的一个重要部分,其作用是计算多边形的3D位置和处理动态光线效果,也可以称为“几何处理”。
一个好的T&L单元,可以提供细致的3D物体和高级的光线特效;只不过大多数PC中,T&L的大部分运算是 交由CPU处理的(这就也就是所谓的软件T&L),由于CPU的任务繁多,除了T&L之外,还要做内存管理、输入响应等非3D图形处理工作,因此在实际运算的时候性能会大打折扣,常常出现显卡等待CPU数据的情况,其运算速度远跟不上今天复杂三维游戏的要求。
即使CPU的工作频率超过 1GHz或更高,对它的帮助也不大,由于这是PC本身设计造成的问题,与CPU的速度无太大关系。
GPU图形处理,可以大致分成 5 个步骤,如下图箭头的部分。分别为 vertex shader、primitive processing、rasterisation、fragment shader、testing and blending。
第一步
,vertex shader。是将三维空间中数个(x,y,z)顶点放进 GPU 中。在这一步骤中,电脑会在内部模拟出一个三维空间,并将这些顶点放置在这一空间内部。接着,投影在同一平面上,也是我们将看到的画面。同时,存下各点距离投影面的垂直距离,以便做后续的处理。
这个过程就像是本地球观看星星一般。地球的天空,就像是一个投影面,所有的星星,不管远近皆投影在同一面上。本地球的我们,抬起头来观看星星,分不出星星的远近,只能分辨出亮度。GPU 所投影出的结果,和这个情况类似。
第二步
,primitive processing。是将相关的点链接在一起,以形成图形。在一开始输入数个顶点进入 GPU 时,程序会特别注记哪些点是需要组合在一起,以形成一线或面。就像是看星座的时候一样,将相关连的星星连起来,形成特定的图案。
第三步
,rasterisation。因为电脑的屏幕是由一个又一个的像素组成,因此,需要将一条连续的直线,使用绘图的演算法,以方格绘出该直线。图形也是以此方式,先标出边线,再用方格填满整个平面。
第四步
,fragment shader。将格点化后的图形着上颜色。所需着上的颜色也是于输入时便被注记。在游玩游戏时,这一步相当耗费 GPU 的计算资源,因为光影的效果、物体表面材质皆是在这一步进行,这些计算决定着游戏画面的精细程度。因此在游玩游戏时,调高游戏画面品质大幅增加这一步的计算负担,降低游戏品质。
图:将一个三角形,用方格呈现近似原始图案,并着上颜色。一块又一块的方格,就是显示器上的像素
最后一步
,testing and blending。便是将第一步所获得的投影垂直距离取出,和第四步的结果一同做最后处理。在去除被会被其他较近距离的物体挡住的物体后,让剩下的图形放进 GPU 的输出内存。之后,结果便会被送到电脑屏幕显示。
2、GPU和CPU的区别
要解释两者的区别,要先明白两者的相同之处:两者都有总线和外界联系,有自己的缓存体系,以及数字和逻辑运算单元。一句话,两者都为了完成计算任务而设计。
两者的区别在于存在于片内的缓存体系和数字逻辑运算单元的结构差异:CPU虽然有多核,但总数没有超过两位数,每个核都有足够大的缓存和足够多的数字和逻辑运算单元,并辅助有很多加速分支判断甚至更复杂的逻辑判断的硬件;GPU的核数远超CPU,被称为众核(NVIDIA Fermi有512个核)。
每个核拥有的缓存大小相对小,数字逻辑运算单元也少而简单(GPU初始时在浮点计算上一直弱于CPU)。从结果上导致CPU擅长处理具有复杂计算步骤和复杂数据依赖的计算任务,如分布式计算,数据压缩,人工智能,物理模拟,以及其他很多很多计算任务等。GPU由于历史原因,是为了视频游戏而产生的(至今其主要驱动力还是不断增长的视频游戏市场),在三维游戏中常常出现的一类操作是对海量数据进行相同的操作,如:对每一个顶点进行同样的坐标变换,对每一个顶点按照同样的光照模型计算颜色值。
GPU的众核架构非常适合把同样的指令流并行发送到众核上,采用不同的输入数据执行。在 2003-2004年左右,图形学之外的领域专家开始注意到GPU与众不同的计算能力,开始尝试把GPU用于通用计算(即GPGPU)。
之后,NVIDIA发布了CUDA,AMD和等公司也发布了OpenCL,GPU开始在通用计算领域得到广泛应用,包括:数值分析,海量数据处理(排序,Map- Reduce等),金融分析等。
简而言之,当程序员为CPU编写程序时,他们倾向于利用复杂的逻辑结构优化算法从而减少计算任务的运行时间,即Latency。当程序员为GPU编写程序时,则利用其处理海量数据的优势,通过提高总的数据吞吐量(Throughput)来掩盖 Lantency。
目前,CPU和GPU的区别正在逐渐缩小,因为GPU也在处理不规则任务和线程间通信方面有了长足的进步。另外,功耗问题对于GPU比CPU更严重。
来源 |
网络
芯师爷独家整理