专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

Arm服务器芯片编年史

企业存储技术  · 公众号  ·  · 2019-12-28 16:18

正文

请到「今天看啥」查看全文


本文来自一位专家朋友Winnie shao的原创大作,希望大家喜欢。


目录

1 前言

2 第一波浪潮( 2008-2013

2.1 启程 2008

2.1.1 Calxeda 2011

2.2 Computex2012

2.3 MarvellArmada XP 2013

2.4 Calxeda 倒闭 2013

3 第二波 Armv8.0 2011-2018

3.1 AppliedMicro – X-gene (2011)

3.1.1 eMAG-X-Gene32018

3.2 AMD’sA1100 2012

3.3 CaviumThunderX 2014

3.4 BroadcomVulcan ThunderX2

3.5 Qualcomm2017

3.6 Samsung 2012-2014

3.7 NvidiaProject Denver 2011-2014

3.8 Balkal

3.9 Phytium

3.10 HiSilicon1616

3.11 Socionext

3.12 私评尾声

4 第三波 Neoverse

4.1 HuaweiKunpeng 920

4.2 AWSGraviton2

4.3 AmpereQuickSilver 2019

4.4 MarvellThunderX3

4.5 FujistuA64FX 2016

4.6 其它的新入者

5 总结

6 文献


1 前言


这篇是为了公司内部的技术分享而准备的材料,当然在公司内部,如果我敢从2008年开始讲,早就被打死了。还有,就是NDA的内容肯定是略略略了。

果让我用一句话总结我这些年做Arm服务器的心路历程,那就是“筚路蓝缕,以启山林”。

免责声明 个人观点,不代表任何公司。 文章中列举的数据,来自于公开新闻和会议。


为了方便大家知道我是谁,我给自己一个标签: 一个从CPU PPT一路负责到上云的人

另外:开源不免费,请自觉打赏作者。( 在文末打赏的朋友,将直接支持给作者Winnie shao博士


2 第一波浪潮( 2008-2013


Arm 服务器的第一波浪潮,是一家叫 Calexda 开始,也是由它结束的。虽然我觉得 2011 的官宣 Armv8 架构,就是 32bit 服务器的终结。但是第一波的浪潮的起伏,并不仅仅是 32bit 64bit 那么简单,还有一个词 Microserver ,微服务器。也是当时产业界,包括x86阵营的共同探索。技术上,商业逻辑上,都不错的产品,在市场上,没有成功。

我个人得到的一个观察:服务器市场是个求稳的保守的市场,相对于活跃的终端市场。

2.1 启程 2008


2008 年, Arm 内部开始酝酿服务器计划。心动就行动, Arm 参与投资了一家当时叫 Smooth Stone ,后来改名为 Calxeda startup 公司。当时的第一轮总投资金额是 $48M

Calxeda 的一开始目标就是 降低数据中心的耗能 ,并且 提高相同空间的计算力密度 。请记住这两个目标,此时此刻,我们 初心依旧。

那一年市面上还是 Cortex-A8 的产品,而基于第一款多核 C c ortex-A9 的产品要到 3 年后才上市。(好怀念那个 2 3 年才发布一款产品的慢速时代)。

那时 Intel Xeon 还是 4 个核,当然主频已经 3.xGhz 了,而 AMD 45nm Opteron CPU 也刚刚上市。

那一年 IBM 刚刚宣布 Power 产品线,而且上来就高山仰止的高达 64 个核。

苹果发布了 iPhone 3G ,就是 iPhone2 。(对,那时还是 3G 时代。)

TSMC 的主流工艺是 40nm ,年收入 $10B

我还在一家叫 EZchip 的公司做 NP3 ,此处 NP 不是 Neural Processor 而是 Network Processor 。那是一个网络处理器大繁荣的时代,我能说出一长串名字,可惜现在都湮灭了。低调的炫耀一下,其实我最擅长的部分是 TM-Traffic Manager 而不仅仅是处理器部分,这也是这家 100 多人的以色列公司(年营收大约 $60M )最突出的特色。此处省略若干文字,真讲起来,我能一个人讲一周的培训,收美金的那种。

2.1.1 Calxeda 2011


2010 Smooth Stone 正式改名 Calxeda ,把总部搬到了 Austin

2011年 Calxeda 发布它的芯片基于 A9 的芯片 EnergyCore ECX-1000

图2.1 CalexdaEnergyCore 架构

这其实是一个值得细看的一款设计, 4 cortex-a9 组成的处理器模块,比较中规中矩, I/O controllers 部分也是常规接口(常规接口并不容易,一个好产品的核心是常规部分做到业界一流)。但是管理引擎( management engine )和交换引擎( Fabric Switch )部分就是技术非常创新之举。

EnergyCore Fabric 是一个集成的 L2 switch 支持 mesh butterfly tree 2D Torus 拓扑,虚拟端口之间的带宽可以按 1 Gb/sec, 2.5Gb/sec, 5 Gb/sec, 10 Gb/sec 的不同规格分配。 通过它,服务器节点可以自己自主成网,不必通过 on top switch ,因此 Calexda 的一块板块上有 4 个芯片,也就是 16 个核心。因此才有可以高达 480 个核的服务器系统。

这个设计理念是合理的,如果你设计一块非常低成本的服务器芯片,但是配套的网络仍然是昂贵的话,高密度的设计,只会增加成本 。这个 fabric 可以将 1024 个系统板,也就是 4096 个芯片用 10G 网络接口,集联为系统

EnergyCore ManagementEngine 是一个集成 BMC ,支持 IMP2.0 DCMI ,还支持远程调试 SoL 协议。管理引擎最强的地方在于功耗管理, Calexda 这款服务器芯片的功耗可以从 4w 1w 动态调整。

每个节点的制造成本大约是 $28

图2.2 4个节点的 Calexda 系统板


2011 年,我加入 Arm 网络市场部。那时我关注的是还在设计阶段的 LSI Axxia AXM5500 16-core ARMCortex-A15 Freescale QorIQ Layerscape 系列,TI的 KeyStone ,还有海思的 hixxxx 系列,那真是一个 Arm 在网络市场大爆发的时代。但是很快,一年后,我跟着当时的老板,一位有电影明星气质的印度裔资深美女,从网络市场转为服务器市场,从那时到现在,全心全意的投入服务器市场与生态建设。

2.2 Computex 2012


2012 年, Ian Ferguson 在台北 Computex 上的公开演讲,大约是 Arm 第一次向公众介绍服务器方面的努力。和他一起站台的是 Ubuntu Mark (软件生态是个大话题,本文主要集中在芯片方面,系统硬件设计和软件话题另外开文再说)。他引用了 Facebook Frank 说的 performance per watt per dollar 的价值观。

提到A rm 服务器, Ian Ferguson 必须有姓名(他教我了一句做市场工作的最基本的一句话,“你是打算 report news ,还是 make news ?”,现在我也愿意和小伙伴一起说,来来来,我们一起搞事情。)如他在大会上的发言,从A rm 打算考虑服务器市场的第一天起,整个业界都充满了怀疑的论调。不仅仅怀疑是否能成功,甚至从根上,怀疑动机。

这些问题,我并不着急回答,如果你有耐心读到最后,一切都自有答案。

2.3 Marvell Armada XP 2013


在第一波服务器浪潮中, Marvell Armada XP 四核系列,也是要提到的。而且这里的 core ,不是 A9 ,也不是 A15 ,是 Marvell custom Core

也是因为 Armada ,我把什么叫架构授权,回答得滚瓜烂熟。

图2.3 MarvellArmada XP

这款集成度很高,功耗低的 SoC 非常适合存储应用。 Dell 以此为核心,出了“ Copper” arm 服务器系统。百度也曾经使用过。这是 Arm 服务器在互联网公司的第一个案例。

2.4 Calxeda 倒闭 2013


如果 Calxeda 能筹集的第三轮投资,那么按照下面的路标,有一款 A15 的芯片马上量产, 2 Armv8 的芯片在计划中。但是很不幸,募资工作不成功。 Calxeda 2008 年成立,到 2013 ,总投资 $103M $48m in 2010 & $55m in 2012 , 一共 130 员工。

它的结业邮件中说 ,因为 Arm 服务器的出现,“ the industry will be transformed forever” 。从现在看,是的。

图2.4 Calxeda 路标

Insight 64 的分析师说,他们在 32bit Arm 服务器上花了太多钱。是 2011 Arm 宣布了 64bit Armv8 Applied Micro 公布了 X-gene 的计划,其实第二轮 Armv8 的服务器的浪潮就已经展开。

Calxeda 的倒闭,标志着第一轮的结束。


3 第二波 Armv8.0 2011-2018


虽然顶着编年史这种文艺的名字,我是想把它写成一个技术分析文章,重点在 Arm 服务器芯片的特点与演进,不是解释为什么这个公司成功,那个公司不成功。其实一个产品分析好做,一个公司的成败,偶然因素真的影响很大。

第二波的三个关键词是自研核心 (custom core) ,主流性能,标准设计。在 Arm 服务器的初始岁月里,芯片设计公司来自各个不同的领域,带着自己对服务器 CPU 芯片的理解,各自交出了自己的产品。我把重点放在 APM X-gene Cavium ThunderX 与高通的 Centriq 2400 上。同时也努力把所有的其它芯片都给一个线索,供有兴趣的人,自己深入。

我做了一个 excel 表格,努力的比对所有的服务器 SoC ,包括公司规模,投资与花费的人力资源。有缘线下做交流。

再说一段,因为在这一段历史中自研核占了多数,而且关于架构, ISA 的争论一直不断,我不想展开说,因为会偏题。在一个做私有云的大牛那里学到一个词,“累计优势”,做 CPU ,做 ISA ,做芯片,其实也在一个缓慢的累计优势。这些年,我有带着客户的需求,案例,测试数据,信心满满地前往公司总部找架构师或者产品经理,要求改设计,增加指令的时候(是的,我还管这事),结果么?我不能说我一次也没有成功,但是我家架构师和产品经理,都是狠角色,在对拼数据和应用案例方面,鲜有败绩。

另外, Hock Tang 一定要提一下,这人简直就是 Arm 服务器的发展道路和我职业生涯中的荆棘,一个拿了 double kill 双杀的男人。他先收购 Broadcom ,卖掉服务器芯片项目,然后提出收购 Qualcomm ,高通的管理层为了自保,提出每年消减 1B 的开销,因此自我了断所有长期投资项目,运作良好的服务器项目就这样躺枪了。

3.1 AppliedMicro – X-gene (2011)


2011 10 月,在 Arm 第一次宣布 ARMv8 架构的同时, Applied Micro 公布了它们的自架构 x-gene 计划(大新闻都是和关键客户一起发布的)。

如果你在那个时代读新闻,你会留意到 SoC 这个概念,当然现在, SoC 这个概念不用解释了。那个时候,还是需要强调 SoC 等于 chip + chipset 的集成设计。

X-gene 的第一代是 8 个自研核心 -Storm ,两个核共享 256KB L2 cache ,这跟 Arm 4 个核一个 cluster 不同。下一章讲的 AMD 的代号 Seattle Opteron A1100 processor ,也没有用 4 Cortex-A57 的一个 cluster ,两个 cluster 的设计,而是 2 A57 4 cluster 的设计。 AMD A1100 的两个 A57 ,共享 1MB L2 cache ,比 X-gene 4 倍。但是 X-gene 的自研核 Storm 4 issue 的, A57 仍然在 3 issue 的能效比的甜蜜点上。


图3.1 APM X-Gene spec

图3.2 APM X-Gene 产品路标

现在,连手机 CPU 都奔着 6 issue 去了,从这点上看,自研核,还是展现自己对业界发展洞见的好武器。

X-gene 8 个核,配了 4 memory 通道,这个也是在 x86 阵营中少见的 CPU memory 比例。而且集成了 2 10G NIC ,支持 RoCE ,算是 SoC 的优势。

Applied Micro 官方资料给出的能耗参数,满负荷状态,一个核 2 瓦, idle 状态,仅仅 0.5w

图3.2 X-Gene 的框架图

我对 X-Gene 设计印象最深的部分是 MSLIM ,这是 4 A5 组成的小处理器 cluster ,提供加速功能。我不知道到底有没有客户使用这个处理器组,也不知道当年的设计理念。


从设计到成品,有多少设计被客户忽略,有多少设计到了客户手里超常发挥,我觉得架构师也会感觉迷茫,工程的世界里竟然也有许多的不确定性。


图3.3 X-Gene die


图3.4 X-Gene CPU 模块


没有整个 die 的信息,不过有处理器模块的信息。每个处理器模块,有 2 core ,共享的 L2 ,在 40nm 的工艺下, 14.8 mm² 84M transistors 。照着这个尺寸,我估计整个 die 300 mm 2


Anandtech 曾经有篇蛮详细,也蛮负面的评测报告。中心意思就是尚未成熟,性能,能效比优势也不明显。它测试的是 HPE moonshot 系统, HPE 的官方文件其实对 X-gene 评价颇高,因为 X-gene 是第一款量产的 Arm 64bit 服务器芯片,初期的软件伙伴们,都是用着它家的系统的。


我知道 Applied Micro-APM 的时候,它还叫 AMCC AMCC 团队算是硅谷老牌做 CPU 的不多团队之一,不过是做 PowerPC 的。它在多核路上不太顺利,所以换了 Arm 重新开始。大约因为是老牌 CPU 设计团队,他们一上手就选了最高难度的架构授权,自研核的路线。我曾经为了它和同事争论到面红耳赤,跟他说,我站起来是条汉子,倒下去还是条汉子。我同事,性别男,气笑了,说,行,行,你是条汉子。


X-gene2 大体上是 X-gene1 28nm tick 实现,略。

3.1.1 eMAG-X-Gene3 2018


我犹豫许久,不知道该把这颗 Ampere 重新设计的 eMAG ,归为第二波尾巴,还是第三波的开头。按照核心的原设计脱胎于 X-Gene 3 来说,还是第二波尾巴。

图3.5 Ampere eMAG

图3.6 Ampere 产品优势

32 List price $850 ,一个相对非常有竞争力的价格。框架图看起来很熟悉,不分析了。

图3.6 Ampere eMag 框架图

3.2 AMD’s A1100 2012


Armv8 架构推出一年之后, Arm 发布了 A57 A53 两款 cortex-A5x 系列的产品,按照国际惯例,一个重磅的合作伙伴在发布会与 Arm 一起闪亮登场, AMD

这款内部代码名为 Seattle ,属于 Opteron 系列,后面的正式产品名字是 A1100 的芯片,现在在 AMD 主线产品历史上找不到的产品。

AMD 当时花了蛮长的时间,解释为什么要做 Arm 服务器,怎么定位公司内部的 x86 Arm 的产品线,甚至为了稳定外界的怀疑,推出了仅仅活在新闻中的 K12 2015 )。

如果我们回头看 2012 年,有一个名词,不能忽略,“ microserver ”,而那个时候, AMD 刚买了 SeaMicro ,一个围绕着 Freedom Fabric 打造高密度,低功耗的系统的公司。这个 Fabric ,超高密度 (very-high-density) ,低功耗,听起来耳熟不? Calexda 的路数啊。下图是 10U 的尺寸,共有 768 CPU ,包括了四个 GE 交换机和一个流量均衡器 (a loadbalancer)

图3.7 Calexda 10U 系统

在这样的系统设计下,配一颗超低功耗的 Arm 处理器,合情合理多了吧?因此选 Arm 的标准核 Cortex-A57 ,缩短开发时间,节省开发费用,也是顺理成章的事情,都在合理逻辑之内。

Cortex-A57 的资料满世界都是,我就不在这里罗列了。前一章有提, AMD 选了 2 core 4 cluster 的配置,而不是手机 AP 常见的 4 core 2 cluster 。好处么,自己体会一下。


这颗芯片的 list price $150 ,也是很有杀伤力。


图3.8 AMD Opteron A1100 框架图

图3.9 AMD Opteron A1100 Floorplan

某种意义上, AMD 这颗 Seattle 虽然被列入第二波浪潮中。它的设计理论完全是第一波的。 K12 才是第二波的。

可是看看 K12 的设计目标,在 AMD 的框架下,为什么要做 Arm ,自然是 x86 啊。 Jim Keller 这个男人本来是跟 K12 联系在一起的。但是 … … ,这个风一样不羁的男子啊。

Intel 的对于此轮浪潮的反应是 14nm “Xeon-D”

3.3 Cavium ThunderX 2014


某种程度上, Cavium 48 ThunderX 才是真正开启第二波 Arm 服务器浪潮的产品。它凑齐了一颗主流服务器芯片应有的所有特点,例如双路和性能。

Cavium 做为一家仅仅有 AMD1/10 大的公司,很早就有超多核处理器的设计能力,只是之前是 MIPS 网络应用处理。

虽然只有 2 issue 的自研核,单核性能较弱。但是整个 SoC 的设计,特别多路设计,是出色的。而且因为网络处理器方面的积累,这颗芯片的加速引擎与 IO 接口非常丰富。

而且为了降低功耗,可以有选择的关闭加速引擎,变成4种不同的配置: 云计算版本,存储版本, 运营商版本,安全版本。


图3.10 Cavium ThunderX 框架图

Anandtech 有个非常不错的性能测试,有助于对 Cavium ThunderX 的理解。

3.4 BroadcomVulcan ThunderX2


这是很纠结的一节。如果说 Broadcom Vulcan ,那是 2016 的左右的事情。如果说 Cavium Thunder X2 那是 2018 年的产品。然后就迅速变成了 Marvell ThunderX2 。本来是同期规划的产品,结果,各种曲折离奇的竟然二合一。有的时候,我都不相信,我们这个产业,也有这么多戏剧化的故事。

说起来,源自 RMI Broadcom CPU 设计团队,和 Cavium CPU 设计团队,有好多共同点,都是 MIPS 系的,都是做网络出身。但是跟 Cavium 老是做 2 issue 小核不同, Broadcom 团队从一开始就擅长做多线程。因此在规划的时候 Vulcan 就是逆天的 4 线程。此时 ARM 阵营里,还没有多线程的处理器呢。

Broadcom 原先的设计目标是 16nm die size 600 mm 2 32 核,每核 4 线程,支持双 P 系统。被 Cavium 收购之后, die size 未披露。

最高配的 CN9980 32 核, 2.5Ghz TDP 200W 2.2Ghz 180W CN9980 ,价格在 $1795 ,而 16 核的 CN9960 1.6 Ghz 75W 售价 $800


而它的目标市场,或者说可见的 design win 集中在 HPC 市场。

图3.11 ThunderX2 的框架图


图3.12 ThunderX 2 布局

图3.13 ThunderX2 IO 接口


3.5 Qualcomm 2017


2017 年高通向市场推出原代号为“ Amberwing ”的 48 10nm Centriq 2400 的同一周,高通公司接到了博通公司的 $130 收购要约。

据估计,这颗 Centriq 2400 ,历时 4 年,花费在 $100M $125M ,几百名工程师的投入。期间,高通还做了一款 24 核的 Centric 1200 作为测试原型。

Centriq 2400 18Btransistors 398mm 2 ,三星的 10nm 工艺,比 thunderX2 小巧多了。虽然它是单 P 处理器,但是对多年多代服务器发展规律,这本来不成问题。

图3.14 Centriq 2400

图3.15 Centriq 2400 的微架构对比


图3.16 Centriq2400 的框架图

这颗含着金钥匙出生的芯片,一路顺风顺水的到 tape out ,直到那位叫 Hock Tang 的黑天鹅的出现。

从价格功耗表上看, Centriq2400 的定价与 ThunderX2 基本一致。

Centriq 2400 CPU 核名字为“ Falkor ”的自研核。最高 2.6Ghz ,是高通的第五代自研核。如果有的话,下一代核是 “Saphira” ,芯片的名字叫“ Firetail ”。但是没有然后了,高通取消了服务器芯片项目,也标志着第二轮 Arm 服务器的浪潮的尾声。

3.6 Samsung 2012-2014


主线写完,支线也要写。


Samsung Arm 服务器的故事,在国内知道的人少,但是上过华尔街日报的。 Samsung 也从来没有官宣过,整个项目起的时候,大家是猜测,灭的时候,大家也都是传闻。


2007 Samsung Austin 投资 $3.5b 建工厂, 2010 成立 Samsung Austin Research Center ,开始招芯片设计工程师,然后招了一位 AMD VP Austin VP 。大家的猜测是服务器芯片也在这个 Austin 研究中心的计划中。


其实, Samsung 进入服务器 SoC 设计的逻辑可以和高通很接近,但是当时高通有 CEO 的支持,还有那样的黯然收场,而一家韩国公司的美国分支部门,想撑起一个大服务器芯片的设计,有多困难,可以想象。


3.7 Nvidia Project Denver 2011-2014


Nvidia 是一个我非常尊敬的公司,也是硅谷现存的仍然是创始人做 CEO 的极少数公司了。但是这一章,我写了几次,都写不下去。大约是 Nvidia 仍然是 GPU 为主线的公司,它的 CPU 的发展逻辑,属于面向应用规划的那种放飞型。

这是一个从 Tegra 开始,到 Carmel ,集成 Arm CPU 在复杂功能芯片的路径。 其实,看起来更像是系统公司的芯片规划路径。因为本文集中在通用服务器芯片的分析,否则 Nvidia 家的产品路线,绝对值得一个完整的大章分析。


图3.17 Tegra Arm CPU


图3.18 Eegra K1


图3.19 Carmel CPU


3.8 Balkal


俄罗斯的第一颗 28n 芯片 BE-M1000 ,其实不应该算在服务器类,不过它涵盖了工作站。这个芯片公司跟日本的 Fujitsu, 中国的飞腾,一样都是从超算项目中孵化出来,独立运作,更注重商业成功一点。

我当年是看过他们计划的超强路标的。但是从路标到产品落地,这中间的三五年的时间,太多变数,因此风消云散的多了。

说到做芯片这事,这是超算的同志们的传统强项。前面说到的某个服务器 SoC ,其实也来自于超算市场的推动。后面,我会说到欧洲,欧洲的同志们也开始发奋图强要自己动手做芯片了。


图3.20 Balkal BE-M1000

3.9 Phytium


飞腾的芯片的公开信息,来自 hotchips 2015 。最新的路标,来自飞腾总经理窦强 2019 12 19 日的公开分享。

恕不展开。

3.10 HiSilicon 1616


海思的1616是鲲鹏920的前一代,比较低调的一代。华为官网上没有介绍。我也就不放任何外网资料。

关于海思,我觉得可以按照《明朝那些事》的风格写部史诗级的著作,再补一个《海思群雄谱》的人物传记做后传。文科生写像海思这种公司,写不出气势,得我这种理工科的文艺青年。万事俱备,就差两件事就可以动手,一是海思宣传部预付的稿费,当然网友众筹也可以考虑, 二是要等我退休哈。

3.11 Socionext


Socionext 这颗 "SynQuacer™" SC2A11 大约是唯一一颗 Cortex-A53 24 核芯片了吧?

3.21 Socionext SC2A11 框图

这颗芯片,不能光看芯片,要看系统设计。

3.22 Socionext SC2A11 服务器系统

这种小核,高密度系统,有相似感觉了吧?那个时代的设计。

3.12 私评尾声


2012-2014 这几年,我飞台湾飞到吐血。我在我的硬盘了找到一份当时的资料。当时台湾的业界有个说法, ODM Direct 模式改写产业链生态。 ODM Direct 模式确实立住了,但是生态系统中的强者并不是 ODM ,是 End Users ,是那些个写着我们可以控制从 power grid gate Hyperscale 们。


第二波浪潮还是半导体业界和系统厂商推动的,那么第三波,就是终端用户自己下海弄潮了。



4 第三波 Neoverse


Drew Henry (建议大家去读读他在 Linkedin 上的简介,堪称高管简历模版)这个男人也是要在 Arm 服务器历史上留下名字的。在他加入 Arm 一年之后, 2018 10 Arm Tech 上,他宣布 Arm Infrastructure 市场上有了自己的品牌 (Neoverse) 和冰公布了每年一代,每代提升 30% 的路线图。


这是第三波浪潮的开始,只是深水静流,那个时候,世界还是静悄悄的。

而我还记得为了凑齐发布会上的那些大厂 logo 的那些琐碎工作,还有伙伴们的给力支持。

图4.1 Arm NEOVERSE 路标

4.1 Huawei Kunpeng 920


2019 年1月7日,有大徐总之称的徐文伟发布了鲲鹏920。

我只放我觉得重要的公开图,怎么解读,就看各位自己了。

这是颗世界先进级的产品,无论哪个方面,包括关注的热度。

图4.2 鲲鹏920的发布会图

图4.4 鲲鹏 920 4P 互联图

4.2 AWS Graviton2

图4.5 Graviton1 & Graviton2

即使 2018 11 AWS 发布了 Graviton ,并且用 Neoverse 称呼了这个 16 cortex A72 的自制芯片。世界并不震惊。现在看, 16 A72 [email protected] ,确实更像是试水。


特别是看看 2017 AWS 发布的也是由 2015 年收购的以色列创业公司 Annapurna labs 团队开发的 Nitro 芯片。

但是 2019 年的 AWS Graviton 2 就是惊艳级别的产品了。 64 Neoverse N1 30 Billion transistors 7nm 的工艺,推测 die size 应该在 300-350mm² ,官宣高于 Intel Xeon-based 5 th 代处理器 40% 的性能,还有高达 25 Gbps 的网络带宽和 18 Gbps of 优化 EBS 的带宽。

图4.6 SPEC cpu 2017

图4.7 AWS Graviton2 支持的 EC2

4.3 Ampere QuickSilver 2019


Ampere 顺着 AWS graviton 的正面风潮,透露了 7nm 80 N1 代码名字为 QuickSilver 的下一代计划。最亮眼的是新芯片支持 2 socket 的配置,这要感谢 Arm mesh IP (CMN-600) CCIX 方面的努力。

图4.8 Ampere 产品路标

除了让人觉得帅到炸裂的 80 N1 设计之外, QuickSilver 拥有 128 PCIe4 lanes 这样的豪华配置。还是 Nividia CUDA-on-ARM 的核心伙伴。

这是我 2020 最期望的一颗芯片,毕竟能买到啊, AWS graviton 只能买云服务。

4.4 MarvellThunderX3


接着 AWS 的热度,公布自己下一代计划的不仅仅有 Ampere ,还有我们的老牌公司 Marvell ,因此我们知道了 ThunderX3 processor 的自研核的名字是 “Triton” ,还看到了每两年一代,每代性能翻倍的强劲产品路标。

图4.9 ThunderX 路标

图4.10 ThunderX3 的增强部分


4.5 Fujistu A64FX 2016


最喜欢的要放到最后。我的同事,在跟与一位伙伴讨论 memory 选择的时候,说“高吞吐,大容量和便宜三者之间,你只能选两个”,这句话非常有哲理了,如果有三项都可以兼顾的方案,大家就不纠结了。有纠结,肯定是有难选的地方,我个人偏好那种“除了贵,没别的毛病”的方案,但是请放心,给伙伴推荐的时候,我绝对不会表露这种个人倾向性的。

富士通的这款 A64FX 其实不是服务器芯片,是用来做超算的,恰恰就是那种“除了贵,没别的毛病”的产品。


2016 arm 宣布了 ArmV8 的指令集扩展 SVE- Scalable Vector Extension ,国际惯例,一个大客户会出来站台,这就是是 Fujistu- 富士通,它的 Post-K ,传闻中拿了 $1.24 billion 日本国家资金的超算项目,会采用 Arm 架构,而不是他们以前的 SPARC 。而且 A64FX 是第一款支持 SVE Arm 处理器。

图4.11 A64FX 的缓存层级和速度

2018 年富士通在 hotchips 上公开介绍了 A64FX 这颗芯片。先看硬参数: 8.8 billion transistors ( 这个不算多, AWS Graviton2 30B) 7nm 48 个自研核加上 4 个同质的管理核,其实是 4 个处理器 cluster ,每个 cluster 13 个核。核间互联是自研的第二代 TOFU - 6D mesh/torus 片上网络(第一代 TOFU 的口碑超级好),配的 32GB HBM2 (超豪华配置), 16PCIe 3.0 lanes (这个不算多,估计也不想接什么外设), 1024 GB/s 的存储带宽, 2.7 TFLOPS @ 64bit 21.6 TFLOPS@8bit 的性能。 Nvidia Tesla P4 P40 ,在 8bit 整数的时候,分别是 22 TFlops 47TFLOPS ,颇有一拼。

A64FX cache 层级,吞吐很高,执行流水线,电源管理, RAS 都很有特色,有兴趣可以读一下 hotchips 的文档。

图4.12 A64FX的floorplan

图4.13 Fugaku 节点(液冷的)

A64FX 这种强悍的性能,可以不用和 GPU 组合,因此 Cray 在和富士通合作,把 A64FX 做进 CS500 clusters 和未来 Shasta 系统中。

4.6 其它的新入者


2019 11 月,一家叫 Nuvia 的创业公司,在 SC 会议期间,浮出水面。这家公司创始人的背景,苹果的诉讼,立刻登上了头条。没有产品之前,让我们记住他们的口号 "deliver industry-leading performance and energyefficiency for the data center"

欧洲的欧洲处理器联盟 -EPI https://www.european-processor-initiative.eu/project/epi/ )也是一个以设计服务器级的 CPU 为目标的努力。不多说,看路标。

图4.11 EPI 路标图



5 总结


我在试图回答 Arm 为什么要做服务器的时候,我能想到的就是“先进生产力”这 5 个字。什么叫先进生产力, Frank Frankovsky Facebook VP of Hardware Design and Supply Chain Operations 也是个要有名字的男人。他提出 the most useful work per watt per dollar 。真正能用上的算力除以买服务器花费与运营服务器所花的电费就是这个服务器的代表的生产力,这个值标志了先进性。

延伸一下,对产业链上的人就是 the total useful work per total investment ,提供有用计算力除以总投入的资金(时间,工程师的智慧与心血),这就是这个技术 / 方案 /ISA/ 产品的生产力是否先进的指标。这也是我写这篇编年史的一条暗线,多少投入,第三波浪潮会带来多少产出。

真正的先进生产力,是属于全世界的,也是全世界共同努力的结果。


先进的产品是一行行的代码,一个个 wafer 累积出来的。

祝大家 2020 万事如意。


6 文献

1. https://techcrunch.com/2010/11/15/smooth-stone-renamed-calxeda/
2.    https://www.nextplatform.com/2019/12/10/looking-ahead-to-marvells-future-thunderx-processors/
3.    ARM Servers Keynote: Ian Ferguson and Mark Shuttleworth at Computex 2012 https://www.youtube.com/watch?v=LhZ2SOdjLK0
4.    https://www.lightwaveonline.com/network-design/packet-transport/article/16663424/ezchip-samples-np3-npu
5.    https://people.ucsc.edu/~warner/Bufs/NP-3.pdf
6.    https://llvm.org/pubs/2006-01-LabrecqueMSThesis.pdf
7.    https://www.networkworld.com/article/2171235/arm-servers-with-64-bit-calxeda-chips-to-ship-next-year.html
8.    https://www.datacenterknowledge.com/archives/2014/12/26/taiwanese-firm-buys-defunct-calxedas-arm-server-ip
9.    https://www.tsmc.com/download/ir/annualReports/2008_Business_Overview_E.pdf
10.    http://www.redbooks.ibm.com/redpapers/pdfs/redp4440.pdf
11.    https://www.arm.com/company/news/2018/10/announcing-arm-neoverse
12.    https://www.linkedin.com/in/drewhenry/
13.    https://aws.amazon.com/ec2/graviton/
14.    https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/
15.    https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/
16.    https://www.datacenterknowledge.com/hardware/ampere-gears-launch-7nm-80-core-arm-chip-cloud-data-centers
17.    https://www.extremetech.com/computing/240821-qualcomm-begins-sampling-48-core-10nm-server-processor-market-ready-arm-based-servers
18.    https://www.theregister.co.uk/2012/10/17/calxeda_arm_server_chip_roadmap/
19.    https://www.nextplatform.com/2016/01/15/clever-ethernet-switching-rises-from-calxeda-arm-ashes/
20.    https://www.marvell.com/embedded-processors/armada/armada-xp/
21.    https://www.anandtech.com/show/5098/applied-micros-xgene-the-first-armv8-soc
22.    https://www.nextplatform.com/2019/12/13/amping-up-the-arm-server-roadmap/
23.    https://www.techspot.com/news/50656-arm-announces-64-bit-cortex-a57-and-cortex-a53-processors.html
24.    https://www.extremetech.com/computing/120601-amd-buys-seamicro-starts-selling-intel-based-servers
25.    https://www.extremetech.com/computing/277242-ampere-emag-64-bit-arm-server-platform-targets-intel-data-centers
26.    https://www.extremetech.com/computing/269004-qualcomm-reportedly-plans-to-exit-server-business
27.    https://www.extremetech.com/computing/259036-early-qualcomm-server-cpu-benchmarks-mean-big-trouble-intel
28.    https://www.extremetech.com/computing/245496-qualcomm-announces-partnership-microsoft-48-core-falkor-cpus-run-windows-server
29.    https://www.extremetech.com/extreme/221282-amds-first-arm-based-processor-the-opteron-a1100-is-finally-here
30.    https://en.wikichip.org/w/images/3/34/408-X1_PB.pdf
31.    https://fuse.wikichip.org/news/776/x-gene-3-gets-a-second-chance-at-ampere-with-a-new-32-core-16nm-arm-processor/
32.    https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.430-X-Gene-Singh-AppMicro-HotChips-2014-v5.pdf
33.    https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.410-Opteron-Seattle-White-AMD-HotChipsAMDSeattle_FINAL.pdf
34.    http://web.archive.org/web/20171220191139/https://www.cavium.com/product-thunderx-arm-processors.html
35.    https://www.anandtech.com/show/10353/investigating-cavium-thunderx-48-arm-cores
36.    https://fuse.wikichip.org/news/1316/a-look-at-caviums-new-high-performance-arm-microprocessors-and-the-isambard-supercomputer/
37.    https://www.nextplatform.com/2017/11/08/qualcomms-amberwing-arm-server-chip-finally-takes-flight/
38.    https://www.nextplatform.com/2017/12/06/deep-dive-qualcomms-centriq-arm-server-ecosystem/
39.    https://www.nextplatform.com/2017/12/12/battle-datacenter-compute-qualcomm-centriq-versus-intel-xeon/
40.    https://www.nextplatform.com/2018/05/10/what-qualcomms-exit-from-arm-server-chips-means/
41.    https://www.kitguru.net/components/cpu/anton-shilov/nvidia-and-samsung-drop-development-of-server-class-arm-chips/
42.    https://www.anandtech.com/show/8357/exploring-the-low-end-and-micro-server-platforms/18
43.    https://www.firstpost.com/tech/news-analysis/samsung-developing-arm-based-server-chips-3605711.html
44.    https://www.baikalelectronics.com
45.    http://www.prace-ri.eu/IMG/pdf/Best-Practice-Guide-ARM64.pdf
46.    https://www.socionext.com/en/products/assp/SC2A11/
47.    https://semiaccurate.com/2011/08/05/what-is-project-denver-based-on/
48.    https://www.anandtech.com/show/15253/80core-n1-nextgen-ampere-quicksilver-the-antigraviton2
49.    https://www.nextplatform.com/2019/11/13/a64fx-arm-chip-gets-a-big-push-from-cray/
50.    https://community.arm.com/developer/tools-software/hpc/b/hpc-blog/posts/technology-update-the-scalable-vector-extension-sve-for-the-armv8-a-architecture
51.    https://www.eweek.com/servers/fujitsu-chooses-arm-over-sparc-for-its-next-supercomputer

另推荐作者好文《 多Die封装:Chiplet小芯片的研究报告



:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流 技术 可以 加我的 微信 / QQ 490834312 。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号: HL_Storage

长按二维码可直接识别关注


历史文章汇总 http://chuansong.me/account/huangliang_storage

点击下方“阅读原文”,查看更多历史文章
↓↓↓






请到「今天看啥」查看全文