专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

SoC之一:AWS Nitro Family

企业存储技术  · 公众号  ·  · 2019-03-02 22:20

正文

请到「今天看啥」查看全文


本文转载自唐杰总的公众号 “杂谈与闲话”


作为IT的从业人员,如果没有听说过云计算的应该是没有的。但是从2009年就开始从事云计算基础设施的人,如果没有到这个网站 https://perspectives.mvdirona.com/上膜拜过,可能有点说不过去了。


对,这种长发男就是大名鼎鼎的James, Hamilton, 职业的生涯的早期在IBM 做DB2数据库,然后到了MS SQL Server,之后就到了AWS,专注于云计算相关的基础设施。


估计性急的同学已经打开了这个网站,最新的一片就是“Nitro System”, Jim已经公开了Nitro家族的图谱,Nitro已经不是当初annapurnalab 的那颗主要用来做网络I/O的SoC了,已经发展到了第三代,有了更多的用处。正是因为到了第三代,因此应该可以公开一下第一代的架构了,不要问我要第三代的信息, 俺也母鸡呀。

第一代是Cortex-A15[1], 按理第二代就是Cortex-A57 [2],这个根据CPU的性能来估计,因为A-53的DMIPS/MHz 差得有点远。至于第三代,这个就比较清晰了。[3]  AWS的A1的E2C的CPU是基于Cortex-A72, 2.3GHz,16个Core,4个Core共享2M的L2 缓存,每个core 有32KB的L1 Data$, 48KB的Instruction $.


每年关注AWS的reInvent的同学都知道,最近AWS变得越来越硬,自从花了350M收购了annapurnalab之后,因为AWS自己的服务器已经是百万级的,因此每年都有芯片发布。让大部分云计算的厂家一通羡慕嫉妒恨。其中的原因,Jim在2016年已经讲的很透彻了[4]. 直接引用大神的话:“ I tell software people, the things you’re measuring are milliseconds (one thousandth of a second). In hardware, they measure nanoseconds (one billionth of a second) and microseconds (one millionth of a second). So this is the right place for us to go.”  “我对软件人员讲,你们基本上生活在毫秒时代,但是对于硬件人员,人家生活在微秒和纳秒时代,你想要稳定的低延时, 硬件是正确的方向”。


Jim关于Nitro System这篇介绍了ReInvent 2018的一个session[5], Anthony Liguori的 CMP303, "Powering Next-Gen EC2 Instances Deep Dive into the Nitro System". 和我有工作来往的同学都知道俺最喜欢的单词就是“Deep Dive“. 广告:” Xilinx_Storage_IP_Deep Dive“, ”NVMe-oF_DeepDive“。

大神的总结如下:

  1. High speed networking with hardware offload

  2. High speed EBS storage with hardware offload

  3. NVMe local storage

  4. Remote Direct Memory Access (RDMA) for MPI and Libfabric

  5. Hardware protection/firmware verification for bare metal instances

  6. All business logic needed to control EC2 instances


具体对应到产品上,1 就是 AWS ENA, 2 就是 AWS EBS, 3就是 AWS Instance Storage, 4 是2018年的EFA,AWS自己的RDMA网卡,对应有自己的SDR流控, 因此可以肯定是走ROCEv2的。5是一个新东西是Nitro 系统控制器。主要功能是个安全芯片。这个其实也很奇怪,按说Intel的推的TPM也很久了,但是这几家大厂都是用自己的安全芯片。在Hotchip 2018上,Google的Titan [6] 和Microsoft的Azure Sphere[7] 分别介绍了他们的安全芯片。


对于AWS的VPC的offloading,Anthony 的slide的确很好。[8]

可以看出,data plane的第一个功能肯定是支持vxlan,之后就是ACLs, 第三个应该是Qos的限速,毕竟是共享的NIC,只有routing,这最有意思,不知道AWS的流表具体有多大,这个可能是VPC网络支持的规模有关,先挖个坑吧。


这个就是EBS的存储,和Anthony在session中讲的一样,网络相对比较悲催,没有统一的标准,AWS自己只好定义了ENA,强势集成到upstream的kernel,但是其他厂家就没有这个能力了。存储的好处是有标准可以遵循。NVMe 接口已经做到了universal 支持了。在存储里面,主要workload就是加密,和硬化远端存储的客户端。




这里面没有讲是不是运行的NVMe Over Fabric的协议,个人感觉,AWS应该会慢慢向标准协议靠拢,原因是他的企业客户会越来越多,企业存储的方向基本可以用这个表示。[9]


RDMA->FC->TCP, 这个是按重要程度的排序。


好了,第一章就到这里吧。谢谢观赏。


[1]http://news.mydrivers.com/1/274/274386_all.htm

[2]https://en.wikipedia.org/wiki/List_of_ARM_microarchitectures

[3]https://www.theregister.co.uk/2018/11/27/amazon_aws_graviton_specs/

[4]https://www.geekwire.com/2017/amazon-web-services-secret-weapon-custom-made-hardware-network/

[5]https://perspectives.mvdirona.com/2019/02/aws-nitro-system/

[6]https://cloud.google.com/blog/products/gcp/titan-in-depth-security-in-plaintext

[7]http://www.hotchips.org/archives/2010s/hc30/

[8]https://www.slideshare.net/AmazonWebServices/powering-nextgen-ec2-instances-deep-dive-into-the-nitro-system-cmp303r1-aws-reinvent-2018

[9]https://blog.purestorage.com/directflash-fabric-continuation-of-pures-nvme-innovation/?ite=10420&ito=1372&itq=4c8a9e06-c416-45fa-9840-cb75d692ce64&itx%5Bidio%5D=1555403


:本文只代表作者个人观点,与任何组织机构无关。 进一步交流 技术 可以 加我的 QQ/ 微信: 490834312 。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


感谢您的阅读和支持!《企业存储技术》微信公众号: HL_Storage

长按二维码可直接识别关注


历史文章汇总 http://chuansong.me/account/huangliang_storage







请到「今天看啥」查看全文