本文转载自唐杰总的公众号 “杂谈与闲话”
作为IT的从业人员,如果没有听说过云计算的应该是没有的。但是从2009年就开始从事云计算基础设施的人,如果没有到这个网站 https://perspectives.mvdirona.com/上膜拜过,可能有点说不过去了。
对,这种长发男就是大名鼎鼎的James, Hamilton, 职业的生涯的早期在IBM 做DB2数据库,然后到了MS SQL Server,之后就到了AWS,专注于云计算相关的基础设施。
估计性急的同学已经打开了这个网站,最新的一片就是“Nitro
System”, Jim已经公开了Nitro家族的图谱,Nitro已经不是当初annapurnalab
的那颗主要用来做网络I/O的SoC了,已经发展到了第三代,有了更多的用处。正是因为到了第三代,因此应该可以公开一下第一代的架构了,不要问我要第三代的信息,
俺也母鸡呀。
第一代是Cortex-A15[1],
按理第二代就是Cortex-A57 [2],这个根据CPU的性能来估计,因为A-53的DMIPS/MHz
差得有点远。至于第三代,这个就比较清晰了。[3] AWS的A1的E2C的CPU是基于Cortex-A72,
2.3GHz,16个Core,4个Core共享2M的L2 缓存,每个core 有32KB的L1 Data$, 48KB的Instruction
$.
每年关注AWS的reInvent的同学都知道,最近AWS变得越来越硬,自从花了350M收购了annapurnalab之后,因为AWS自己的服务器已经是百万级的,因此每年都有芯片发布。让大部分云计算的厂家一通羡慕嫉妒恨。其中的原因,Jim在2016年已经讲的很透彻了[4].
直接引用大神的话:“
I
tell software people, the things you’re measuring are milliseconds (one
thousandth of a second). In hardware, they measure nanoseconds (one
billionth of a second) and microseconds (one millionth of a second). So
this is the right place for us to go.”
“我对软件人员讲,你们基本上生活在毫秒时代,但是对于硬件人员,人家生活在微秒和纳秒时代,你想要稳定的低延时, 硬件是正确的方向”。
Jim关于Nitro
System这篇介绍了ReInvent 2018的一个session[5], Anthony Liguori的 CMP303,
"Powering Next-Gen EC2 Instances Deep Dive into the Nitro System".
和我有工作来往的同学都知道俺最喜欢的单词就是“Deep Dive“. 广告:” Xilinx_Storage_IP_Deep Dive“,
”NVMe-oF_DeepDive“。
大神的总结如下:
-
High speed networking with hardware offload
-
High speed EBS storage with hardware offload
-
NVMe local storage
-
Remote Direct Memory Access (RDMA) for MPI and Libfabric
-
Hardware protection/firmware verification for bare metal instances
-
All business logic needed to control EC2 instances
具体对应到产品上,1
就是 AWS ENA, 2 就是 AWS EBS, 3就是 AWS Instance Storage, 4
是2018年的EFA,AWS自己的RDMA网卡,对应有自己的SDR流控, 因此可以肯定是走ROCEv2的。5是一个新东西是Nitro
系统控制器。主要功能是个安全芯片。这个其实也很奇怪,按说Intel的推的TPM也很久了,但是这几家大厂都是用自己的安全芯片。在Hotchip
2018上,Google的Titan [6] 和Microsoft的Azure Sphere[7] 分别介绍了他们的安全芯片。
对于AWS的VPC的offloading,Anthony 的slide的确很好。[8]
可以看出,data plane的第一个功能肯定是支持vxlan,之后就是ACLs, 第三个应该是Qos的限速,毕竟是共享的NIC,只有routing,这最有意思,不知道AWS的流表具体有多大,这个可能是VPC网络支持的规模有关,先挖个坑吧。
这个就是EBS的存储,和Anthony在session中讲的一样,网络相对比较悲催,没有统一的标准,AWS自己只好定义了ENA,强势集成到upstream的kernel,但是其他厂家就没有这个能力了。存储的好处是有标准可以遵循。NVMe
接口已经做到了universal 支持了。在存储里面,主要workload就是加密,和硬化远端存储的客户端。
这里面没有讲是不是运行的NVMe Over Fabric的协议,个人感觉,AWS应该会慢慢向标准协议靠拢,原因是他的企业客户会越来越多,企业存储的方向基本可以用这个表示。[9]
RDMA->FC->TCP, 这个是按重要程度的排序。
好了,第一章就到这里吧。谢谢观赏。
[1]http://news.mydrivers.com/1/274/274386_all.htm
[2]https://en.wikipedia.org/wiki/List_of_ARM_microarchitectures
[3]https://www.theregister.co.uk/2018/11/27/amazon_aws_graviton_specs/
[4]https://www.geekwire.com/2017/amazon-web-services-secret-weapon-custom-made-hardware-network/
[5]https://perspectives.mvdirona.com/2019/02/aws-nitro-system/
[6]https://cloud.google.com/blog/products/gcp/titan-in-depth-security-in-plaintext
[7]http://www.hotchips.org/archives/2010s/hc30/
[8]https://www.slideshare.net/AmazonWebServices/powering-nextgen-ec2-instances-deep-dive-into-the-nitro-system-cmp303r1-aws-reinvent-2018
[9]https://blog.purestorage.com/directflash-fabric-continuation-of-pures-nvme-innovation/?ite=10420&ito=1372&itq=4c8a9e06-c416-45fa-9840-cb75d692ce64&itx%5Bidio%5D=1555403
注
:本文只代表作者个人观点,与任何组织机构无关。
进一步交流
技术
,
可以
加我的
QQ/
微信:
490834312
。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
感谢您的阅读和支持!《企业存储技术》微信公众号:
HL_Storage
长按二维码可直接识别关注
历史文章汇总
:
http://chuansong.me/account/huangliang_storage