专栏名称: 芯长征科技
芯长征科技致力成为世界级的新型功率半导体器件开发的高科技设计公司,推进高端大功率半导体器件的广泛应用,提供从研发、制片、封测、应用的一站式服务。
目录
相关文章推荐
直播海南  ·  2025年研考国家线发布 ·  2 天前  
直播海南  ·  货车与面包车相撞,致6死3伤 ·  2 天前  
直播海南  ·  亲生父母5万元卖婴儿,警方破案 ·  2 天前  
51好读  ›  专栏  ›  芯长征科技

​亚马逊公布两颗芯片新进展,arm服务器芯片最亮眼

芯长征科技  · 公众号  ·  · 2019-12-04 12:58

正文

来源:内容来自 半导体行业观察综合 ,谢谢。

在今天于拉斯维加斯举行的AWS re:Invent会议上,亚马逊带来了两款芯片的介绍。一款是去年推出的,专注于推理的芯片inferentia的应用,另一款是新的Arm服务器芯片Graviton2。

首先看inferentia。据了解,该芯片于去年首次宣布。据了解,AWS Inferentia 是一个由 AWS 定制设计的机器学习推理芯片,旨在以极低成本交付高吞吐量、低延迟推理性能。AWS Inferentia 将支持 TensorFlow、Apache MXNet 和 PyTorch 深度学习框架以及使用 ONNX 格式的模型。亚马逊进一步指出,AWS Inferentia 提供数百 TOPS(每秒万亿次运算)推理吞吐量,以允许复杂模型能够进行快速预测。对于更复杂的性能需求,可以组合使用多个 AWS Inferentia 芯片来支持数千 TOPS 的吞吐量。



从数据上看,AWS Inferentia每个芯片集成了4的neuroncore,每秒可提供128 Tera操作(每秒TOPS或数万亿次操作),支持FP16、BF16、INT8等数据类型,能支持多个框架(包括TensorFlow,PyTorch和Apache MXNet),每个Amazon EC2 Inf1实例最多可提供2000 TOPS。



正如AWS首席执行官安迪·贾西(Andy Jassy)指出的那样,许多公司都在关注可让您训练模型的定制芯片(尽管Google和其他公司肯定会对此表示反对)。他进一步指出,推理通常可以在常规CPU上很好地工作,但是定制芯片显然会更快。


“与EC4上的常规Nvidia G4实例相比,借助Inferentia,AWS可提供更低的延迟和三倍的吞吐量,且每次推理成本降低40%”,Andy Jassy强调。


从亚马逊的介绍我们可以看到,新的Inf1实例可实现多达2,000 TOPS的功能,并与TensorFlow,PyTorch和MXNet集成,以及用于在框架之间移动模型的ONNX格式。但目前,这颗芯片仅在EC2计算服务中可用,但很快也会用于AWS的容器服务及其SageMaker机器学习服务。

除此之外,亚马逊还带来了新一代的,拥有强悍性能表现的Arm服务器芯片Graviton2。据亚马逊介绍,AWS Graviton 2处理器的速度比以前一代的芯片快7倍,浮点性能是2倍。AWS进一步表示,Graviton2芯片的单核高速缓存是其两倍大,并具有额外的存储通道(根据定义,它几乎必须如此),并且这些功能一起使Graviton2的存储速度比原始Graviton快5倍。

资料显示,Graviton2是一个基于Arm全新内核Neoverse 定制设计的7nm SOC,具有64个Arm Neoverse N1内核(每个64KB L1 / 1MB L2高速缓存),支持双SIMD,并支持int8和fp16处理的特殊指令。

最为一个用用300亿晶体管的野兽,Graviton2的大小与AMD的EPYC相似,比其他任何数据中心处理器都要大。N1内核通过网状架构连接,具有大约2TB /秒的带宽,32MB L3高速缓存和64通道PCIe gen 4通道。Graviton2服务器通过带有临时密钥的AES-256支持8个DDR4-3200通道的始终加密的内存以及高达1Tbit / sec的压缩内存加速。这几乎是一个“核心”,具有一些非常特殊的功能,例如用于ML推理的本地fp16和始终加密的内存。给我留下深刻的印象。

针对更快的机器学习推理提供了优化的指令,以及针对压缩工作负载的自定义硬件加速。另外,AWS Graviton2处理器还提供始终在线的完全加密的DDR4内存,每核加密性能提高50%,以进一步增强安全性。



据透露,与第一代Graviton相比,AWS称Graviton2的性能是前代的7倍,计算核心是4倍,而内存则是5倍”。它还提供25Gbps网络和18Gbps EBS带宽。在和竞争对手相比,AWS Graviton2的实例也能提供不错的性能表现。


以下是AWS提供的,M6g在数据中心实例中,实测数据与M5对比,有了很好的提升:

  • 整数性能比SPECint2017速率高40%以上(估计)

  • SPECfp2017速率的浮点性能提高了20%以上(估计)

  • SPECjvm2008上的Java性能提高了40%以上(估计)

  • NGINX上的Web服务性能提高20%以上

  • 在Memcached上的性能提高40%以上,并具有更低的延迟和更高的吞吐量

  • 对于未压缩的1080p到H.264视频,媒体编码性能提高20%以上

  • BERT ML推理提高25%

  • Cadence Xcellium EDA工具的EDA性能提高50%以上

另外,据亚马逊AWS介绍,客户可以在这个芯片的系统上运行以下程序:







请到「今天看啥」查看全文