专栏名称: 亚马逊云科技
亚马逊AWS的公众号,第一时间获取关于AWS国内外服务的资讯。AWS中国(北京)区域由光环新网运营。
目录
相关文章推荐
手游那点事  ·  长达6年两次回炉重做,80人团队做出的3A竟 ... ·  昨天  
手游那点事  ·  这家广州公司今天16周年庆典,董事长:让AI ... ·  2 天前  
手游那点事  ·  意料之外,一广州公司“单枪匹马”杀入Top27 ·  2 天前  
手游那点事  ·  神操作,这家深圳公司一年买下超3000枚比特 ... ·  3 天前  
网信内蒙古  ·  人间朝暮 生而闪耀 | ... ·  2 天前  
网信内蒙古  ·  人间朝暮 生而闪耀 | ... ·  2 天前  
51好读  ›  专栏  ›  亚马逊云科技

“芯”动力!走进定制芯片实验室

亚马逊云科技  · 公众号  ·  · 2025-02-11 11:00

正文


位于德克萨斯州奥斯汀郊区的一座普通办公楼,看似平凡的建筑,正是亚马逊云科技在2015年收购的专业微电子公司Annapurna Labs的所在地。在这平凡的外表之下,隐藏着极具突破性的创新活动。实验室内,一支由专业工程师、计算机科学家、运营和物流专家等组成的精英团队,正致力于重新构想计算机硬件的设计。从优化处理性能到在运输和安装过程中保护大型复杂设备(如服务器)的组件,每一个环节都倾注着他们的智慧和创造力。

现在,我们将走进实验室一探究竟。


01


亚马逊云科技正自行研发硬件



亚马逊云科技拥有自己的定制芯片和加速器系列,每一代都在前一代的基础上进行改进和提升。 这些芯片均由Annapurna Labs团队设计和制造。该团队的员工分布在全球多个地点,包括以色列特拉维夫、加拿大多伦多,以及位于德克萨斯州奥斯汀的实验室。


02


内部开发硅芯片,更快交付产品



Annapurna Labs团队为机器学习而加速打造的定制硅“芯片系统”(SoC)即将被放置到测试设备上。


我们的指导原则是为客户提供更多选择、更低成本和更高性能的产品 ”硅工程总监Rami Sinno说道。“通过整合内部所有的硅开发工作,无需依赖第三方,我们能够加速交付硅产品。”


03


研发加速器这类硬件产品,提高计算机的整体性能



Sinno打开了一个加速器阵列的盖子。这些加速器由Annapurna Labs定制设计的,硅工程高级经理Eyal Freund及其团队负责开发机器学习SoC,硬件高级经理Eran Jurman及其团队则负责从加速卡到完整服务器的开发。


04


所有新设备经微型数据中心内测,才能正式投入使用



系统验证经理Karim Syed在微型数据中心排查问题,团队可以在这里测试和试验新设备或新流程,再正式投入使用。“在处理如此复杂的硬件时,看似平凡的问题,比如组件在运输过程中可能松动,就会成为关键问题,”高级系统经理Tony Hagale说道。“维护工作也成为了一项核心能力。”


05


Amazon Graviton处理器旨在为在Amazon EC2中运行的工作负载提供最佳的性价比表现



高级首席工程师Ali Saidi是Amazon Graviton系列处理器的技术负责人。 最新一代Amazon Graviton3相比较其前代产品,计算性能提升25%。 在Amazon EC2中运行的基于 Amazon Graviton3的虚拟服务器,在实现相同的性能时,能源最多可降低60%。这不仅帮助客户减少碳足迹,也为亚马逊实现《气候承诺》中减少碳排放的目标做出了贡献。


06


对Amazon Graviton系列的设计、制造和包装不断创新



Saidi及其团队对Amazon Graviton系列的设计、制造和包装不断创新。在Amazon Graviton3中,将七个芯片(小块定制硅片)和约550亿个晶体管集成到一个中央处理单元(CPU)中,为Amazon EC2客户带来了又一次性能飞跃。


07


“晶圆”是用于生产集成电路的半导体材料薄片



高级测试产品工程师Brendan Tully的职责之一是测试“晶圆”——用于生产集成电路的半导体材料薄片(在本例中,是Annapurna Labs定制设计的硅芯片)。


08


产品离开实验室之前,需经过一系列测试,确保在各种条件下能够正常运行



Tully和Syed开发了测试程序,以确保芯片在各种条件下能够正常运行。“我们不存在‘部分’测试或抽样测试,”Syed说道。“从芯片层面、电路板层面到服务器层面,任何产品未经测试绝不会出厂。”


09


软件集成团队测试所有必需的软件组件,以确保服务器能够在云上提供给客户使用



验证工程师Sarah Nasser拿起了一块测试卡。Nasser是软件集成团队的一员,负责确保卡和服务器按规格正常运行。“我们测试所有必需的软件组件,以确保服务器能够在云上提供给客户使用,”她说道。


10


硬件和软件之间的相互作用, 远比人们意识到的更为密切



软件漏洞容易修复,但硬件问题通常意味着团队需要重新开始,而且周期可能很长。“人们会惊讶于硬件与软件之间存在着如此密切的相互作用,”Hagale说道,“人们未曾意识到,为了让一切都正常运作,背后需要付出多少努力。”











请到「今天看啥」查看全文