专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
目录
相关文章推荐
爱可可-爱生活  ·  【[245星]PurrCrypt:用可爱的猫 ... ·  15 小时前  
黄建同学  ·  给 MCP 做的App Store 也来了 ... ·  20 小时前  
爱可可-爱生活  ·  本文揭示了看似信息冗余的 RLHF ... ·  昨天  
爱可可-爱生活  ·  【[102星]Instella:AMD推出的 ... ·  3 天前  
51好读  ›  专栏  ›  人工智能头条

苹果M1芯片:如何开启一个时代

人工智能头条  · 公众号  · AI  · 2020-12-04 18:10

正文

来源 | 老石谈芯
11月11日,苹果今年的发布会三部曲终于落下了帷幕。这场压轴大戏上,发布了苹果自研芯片Apple Silicon的第一代产品:M1芯片。首批搭载M1芯片的Mac机器共有三款:MacBook Air、13寸MacBook Pro和MacMini。不管是发布会上公布的性能提升,还是这几天关于这几款机器的实际评测纷纷出炉,M1芯片的性能和功耗完全超出人们预期,用“颠覆”来形容也不为过。
今天的文章就来聊聊苹果的M1芯片。我想从芯片设计的角度,和大家一起看看M1芯片为何如此牛逼的三个主要原因。

01

芯片设计的PPA优化


在设计芯片的时候,一个最重要的原则就是对PPA的优化,也就是尽可能的优化芯片的功耗(Power)、性能(Performance)和面积(Area)。通常情况下,这三点不能兼得。
比如,为了提升芯片的性能,我们可以加入多级流水线、增加总线宽度、或者增加各种硬核处理单元,但此时就很有可能会付出更高的功耗、以及更大的芯片面积作为代价。反之,如果我们想要设计低功耗的芯片,那也很有可能需要牺牲一部分芯片的性能。所以在实际工程实践中,功耗、性能和面积往往都是相互折中、互相平衡的关系。对于一个芯片来说,没有完美的设计,只有完美的平衡。这就像给你有限的预算去买食材做菜,那就很难既买到鱼,又买到熊掌。
但是这次苹果M1芯片的发布,给人最直观的感受就是,在预算不变的情况下,你可以鱼和熊掌,两者兼得。
苹果在发布会里放出了这张图,它比较的是M1芯片和某个笔记本的CPU,但苹果没说是谁。为了方便叙述,这里姑且叫它“张三芯片”。在这张图里,横轴是功耗,纵轴是性能。可以看到,对于一个给定的功耗标准,M1的性能是张三的两倍。对于一个给定的性能要求,M1的功耗是张三的四分之一。
也就是说,在高性能和低功耗这两个往往此消彼长的维度里,M1芯片同时取得了极大的提升。除了CPU之外,M1里的GPU也取得了类似的性能提升和功耗下降。苹果表示,M1有着当前世界上最好的CPU每瓦性能,以及当前世界上最快的集成显卡。
不管市场营销用什么话术,跑分永远是不可能被绕开的一关。虽然苹果官方没说跑分的事情,但是各类评测已经给出了相当高的跑分结果。
从Geekbench的跑分来看,这次搭载了M1芯片的三款产品,不管单核还是多核,都跑出了相当高的分数:
  • Mac Mini: 1682 / 7097
  • MacBook Air: 1687 / 7433
  • MacBook Pro: 1714 / 6802
事实上,它们的单核跑分都超过了AMD刚刚发布的锐龙9 5950X,也超过了英特尔的TigerLake旗舰版,也就是11代酷睿的i7-1165G7。
此外,这三款产品的单核和多核跑分也超过了目前正在卖的2019款16寸MacBook Pro。也就是说,单从CPU的跑分来看,这个新款的macbook air比苹果去年刚刚发布的旗舰笔记本还要快了。
不仅是性能,搭载M1芯片的笔记本续航时间也有了大幅提升,最高可以达到20小时。
在我看来,M1芯片取得如此巨大的能效提升,主要有三个原因:一个是使用了5纳米工艺,第二个是一些芯片架构创新,第三个则是软硬件的深度优化,接下来我们一个一个说。

02

台积电5纳米工艺


制造工艺这一点,很多文章都没有提及,或是没有重视。事实上,先进工艺对于芯片的能效提升,起着非常重要的作用。因为过去十年里芯片性能的提升,有超过60%直接或间接受益于半导体工艺的提升,而只有17%来自于芯片架构的升级。AMD能“弯道超车”英特尔的最主要原因之一,就是抛弃格罗方德,转向台积电的怀抱。
M1应该是目前世界上第一个、也是唯一一个使用了台积电5纳米工艺的笔记本处理器芯片,其中包含了160亿支晶体管。根据台积电的数据,和前一代的7纳米工艺相比,使用5纳米工艺制造的晶体管:密度提升80%,速度提升15%,功耗降低30%。有了新的制造工艺,可以在芯片面积保持不变的情况下,往一颗芯片里塞进去更多的晶体管,而且这些晶体管的功耗更低、性能更高。
台积电工艺路线图(图片来自WikiChip)
也就是说,即使苹果什么都不做,单纯把A13芯片用5纳米工艺流片出来,理想情况下就能达到这些“免费”的性能、功耗和面积优化。当然实际情况要比这个复杂很多。
要知道,2019款16寸MacBook Pro用的还是英特尔的第九代CPU,使用的是英特尔14纳米工艺,这和台积电的5纳米工艺至少有两代的代差。所以也这也不难理解为什么从跑分来看,搭载M1的MacBook Air会降维打击16寸MacBook Pro。
苹果M1封装图(图片来自苹果)

03

芯片架构创新


这里特别要说的是苹果的UMA结构,也就是这次展示的统一内存架构。设计芯片的一个大的原则就是,存储数据的地方离使用数据的地方越近,性能就越高、功耗也越低。所以苹果就把原本在电路板上的内存颗粒,整合到芯片的封装里。这样最主要的好处就是让芯片上的那些CPU、GPU、AI引擎都能够更快的访问到内存,同时也大幅降低了数据传输的功耗。此外,各个模块之间可以共享内存,也省去了很多数据搬运、拷贝的开销。
苹果UMA结构示意图(图片来自苹果)
值得注意的是,这种架构设计和封装方法其实并非苹果独有,其实在英伟达的A100GPU、AMD的Rome处理器,还有英特尔和赛灵思的高端FPGA芯片里,都使用了类似的方法,可以在同一个芯片封装里集成了多个不同的计算和存储单元。
这种封装方式的具体的实现方式有很多种,比如AMD使用的芯粒chiplets,还有英特尔的EMIB技术,还有赛灵思在FPGA中使用的SSI,也就是堆叠硅片互联技术等等。业界把这些技术都称为是2.5D封装技术,也就是是在水平方向上连接多个小硅片,然后组成一个大的芯片。
EMIB结构示意图(图片来自英特尔)
这里多提一句,英特尔还有一个名叫Foveros的3D封装技术。Foveros来自于希腊语,本意是“牛逼”。这个技术不是在水平方向上扩展,而是垂直扩展。也就是说,它可以将内存颗粒、CPU、GPU、还有其他的芯片单元,像三明治一样叠在一起,这样就使得内存和CPU的距离减少到0.1毫米左右,所以会进一步增加内存带宽、减少传输延时,同时不会增加芯片的面积。在英特尔的Lakefiled CPU里就使用了这种技术。
Foveros 3D封装示意图(图片来自英特尔)

04

苹果生态的协同优化


苹果的M1芯片取得能效大幅提升的第三个原因,就是苹果软硬件的协同深度优化,这一点我认为也是苹果最大的竞争优势。这是因为,前面说的5纳米工艺,或者芯片架构和封装技术的升级,其他厂商可能也会(或者必然会)掌握和采用这些技术。但是只有结合软硬件、操作系统和生态做深度优化,才是苹果独有的。而且这也是为什么有且只有苹果能将基于arm架构的CPU真正做成牛逼的产品卖出来的原因。






请到「今天看啥」查看全文