在5月份的GTC大会上,老黄在主题演讲中公布了不少Volta显卡的细节,现在NVIDIA又发布了Volta显卡的架构白皮书,详细介绍了Volta架构的细节。
据白皮书的介绍,NVIDIA正式确认了完整版Volta显卡是84组SM单元,每个SM单元有64组FP32浮点单元、64组INT32整数单元、32组FP64双精度浮点单元、8个Tensor单元(用于深度学习、AI的张量处理器)、4个纹理单元,外加8组512bit显存控制器,每个HBM 2堆栈搭配2组显存控制器,总计有5376个CUDA核心(FP32、INT32)、2688个FP64单元、336个纹理单元、672个Tensor单元,还有4096bit等效位宽、16GB HBM 2显存,带宽900GB/s。
NVIDIA的Volta显卡使用了TSMC与NVIDIA定制的12nm FFN工艺,而TSMC的12nm工艺实际上也是基于目前16nm工艺改良的,主要优化了能耗、核心面积,性能比16nm FFC工艺提升10%,但是核心面积可缩减20%。即便如此,GV100大核心的面积依然从目前的610mm²增加到了815mm
²
,主要原因就是SM单元数量大增,从60组SM单元增加到了84组。
根据NVIDIA的白皮书介绍,Volta架构的SM单元做了大幅改进,新的SM单元能效比Pascal提升50%,因此才能在同样的功耗封装下大幅提升FP32/FP64计算性能。
当然,NVIDIA在Volta显卡上的重点除了提升传统的FP32/FP64计算性能之外,最重要的还是提升深度计算性能,为此增加了专用的计算单元,每组SM单元有8个Tensor单元,总计640个Tensor单元,Tensor性能可达120TFLOPS,是Pascal的12倍多。
不过现在的GV100大核心很有可能跟去年的GP100大核心一样专用于计算市场,真正对游戏玩家有影响的还是后面的GV102核心,NVIDIA势必要做些精简,比如砍掉对游戏没用的Tensor单元,减少L2缓存,HBM 2显存也没必要,SM单元很有可能也会重组,可以预见游戏用的GV102核心会进一步降低能耗,不过CUDA核心总数相比Pascal也会大幅提升,游戏性能再上一个台阶。