前言
2025年1月23日,万众瞩目的公版RTX 5090已经正式解禁,而今天是所有非公显卡解禁的日子。事不宜迟,让我们一起来看看七彩虹的旗舰代表——火神吧。
——
七彩虹 iGame Geforce RTX 5090 D Vulcan OC 32GB
NVIDIA Blackwell 新功能解析
*如果已经看过类似介绍,可以直接下拉跳转
众所周知,如今的计算机发展面临着工艺制程进步缓慢的问题。在无法改变制程工艺的情况下,改进架构成了提升性能的唯一方法。近年来,AI性能的大爆发成为了各大硬件厂商垂涎的要点。而NVIDIA Blackwell就是在这样一个时代里诞生的架构。
GB202 核心一览:
Blackwell
的完整体是GB202,相比于原来的AD102,更多的改进在于单个GPC与SM单元。核心内的L2缓存翻倍增加至
128MB
。同时新的GPC单元内引入了更多的SM单元,以及改进的RT和Tensor Core,进一步强化显卡在AI计算上的性能。
GB202共计有12个GPC(Graphics Processing Cluster,图像计算集群)。每个GPC中包含8个TPC(Texture Processing Cluster,像素计算集群),
16个SM
,16个ROPs。整个GB202拥有512Bit的显存控制器。在每个SM中,包含了128个CUDA,2个FP64浮点计算单元,1个
第4代
RT光追单元,4个
第5代
Tensor张量计算单元,4个TMUs。因此整体规格如下:
-
24576个CUDAs(上一代为18432,
↑33.3%
)
-
192ROPs
(上一代为192,
持平
)
-
768TMUs
(上一代为576,
↑33.3%
)
-
192RTCores
(上一代为144,
↑33.3%
)
-
768TensorCores
(上一代为576,
↑33.3%
)
如果我们把两者最大的核心放在一起对比,可以发现同样都是TSMC 4N工艺,AD102的核心晶体管数量为763亿,核心面积608.5mm²。而GB202为922亿与750mm²。由于晶圆变大造成的边际效应,GB202在每平方毫米晶体管数量略逊于AD102,而如果套用两者旗舰显卡的功耗,那么GB202的每平方毫米瓦数也将略高于AD102。
GPC内的SM单元变化主要集中在CUDA的功能上。AD102 Ada架构的CUDA分为分为两种,一种是可以计算FP32/INT32的CUDA单元,另一种是只能进行FP32计算的单元。而在GB202 Blackwell架构上,所有的CUDA核心都支持FP32/INT32计算。如今高性能的模型都会采用量化的方式进行性能优化,也即模型内的计算都采用整数存储运算。Blackwell SM在面对量化模型上将会比Ada SM有更好的表现。
因此从账面的数据来看,Blackwell构架更像是一个加大版Ada,
传统性能提升可能并
不会如RTX 3090到RTX 4090那样显著,更多的性能提升将会是RT与Tensor单元。
第五代Tensor Core
第五代Tensor Core支持FP4计算。相较于第四代Tensor Core 的FP8而言,计算性能直接翻倍的同时,更低的计算精度意味着原来更大的模型可以在更小的显存中运行。目前NVIDIA也提供了相应的量化工具,实现模型的快速转化。
DLSS 4
进入RTX时代以来,
DL
SS
随之诞生。作为一种抗锯齿
优化
的技术,DLSS不仅不会降低性能,反而还会提升性能。这里面重要的操作就是引入AI的方式对画面进行优化。但话虽如此,早期的DLSS画质效果并不理想,因此大家对于DLSS的态度一直是画质与性能不可兼得。但是在DLSS 4时代,这也许会引来改变。
新加入的
DLSS 4是50系最重要的性能提升点。
在MFG多帧生成技术和DLAA Transformer 模型的加持下,DLSS 4可以带来画质与帧数兼备的游戏体验。
Multi Frame Generation(MFG,多帧生成技术)
在40系时代,帧生成技术已经得以推广。简单来说,是通过AI模型实现1帧渲染1帧AI的方式获得成倍的帧数提升。在50系时代,得益于Tensor Core性能的进一步提升,NVIDIA推出了多帧生成技术,简而言之原来
1帧渲染1帧
AI的方式可以升级为
1帧渲染2帧
AI,甚至
1帧渲染3帧
AI。
Transformer Model
DLSS在抗锯齿上的优化一直以来AI模型。而当前主流的AI模型分类包含CNN与
Transformer。了解
深度学习的同学对CNN与Transformer这两个词应该非常熟悉。
Transformer由于其更深更广的模型数据深度设计,在模型预测的能力上更强。因此它也是当今主流的AI模型。
NVIDIA把
Transformer融入到当前的超分辨率(Super Resolution)、
光
追重建(
Ray Reconstruction
)
与深度学习超采样中(DLAA)中,以实现更优质的画质。
对于主流玩家比较有用的功能基本如此了。还有部分核心技术与创作者功能这里仅列举名词和作用,有兴趣的同学可以等待白皮书发布并翻阅。
Mega Geometry:优化全局光追路径的一种技术
Linear Swept Spheres:针对毛发等条状物优化的一种技术
Neural S
haders:
一种利用神经网络
构建的渲染器
Blackwell Max-Q Power Efficiency Improvements:NVIDIA Blackwell构架显卡采用的更高效版能耗管理技术,旨在实现多区域能耗管控、高效频率管控与低延迟快速休眠。
显卡外观一览
终于到了显卡环节了。我们马上拆开包装吧!
首先我们来看一下火神的
所有配件。
今年的火神
依旧延续着
其独到的
LCD屏幕屏幕设计。
说明书,供电线这些就不多说了
。
LCD屏幕与
配套的LCD屏幕底座以及更像是为了防尘的LED灯带。
当然
千斤顶
也
是必不可少的环节。
全新火神延续系列经典三角设计元素,斜线设计让显卡结构更为分明,激
进的三角及切割线条为显卡注入凌厉而前卫的气质,极具动感及力量感。
更为锐利的金属外骨骼进一步展现了
VULCAN的“暴力美学”,同时全身各处配备“光刃RGB”灯效。
总结来说,今年的火神更加的方正饱满,轮廓感与冲击力更强,和过去自己相比,火神变得“成熟”了。
整张显卡做出了大量的镂空设计,为了满足RTX 5090 D接近600W的散热需求。镂空的区域也并不单调,看似横七竖八的设计线条都在起着支撑作用。
今年的RTX 5090应该不需要讨论钽电容的话题了。干干净净清一色的MLCC电容,为了高频设计。
PCI-E挡板采用双槽设计,散热器达到3.5槽。显示接口相较于上一代多了一个HDMI,达到了3DP+2HDMI的规格。喜欢接机箱观察屏的孩子们终于不用去挤核显的接口了。同时DP接口也终于升级到了DP2.1b,这也意味着终于可以用上满血4K 240Hz UHBR20的显示器。
作为七彩虹特色的一键超频按钮必然有保留。当按下时,会发出蓝色光圈,便于用户分辨是否开启超频。
供电接口并没有网传刚开始一样可能有两个16Pin,仍旧为单个16Pin接口。作为一张TDP达到575W的显卡,单口16Pin已经接近用满了。而火神的超频BIOS把剩下的25W也压榨完。考验16Pin接口的时代来临了。
火神特色的LCD屏幕肯定随迟但到。相较于上一代,小屏幕增加了90度翻转的设计,保留可以转移到桌面的底座。不过屏幕的分辨率仍旧为800x216,所有的设置都可以在iGame Center里调。除了常用的一些监控以外,还可以加入一些定制图片。
外观我们就一览完了,接下来拆开这个猛兽吧!
显卡拆解一览
一直以来我都比较忌惮拆旗舰显卡,因为旗舰显卡的设计往往都很复杂,当然还有一个原因是怕拆坏赔不起……
不过得益于火神
的全铝骨架设计,他就像中间纽带一样把
PCB、散热和背板连接在一起起到固定作用。
只要拆下背板的15颗螺丝之后,PCB和散热就能完整分离。
全程骨架起到了极强的支撑作用,避免PCB受力压弯。
这也是扩展槽可以缩到两槽的原因。
光刃RGB灯带就藏匿在火神的
全铝骨架中,灯光效果都可以用软件进行同步。全铝骨架本身还会和散热一起参与到核心的散热工作中。
硕大的散热一览,为了压制600W功耗,火神祭出了7根8mm+2根6mm,共计9根热管。想当年4热管压450W的时代,9热管显得壕无人性了。
与核心接触的镜面还采用了真空冰片技术。原理与热管散热类似,相当于在核心的位置再做一个平面热管增强散热。这也是核心位置为什么没有大面积的穿Fin原因。
除了散热片的改进以外,风扇也进行了革代。3颗107mm的二代“风镰”风扇通过金属框架固定在全铝骨架中。对比第一代“风镰”,聚风能力更强,风量更大。
风扇型号为
Champion CF1015U12D,规格12V 0.55A。
火神的PCB在散热面前就显得短小精悍多了。毕竟PCB越小当量就越大。
为了方便辨
识一些关键芯片,这里先做框选。整个显卡采用18+7+6组供电设计,外围的18+7颗供电覆盖核心的核心段与外围电路,剩下的6颗供电随显存分布嵌套在核心周围,为16颗显存提供供电。
黄框:显存电路
大家也知道RTX 5090和RTX 5090 D的核心是一样的所以我就不多区分了,型号为GB202-250-A1。
这不是一颗完整的GB202核心,实际启用的CUDA数量只有21760个,而完整的GB202核心有24576个CUDA。
核心仍旧采用TSMC 4N工艺,面积750mm²,晶体管数量922亿。
工艺对比RTX 4090并没提升,反倒是因为核心面积更大导致的边际效应,实际晶体管密度稍有下降。
显存方面采用16颗三星GDDR7显存颗粒,单颗显存2GB,等效频率28Gbps。在512Bit的位宽下为RTX 5090 D带来了接近1.7TB/s的读写速度,已经与HBM2
的速度差不多。
在测试的时候,因为
GPUZ还不能有效识别参数,所以不得而知具体功耗。
不过参考RTX 4090时代,没有个百来瓦基本说不过去的。
控制器是同为芯源系统的MP29816-A。
并没有查到任何数据,但是结合整个PCB都没有另一颗控制器来看,它很有可能是一颗支持3路的控制器。
所有的供电组都采用了芯源系统的MP87993,这颗新一体MOS网传供电能力为90A级。检测芯片是熟悉的UPI uS5650S,自30系就经常见面的老伙计。
性能测试
主板:华硕 ROG CROSSHAIR X870E HERO
内存:金百达 黑刃 32GB×2 DDR5 6000 C28
主硬盘:达墨 水瓶座 2T
散热:鑫谷 昆仑MU-360 ARGB
电源:鑫谷 昆仑 KE-1300P 冰山版
环境温度:19℃
系统版本:Windows 11 24H2
主板为华硕 ROG MAXIMUS Z790 DARK HERO。
散热器为
鑫谷 昆仑MU-360 ARGB,支持最高300W散热能力,水冷头搭
载320*240 LCD屏
幕
。
电源为
鑫谷 昆仑 KE-1300P 冰山版数字电源,可实现电路电压高精准度控制
。
测试项目包含
游戏基准、创作、专业、AI和游戏实测
5个大类,其中游戏实测将着重对比原生、DLSS 3与DLSS 4的帧数与1%Low帧性能。
对比对象为七彩虹 Geforce RTX 4090 战斧。所有测试均以RTX 4090为基准,未特殊说明则均为帧数或分数,数值均越高越好。
为了便于文字阅读,
绿色代表超过/更好,
红色代
表不如
。
首先来看一下
GPU-Z参数。
目前
2.61版本
暂时不能完全识别显卡型号,还有诸如热点温度直接显示255℃的bug。
预计过段时间软件更新就会修复了。
游戏基准
测试:
先来看看进口娱乐大师3DMARK基准测试。
RTX 5090
D在大部分的测试项目中相较于RTX 4090提升了40-
50%
。这个数据对比之前爆料的30%来看还稍微高了点。
不过很神奇的是微软DXR光追测试有明显的落后,
这应该是DXR未优化导致的,毕竟更新了新一版的RT单元,而且Port Royal的分数也没有问题。
3DMARK DLSS性能对比。
在
DLSS 4的加持下,RTX 5090 D对比RTX RTX 4090最高能实现接近
1.5倍的性能提升
。
4K画质下对比原生画质帧数提高了4.33倍。
当然RTX 4090用上DLSS 4也能额外获得30-40帧的帧数提升。
VRMARK对比,Orange Room已经没有测量的意义了。所以主要看Blue Room,
性能提升为29.9%,是完全的光栅性能提升。
我们再看看一些常见的基准测试跑分,
Unreal Engine 2代表的Superpostion Benchmark、DX11 Valley&Heaven Bench和支持DLSS3的UE5 EZBench,从1080P,2K到4K进行性能测试。
可以看到随着分辨率提高,RTX 5090 D在各项测试的性能提升变得越来越明显,
1080P最高34.9%
的提升来自Superpostion Benchmark的测试,
2K最高42.6%
的提升来自Heaven Bench。
4K最高77.1%
的提升来自Valley Bench。非常有趣的是,这仨测试都是DX11时代的测试软件。
而代表当今时代的EZBench性能提升都在30%左右。
创作
测试:
这里直接选择VRay 5+Blender 4.2两大经典的渲染器进行测试,传统渲染其实也并不吃AI,
所以性能提升也是在20-40%。
专业
测试:
专业测试采用SPEC Viewperf 2020进行测试。总体而言,因为这些计算都是实打实的传统GPGPU计算,
所以RTX 5090 D的提升也是在30%上下。
AI测试:
因为RTX 5090 D阉割了AI性能,所以基本没法和RTX 4090对比。不过这里的具体阉割是训练性能,针对应用的推理性能并没有进行限制。这里直接使用MLPerf进行图像创作,文字创作与总结应用的推理测试,
对RTX 4090总体提升37%左右。
50系虽然支持FP4的原生计算,但也只有用到FP4模型才会有成倍的性能提升。
上RTX 5090 D,下RTX 4090
游戏实测:
接下来就是游戏实测了,同样包含了1080P,2K和4K的测试。在大部分不开启DLSS的游戏测试中,RTX 5090 D的
1080P的平均性能提升为27.7%,2K提升至34.5%,4K达到45%。