专栏名称: 电脑吧评测室
欢迎关注电脑吧评测室,我们是电脑DIY硬件产品爱好者。买电脑、DIY硬件配置推荐、硬件咨询、新产品评测、什么产品值得买,都可以关注我们。
目录
相关文章推荐
macrozheng  ·  300 秒到 4 秒,如何将 MySQL ... ·  18 小时前  
数据中心运维管理  ·  探索数据中心的多模光纤距离限制 ·  4 天前  
数据中心运维管理  ·  DeepSeek加速大马数据中心发展 ·  3 天前  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
51好读  ›  专栏  ›  电脑吧评测室

【八测】火神降临,谁与争锋!七彩虹 iGame Geforce RTX 5090 D Vulcan OC 32GB评测

电脑吧评测室  · 公众号  ·  · 2025-01-24 22:00

正文

前言

2025年1月23日,万众瞩目的公版RTX 5090已经正式解禁,而今天是所有非公显卡解禁的日子。事不宜迟,让我们一起来看看七彩虹的旗舰代表——火神吧。

—— 七彩虹 iGame Geforce RTX 5090 D Vulcan OC 32GB



NVIDIA Blackwell 新功能解析

*如果已经看过类似介绍,可以直接下拉跳转

众所周知,如今的计算机发展面临着工艺制程进步缓慢的问题。在无法改变制程工艺的情况下,改进架构成了提升性能的唯一方法。近年来,AI性能的大爆发成为了各大硬件厂商垂涎的要点。而NVIDIA Blackwell就是在这样一个时代里诞生的架构。

GB202 核心一览:

Blackwell 的完整体是GB202,相比于原来的AD102,更多的改进在于单个GPC与SM单元。核心内的L2缓存翻倍增加至 128MB 。同时新的GPC单元内引入了更多的SM单元,以及改进的RT和Tensor Core,进一步强化显卡在AI计算上的性能。

GB202共计有12个GPC(Graphics Processing Cluster,图像计算集群)。每个GPC中包含8个TPC(Texture Processing Cluster,像素计算集群), 16个SM ,16个ROPs。整个GB202拥有512Bit的显存控制器。在每个SM中,包含了128个CUDA,2个FP64浮点计算单元,1个 第4代 RT光追单元,4个 第5代 Tensor张量计算单元,4个TMUs。因此整体规格如下:

  • 24576个CUDAs(上一代为18432, ↑33.3%

  • 192ROPs (上一代为192, 持平

  • 768TMUs (上一代为576, ↑33.3%

  • 192RTCores (上一代为144, ↑33.3%

  • 768TensorCores (上一代为576, ↑33.3%

如果我们把两者最大的核心放在一起对比,可以发现同样都是TSMC 4N工艺,AD102的核心晶体管数量为763亿,核心面积608.5mm²。而GB202为922亿与750mm²。由于晶圆变大造成的边际效应,GB202在每平方毫米晶体管数量略逊于AD102,而如果套用两者旗舰显卡的功耗,那么GB202的每平方毫米瓦数也将略高于AD102。

GPC内的SM单元变化主要集中在CUDA的功能上。AD102 Ada架构的CUDA分为分为两种,一种是可以计算FP32/INT32的CUDA单元,另一种是只能进行FP32计算的单元。而在GB202 Blackwell架构上,所有的CUDA核心都支持FP32/INT32计算。如今高性能的模型都会采用量化的方式进行性能优化,也即模型内的计算都采用整数存储运算。Blackwell SM在面对量化模型上将会比Ada SM有更好的表现。

因此从账面的数据来看,Blackwell构架更像是一个加大版Ada, 传统性能提升可能并 不会如RTX 3090到RTX 4090那样显著,更多的性能提升将会是RT与Tensor单元。

第五代Tensor Core

第五代Tensor Core支持FP4计算。相较于第四代Tensor Core 的FP8而言,计算性能直接翻倍的同时,更低的计算精度意味着原来更大的模型可以在更小的显存中运行。目前NVIDIA也提供了相应的量化工具,实现模型的快速转化。


DLSS 4

进入RTX时代以来, DL SS 随之诞生。作为一种抗锯齿 优化 的技术,DLSS不仅不会降低性能,反而还会提升性能。这里面重要的操作就是引入AI的方式对画面进行优化。但话虽如此,早期的DLSS画质效果并不理想,因此大家对于DLSS的态度一直是画质与性能不可兼得。但是在DLSS 4时代,这也许会引来改变。

新加入的 DLSS 4是50系最重要的性能提升点。 在MFG多帧生成技术和DLAA Transformer 模型的加持下,DLSS 4可以带来画质与帧数兼备的游戏体验。

Multi Frame Generation(MFG,多帧生成技术)

在40系时代,帧生成技术已经得以推广。简单来说,是通过AI模型实现1帧渲染1帧AI的方式获得成倍的帧数提升。在50系时代,得益于Tensor Core性能的进一步提升,NVIDIA推出了多帧生成技术,简而言之原来 1帧渲染1帧 AI的方式可以升级为 1帧渲染2帧 AI,甚至 1帧渲染3帧 AI。

Transformer Model

DLSS在抗锯齿上的优化一直以来AI模型。而当前主流的AI模型分类包含CNN与 Transformer。了解 深度学习的同学对CNN与Transformer这两个词应该非常熟悉。 Transformer由于其更深更广的模型数据深度设计,在模型预测的能力上更强。因此它也是当今主流的AI模型。

NVIDIA把 Transformer融入到当前的超分辨率(Super Resolution)、 追重建( Ray Reconstruction 与深度学习超采样中(DLAA)中,以实现更优质的画质。

对于主流玩家比较有用的功能基本如此了。还有部分核心技术与创作者功能这里仅列举名词和作用,有兴趣的同学可以等待白皮书发布并翻阅。

Mega Geometry:优化全局光追路径的一种技术
Linear Swept Spheres:针对毛发等条状物优化的一种技术
Neural S haders: 一种利用神经网络 构建的渲染器

Blackwell Max-Q Power Efficiency Improvements:NVIDIA Blackwell构架显卡采用的更高效版能耗管理技术,旨在实现多区域能耗管控、高效频率管控与低延迟快速休眠。



显卡外观一览

终于到了显卡环节了。我们马上拆开包装吧!

首先我们来看一下火神的 所有配件。 今年的火神 依旧延续着 其独到的 LCD屏幕屏幕设计。 说明书,供电线这些就不多说了 LCD屏幕与 配套的LCD屏幕底座以及更像是为了防尘的LED灯带。 当然 千斤顶 是必不可少的环节。

全新火神延续系列经典三角设计元素,斜线设计让显卡结构更为分明,激 进的三角及切割线条为显卡注入凌厉而前卫的气质,极具动感及力量感。 更为锐利的金属外骨骼进一步展现了 VULCAN的“暴力美学”,同时全身各处配备“光刃RGB”灯效。

总结来说,今年的火神更加的方正饱满,轮廓感与冲击力更强,和过去自己相比,火神变得“成熟”了。

整张显卡做出了大量的镂空设计,为了满足RTX 5090 D接近600W的散热需求。镂空的区域也并不单调,看似横七竖八的设计线条都在起着支撑作用。

今年的RTX 5090应该不需要讨论钽电容的话题了。干干净净清一色的MLCC电容,为了高频设计。

PCI-E挡板采用双槽设计,散热器达到3.5槽。显示接口相较于上一代多了一个HDMI,达到了3DP+2HDMI的规格。喜欢接机箱观察屏的孩子们终于不用去挤核显的接口了。同时DP接口也终于升级到了DP2.1b,这也意味着终于可以用上满血4K 240Hz UHBR20的显示器。

作为七彩虹特色的一键超频按钮必然有保留。当按下时,会发出蓝色光圈,便于用户分辨是否开启超频。

供电接口并没有网传刚开始一样可能有两个16Pin,仍旧为单个16Pin接口。作为一张TDP达到575W的显卡,单口16Pin已经接近用满了。而火神的超频BIOS把剩下的25W也压榨完。考验16Pin接口的时代来临了。

火神特色的LCD屏幕肯定随迟但到。相较于上一代,小屏幕增加了90度翻转的设计,保留可以转移到桌面的底座。不过屏幕的分辨率仍旧为800x216,所有的设置都可以在iGame Center里调。除了常用的一些监控以外,还可以加入一些定制图片。

外观我们就一览完了,接下来拆开这个猛兽吧!


显卡拆解一览

一直以来我都比较忌惮拆旗舰显卡,因为旗舰显卡的设计往往都很复杂,当然还有一个原因是怕拆坏赔不起……

不过得益于火神 的全铝骨架设计,他就像中间纽带一样把 PCB、散热和背板连接在一起起到固定作用。 只要拆下背板的15颗螺丝之后,PCB和散热就能完整分离。 全程骨架起到了极强的支撑作用,避免PCB受力压弯。 这也是扩展槽可以缩到两槽的原因。

光刃RGB灯带就藏匿在火神的 全铝骨架中,灯光效果都可以用软件进行同步。全铝骨架本身还会和散热一起参与到核心的散热工作中。

硕大的散热一览,为了压制600W功耗,火神祭出了7根8mm+2根6mm,共计9根热管。想当年4热管压450W的时代,9热管显得壕无人性了。

与核心接触的镜面还采用了真空冰片技术。原理与热管散热类似,相当于在核心的位置再做一个平面热管增强散热。这也是核心位置为什么没有大面积的穿Fin原因。

除了散热片的改进以外,风扇也进行了革代。3颗107mm的二代“风镰”风扇通过金属框架固定在全铝骨架中。对比第一代“风镰”,聚风能力更强,风量更大。 风扇型号为 Champion CF1015U12D,规格12V 0.55A。

火神的PCB在散热面前就显得短小精悍多了。毕竟PCB越小当量就越大。 为了方便辨 识一些关键芯片,这里先做框选。整个显卡采用18+7+6组供电设计,外围的18+7颗供电覆盖核心的核心段与外围电路,剩下的6颗供电随显存分布嵌套在核心周围,为16颗显存提供供电。

红框:供电电路

黄框:显存电路

大家也知道RTX 5090和RTX 5090 D的核心是一样的所以我就不多区分了,型号为GB202-250-A1。 这不是一颗完整的GB202核心,实际启用的CUDA数量只有21760个,而完整的GB202核心有24576个CUDA。 核心仍旧采用TSMC 4N工艺,面积750mm²,晶体管数量922亿。 工艺对比RTX 4090并没提升,反倒是因为核心面积更大导致的边际效应,实际晶体管密度稍有下降。

显存方面采用16颗三星GDDR7显存颗粒,单颗显存2GB,等效频率28Gbps。在512Bit的位宽下为RTX 5090 D带来了接近1.7TB/s的读写速度,已经与HBM2 的速度差不多。 在测试的时候,因为 GPUZ还不能有效识别参数,所以不得而知具体功耗。 不过参考RTX 4090时代,没有个百来瓦基本说不过去的。

控制器是同为芯源系统的MP29816-A。 并没有查到任何数据,但是结合整个PCB都没有另一颗控制器来看,它很有可能是一颗支持3路的控制器。 所有的供电组都采用了芯源系统的MP87993,这颗新一体MOS网传供电能力为90A级。检测芯片是熟悉的UPI uS5650S,自30系就经常见面的老伙计。



性能测试

测试平台:
CPU: AMD Ryzen 9 9800X3D

主板:华硕 ROG CROSSHAIR X870E HERO

内存:金百达 黑刃 32GB×2 DDR5 6000 C28

主硬盘:达墨 水瓶座 2T

散热:鑫谷 昆仑MU-360 ARGB

电源:鑫谷 昆仑 KE-1300P 冰山版

环境温度:19℃

系统版本:Windows 11 24H2

驱动:571.86

主板为华硕 ROG MAXIMUS Z790 DARK HERO。

散热器为 鑫谷 昆仑MU-360 ARGB,支持最高300W散热能力,水冷头搭 载320*240 LCD屏

电源为 鑫谷 昆仑 KE-1300P 冰山版数字电源,可实现电路电压高精准度控制

测试项目包含 游戏基准、创作、专业、AI和游戏实测 5个大类,其中游戏实测将着重对比原生、DLSS 3与DLSS 4的帧数与1%Low帧性能。

对比对象为七彩虹 Geforce RTX 4090 战斧。所有测试均以RTX 4090为基准,未特殊说明则均为帧数或分数,数值均越高越好。

为了便于文字阅读, 绿色代表超过/更好, 红色代 表不如

首先来看一下 GPU-Z参数。 目前 2.61版本 暂时不能完全识别显卡型号,还有诸如热点温度直接显示255℃的bug。 预计过段时间软件更新就会修复了。

游戏基准 测试:

先来看看进口娱乐大师3DMARK基准测试。 RTX 5090 D在大部分的测试项目中相较于RTX 4090提升了40- 50% 。这个数据对比之前爆料的30%来看还稍微高了点。 不过很神奇的是微软DXR光追测试有明显的落后, 这应该是DXR未优化导致的,毕竟更新了新一版的RT单元,而且Port Royal的分数也没有问题。

3DMARK DLSS性能对比。 DLSS 4的加持下,RTX 5090 D对比RTX RTX 4090最高能实现接近 1.5倍的性能提升 4K画质下对比原生画质帧数提高了4.33倍。 当然RTX 4090用上DLSS 4也能额外获得30-40帧的帧数提升。

VRMARK对比,Orange Room已经没有测量的意义了。所以主要看Blue Room, 性能提升为29.9%,是完全的光栅性能提升。

我们再看看一些常见的基准测试跑分, Unreal Engine 2代表的Superpostion Benchmark、DX11 Valley&Heaven Bench和支持DLSS3的UE5 EZBench,从1080P,2K到4K进行性能测试。

可以看到随着分辨率提高,RTX 5090 D在各项测试的性能提升变得越来越明显, 1080P最高34.9% 的提升来自Superpostion Benchmark的测试, 2K最高42.6% 的提升来自Heaven Bench。 4K最高77.1% 的提升来自Valley Bench。非常有趣的是,这仨测试都是DX11时代的测试软件。 而代表当今时代的EZBench性能提升都在30%左右。

创作 测试:

这里直接选择VRay 5+Blender 4.2两大经典的渲染器进行测试,传统渲染其实也并不吃AI, 所以性能提升也是在20-40%。

专业 测试:

专业测试采用SPEC Viewperf 2020进行测试。总体而言,因为这些计算都是实打实的传统GPGPU计算, 所以RTX 5090 D的提升也是在30%上下。

AI测试:

因为RTX 5090 D阉割了AI性能,所以基本没法和RTX 4090对比。不过这里的具体阉割是训练性能,针对应用的推理性能并没有进行限制。这里直接使用MLPerf进行图像创作,文字创作与总结应用的推理测试, 对RTX 4090总体提升37%左右。 50系虽然支持FP4的原生计算,但也只有用到FP4模型才会有成倍的性能提升。

上RTX 5090 D,下RTX 4090

游戏实测:

接下来就是游戏实测了,同样包含了1080P,2K和4K的测试。在大部分不开启DLSS的游戏测试中,RTX 5090 D的 1080P的平均性能提升为27.7%,2K提升至34.5%,4K达到45%。







请到「今天看啥」查看全文