专栏名称: 电脑吧评测室
欢迎关注电脑吧评测室,我们是电脑DIY硬件产品爱好者。买电脑、DIY硬件配置推荐、硬件咨询、新产品评测、什么产品值得买,都可以关注我们。
51好读  ›  专栏  ›  电脑吧评测室

不仅仅是「拼好帧」——NVIDIA DLSS4 Feature Test

电脑吧评测室  · 公众号  ·  · 2025-01-25 22:00

正文

前言

众所周知游戏显卡本质上是个软件行业,能做专用甚至通用计算卡的公司很多,但是能做游戏卡的凤毛麟角,甚至在这几家做游戏卡的公司里英伟达相比其它几家在游戏方面最大的护城河就是软件,准确的说就是显卡驱动,以及各种基于算法的游戏画面增强技术。这其中最广为人知的就是DLSS,在20系显卡正式推出DLSS1.0以来,DLSS已经更新了4个大版本,至少7个小版本,每一次的更新都会引起人们的深刻讨论,这次随RTX50亮相的DLSS4讨论热度依旧不减,正好这次RTX50的评测解禁时间相当特殊,昨天晚上十点解禁了5090的性能评测但是只解了FE,而由于众所周知的原因大陆地区只有5090D,而5090D没有FE,这也就事实上造成了5090D的解禁日期比5090晚一天,而之前NV也有特别说明5090D和5090的游戏性能没有差别——那做传统性能测试就完全没啥意思了,所以这次我就专门针对DLSS4这个部分,做一次深度解析与测评,当然也有一些关于5090D的大部分评测up不太可能做但我比较关心的东西。

DLSS发展史与DLSS4简介

除去DLSS1.0那个本质思路就有问题完全试图想依靠以图生图来做超分的不成熟产品之外,DLSS的版本演化其实从上面这张DLSS4特征列表里就可以看到,虽然DLSS里面“SS”的全称是Super Sampling,但目前的DLSS早已经超越了超分这个简单的范畴,按照版本变革加入的新特性可以整理概括如下:
DLSS2.0:利用低分辨率的帧和运动矢量(帧间关系)合成高分辨率图像,DLSS技术真正进入实用化的开端
DLSS2.3:在DLSS2.0的基础上增加了不同的Preset档位,可以更好的应付游戏中复杂的纹理、光影等情况,图像质量得以进一步提升。
DLSS3.0:随RTX40系列一起推出,引入基于光流引擎的帧生成功能
DLSS3.1:没有特别的新技术改进,但是开放了一定的自行调整空间,让游戏开发者、第三方MOD制作者可以更方便的调用API,虽然没有画质进化但这个版本仍然具有重大意义,自此官方补丁DLSS支持和民间DLSS MOD开始井喷式出现
DLSS3.5:即DLSS Ray Reconstruction光线重建,专门用于解决传统光追渲染器的分辨率不足、信噪比低问题,虽然普及度是目前几个DLSS小技术里最低的(至今只有赛博朋克2077、Alan Wake2、Portal RTX这几个游戏支持),但我对其仍然大加赞赏,这是真正意义上的第一个基于重建而不是超分思路的DLSS技术,很多深空天体低信噪比低分辨率照片强行还原用的也是类似方法,某种程度上来说也是一种阿波罗的遗产。
太阳系外行星北落师门B的直接拍摄法成像照片,原始信号采集由哈勃太空望远镜完成,但单靠该望远镜的分辨率和信噪比不足以发现行星,直到后来图像处理技术进步之后才把淹没在背景噪声里的行星特征信号还原出来
DLSS3.7:也是一个主要针对开发者优化的版本,甚至首发于Github
DLSS4.0:随RTX50系显卡推出,从第一张图里的信息来看似乎只是引入了「拼好帧」(Multi-Frame Generation多帧生成),但实际上是一个再次把DLSS原有模型推倒重来的产物,除了多帧生成之外:
  • 运动矢量/光流信息不再由专门的OFA单元计算,而是改由Tensor Core通过神经网络生成,这也就意味着没有OFA单元的RTX20系列和“OFA算力不足”的RTX30系列有望支持DLSS FG,但至于会不会真的给,很明显这不是一个技术问题。

  • DLSS SR超分和RR重建所使用的模型由原来的CNN(卷积神经网络)替换为全新的Transformer引擎,这个改进幅度实际上不亚于DLSS1.0到2.0的进化,接下来我们会重点分析这个,以及最重要的事情:这个东西是不限型号的,RTX20系还在战未来
  • 引入Reflex 2.0技术,进一步降低系统延迟
接下来我们进入测试环节,测试一下全新的DLSS4.0究竟都给我们带来了什么。惯例先介绍一下测试平台:
  • CPU:AMD Ryzen 7 9800X3D PBO+200=5.425GHz
  • 主板:华硕ROG Crosshair X870E Hero
  • 内存:七彩虹战斧赤焰白6600c34 24G×4共96GB 实际运行于6000c30 1:1同步模式
  • 显卡:七彩虹GeForce RTX 5090D 32GB Advanced OC
  • 电源:华硕ROG Thor III 雷神三代1000W
  • 其它配件对显卡性能测试无影响,故不再一一列出。

Transformer模型:DLSS4的全新灵魂

这个东西的名字确实可能第一次进入臭打游戏玩家的视野,因为这个技术本身其实也挺新的,其原理论文在2017年才发表( 《Attention Is All You Need》, Ashish Vaswani等 )。不过它的应用产物估计绝大部分人都知道——没错就是ChatGPT以及后续各家的大语言模型,Transformer引擎的自注意力和多头机制对于自然语言处理方面属于天生圣体,至此开启了一个新时代,AIPC开始到处害人(
当然Transformer模型在自然语言处理中的应用不是我们今天要研究的东西,实际上Transformer模型在图像处理当中使用起来也有很多奇效,比如现在流行的文生图、图生图、AI图像超分等等都是利用了Transformer模型可以提取图像各部分信息然后通过编码器输出的特性,可以说DLSS1.0是图像生成,DLSS2.0是图像合成,DLSS4又回到了一定程度上图像生成的路线,只是效果早已不可同日而语。
这两张截图都是同样设置(性能档,1080p上采样到4K)下的同场景局部截图,唯一的区别就是左边是老的CNN模型,右边是Transformer。其实对比起来看最明显的就是纹理——之前RTX50系还在传说阶段的时候就有说法讲DLSS的新特性是纹理增强,现在来看这信息应该是真有消息的人发出来的,可能是看过演示之后猜的结论,如果只对比这些图像质量的话,纹理增强是个很自然的推论,很难一下子想到这是换了底层模型之后的结果。
新模型同样适配于DLSS RR光线重建,而且理论上来说Transformer模型的机制对于这种更低分辨率的光线、更低信噪比的表面做还原更是一把好手,从实际录制结果来看也确实如此,Transformer模型在细节纹理重建、暗部低信噪比区域重建的表现好得令人震惊,甚至不亚于DLSS RR刚出现的时候带给我们的光追质量改善震撼。
除去纹理之外还有个问题就是边缘处理,之前我也经常吐槽DLSS生成的图像看起来锐度是高,但总有一种手机拍照味儿——实际上手机拍照传统的增强算法也是低分辨率图像的多帧合成输出,一个味儿那太正常了。Transformer模型增加了生成能力之后倒有点类似现在一些新手机的“AI长焦”了,手机摄影味儿一扫而空,平滑程度过于离谱。这个技术应用在手机摄影里还有个拍出来的是否如你所见的争论,但是游戏图像本来就不是现实采集的,完美避开了这个问题。
讨论完Transformer模型的SR和RR表现之后我们再来看看FG,之前DLSS FG被人诟病的地方除了补帧必然产生的延迟之外再一个就是容易补得稀碎,由于运动矢量还原帧间关系有个隐含条件就是帧之间没有突变,这时才能得到平滑的解,但是实际上游戏场景中黑白界面、高速运动这些情况还是挺多的,此时传统插帧和CNN补帧都会出现明显可见的伪影甚至错误成像(如箭头所指),但我们在这里可以看到,Tensor Core光流计算补帧几乎完美修正了这个问题,补出来的帧几乎没有瑕疵,即使盯帧硬找也很难找到
(铁丝网断开这个是SR里就有的问题,盯帧对比SR和SR+FG的话反正我是看不出什么)
讨论完画质的话,按道理说我们应该来讨论一下性能了,但我发现这里讨论性能有点麻烦:
这两组看起来都差不多,是吧
但如果告诉你第一组左边是老模型的Performance性能档位,右边是Ultra Performance超级性能,第二组左边是老模型的100%分辨率DLAA,右边是新模型的Balance平衡档DLSS呢?
所以我感觉就是单纯去比新老模型同设置下的帧数几乎没啥意义,但是目前又没有什么太好的办法去对比同画质下的帧数(不同场景下画质和帧数浮动都很大),所以下一个定性的结论好了,单Transformer模型在同档位下的画质提升,或者同样的目标画质下允许你用更低的上采样档位,这本身就是一种非常直观有效的性能提升。
当然有一种情况的性能也是需要测试一下的,那就是老显卡。上面我们也说了新模型并没有任何形式的独占,但是全部的压力都交给了Tensor Core,老显卡不仅Tensor Core的算力低,支持的格式也少,像RTX20系只支持到FP16,硬跑低精度高吞吐的模型的话性能折损可能会是个不可忽略的问题,所以我找来了一张经典老显卡——RTX2080Super。
都是默认高画质(无光追)+DLSS性能档位,上Transformer下CNN,可以看到新模型在老卡上的性能折损其实还是有点多的,甚至功率压力也更大了,很明显只支持FP16的老Tensor Core单是跑这个模型就已经用尽全力,用户只需要加载新模型就行,老显卡需要考虑的事情那可就多了——
甚至于降低到超级性能档的Transformer模型,帧数提升也不大,感觉就是被Tensor Core的能力给限制住了。不过猜想这种折损应该仅限于20系,30系卡的Tensor Core算力强很多而且至少支持FP8,不过手头没有30系卡没法进行测试,只能等后面看别人跑的结果了。
所以自然而然的又引出了一个问题——既然新的DLSS模型对Tensor Core算力有一定的要求,而众所周知5090D相比5090针对性的砍了一部分Tensor算力,那么对DLSS性能会有影响吗?针对这个问题我专门对比了一下自己手里5090D和昨天老外发的满血5090在相同DLSS档位下的测试结果,由于首批提供给媒体的DLSS测试游戏里只有2077有自带Benchmark方便复现,所以只对比2077的数据:
路径追踪+质量档超分+四倍拼好帧,5090是209fps,5090D 211.59fps;
Ultra光追预设+质量档超分+四倍拼好帧,5090FE是288fps,5090D是293fps
Tensor Core压力最重的一集,PT+超级性能档超分+四倍拼好帧,5090FE是371fps,5090D是374fps
这么看的话5090D的DLSS性能应该没有损失,反而是5090FE那个双槽散热器散热能力低于非公大板砖+一键预超频的影响更大一些,这个问题确实也不用太担心,当年LHR限制的是INT32算力,打击面远比LAI广,都没有影响到任何游戏性能,软件这块相信老黄的实力就完事了。
最后就是关于四倍拼好帧的游戏体验问题,这个属于做图文几乎没法展示只能交给做视频的,就简单说说主观感受好了。首先它跟老补帧一样只能锦上添花无法雪中送炭
以我并不出众的动态视力来看,再怎么着也得保证补帧之前的原始帧率有40fps,低于这个值的话枪械开镜都能感觉到延迟卡顿,更别说对枪和玩动作游戏了,甚至还会出现HUD UI扭曲这种问题。注意这里指的是考虑补帧本身损耗之后的原始帧率,或者换句话说就是补完之后的目标帧率不低于160fps,很明显这就是给买今年这些4K 240/2K 500高刷显示器用户准备的功能,普通2K/4K 144用户还是跟以前一样,开个2倍补帧用40补80,享受一下新模型带来的补帧画质提升就可以了。至于60Hz显示器用户,则不推荐使用任何的补帧功能。






请到「今天看啥」查看全文