专栏名称: 芯东西
芯东西专注报道芯片、半导体产业创新,尤其是以芯片设计创新引领的计算新革命和国产替代浪潮;我们是一群追“芯”人,带你一起遨游“芯”辰大海。
目录
相关文章推荐
51好读  ›  专栏  ›  芯东西

深度揭秘RTX 5090八大看点:游戏“兵器库”逆天,将AI炼丹术塞到桌面

芯东西  · 公众号  ·  · 2025-01-21 12:56

正文

RTX 50系列即将开售,刀法如何?
作者 | ZeR0
编辑 | 漠影
今年一开年,NVIDIA GeForce RTX 50系列GPU终于猛兽出笼,能玩顶配游戏,能做AI开发。赶上春节期间上市,估计会成为不少消费者的硬核新年礼物。
国内外有区别的是旗舰卡RTX 5090,RTX 5090起售价1999美元,中国合规版RTX 5090 D起售价16499元。其他非旗舰产品的价格则至少减半。

关注新显卡的朋友们可能还有很多疑问,比如RTX 5090和RTX 5090D有什么区别?除去AI外,其他设计的变化和性能提升有多少?AI和显卡的深度融合到底是噱头还是真有用?
在CES 2025期间,芯东西受邀参加了NVIDIA闭门编辑日,听多位NVIDIA副总裁连讲一整天的大师课,涉及很多GPU性能提升、基准测试和技术原理的细节。在此将一些干货整理分享给大家。
先说结论,如果你不关注AI,只想看传统显卡性能提升,可能50系列显卡会让你略感失望,因为从架构来看,RTX Blackwell和上一代Ada架构相差不大,硬实力升级幅度比较收敛,但是围绕AI的软实力提升可以称得上十分惊艳。
这也是NVIDIA迄今最大胆的一次将AI和游戏显卡高度融合,并让AI成为提升性能的头号主角。
RTX 5090的TDP是575W,比上一代高125W。这么高的功耗,怎么快速冷却呢?以前的设计是空气进来后撞到PCB板拐弯,从一个较小的排气口排出,风扇转得越快噪声越大。NVIDIA则把原来的PCB拿掉,中间做了个更小更紧凑的PCB板,让气流可以从两边风扇的散热鳍片直接顺滑通过,效率更高,还大降噪音。

我们将从以下8个方面,详细解析RTX 50系列消费级GPU的特点:
1、RTX 50系列的基础规格与基准测试表现;
2、Blackwell架构的设计目标、主要变化;
3、DLSS 4多帧生成的效果及用途;
4、多帧生成的技术原理与难点;
5、图形业首个实时Transformer模型应用;
6、首次将AI引入可编程着色器;
7、给游戏世界构建AI队友、AI助手、AI敌人;
8、AI PC本地部署生成式AI模型,优化直播和3D创意工作。
注:本文信息量偏大,读者朋友可直接跳至感兴趣的章节阅读。

01 .
游戏+AI性能猛兽出笼:
全系显存换新,畅玩超250帧4K游戏


RTX 5090仍然采用台积电NVIDIA 4N定制工艺,面积变得更大。上一代4090的GPU芯片面积是608mm²,RTX 5090系列的面积则增加到744mm²。
RTX 5090拥有920亿个晶体管、21760个CUDA核心(比上一代多50%),AI峰值算力是3352TOPS。RTX 5090 D硬件配置是一样的,AI算力受合规限制到2375TOPS,也就是比5080高了约32%。

▲RTX 50系列显卡规格

目前公开的RTX 50系列GPU,显存都升级到GDDR7,位宽、容量做了分级:5090是512bit、32GB,5080和5070 Ti是256bit、16GB,5070是192bit、12GB。
GeForce RTX 50系列笔记本电脑GPU规格也同步更新,相比上一代,能效更高、能跑2倍大的AI模型、视频编辑速度快40%,电池寿命延长40%。

▲RTX 50系列笔记本电脑GPU规格

令人印象深刻的依然是AI技术,性能最多暴涨至8倍。
尤其是DLSS 4,在跑《黑神话:悟空》、《赛博朋克 2077》等硬件密集型光线追踪游戏时,4K分辨率下帧率超过200FPS,而且显著减少延迟。

RTX 5090 / 5090 D无疑是性能猛兽,开DLSS 4和全景光追时升级幅度非常可观。NVIDIA官方公布的游戏及渲染测试显示,4K分辨率、最高游戏设置的情况下,在开DLSS 4时,RTX 5090 / 5090 D / 5080基本上都表现出至少翻倍的性能提升。

RTX 5070 Ti / 5070也借助DLSS 4实现了超过翻倍的性能提升,在采用 2560x1440 分辨率、最高游戏设置的情况下,能以高帧率畅玩《心灵杀手2》、《黑神话:悟空》、《赛博朋克2077》等游戏。

不过在没开DLSS的情况下,例如《生化危机4》,RTX 50系列相比上一代的提升幅度更小一些,约提升15%~30%。
这些基准测试性能对比已经在官网公布。
RTX 5070的硬件规格虽然难与旗舰卡相提并论,但通过DLSS 4等AI软实力的提升,NVIDIA称其性能表现已经堪比前代旗舰卡4090。


02 .
Blackwell架构:
支持神经网络渲染,FP4精度AI算力暴涨


RTX 50系列GPU采用Blackwell架构。NVIDIA称Blackwell融合了AI驱动的神经网络渲染和光线追踪,是自25年前推出可编程着色以来最重要的计算机图形创新。

RTX Blackwell架构的设计目标包括优化新神经网络工作负载、减少显存占用、提高能效等。

上一代Ada架构的SM多单元流处理器里,Shader Core有一半仅支持FP32,一半可以同时支持FP32/INT32。Blackwell SM则变成所有Shader Core都支持FP32/INT32,并首次支持神经网络着色器,可提供125TFLOPS算力;承载AI计算的Tensor Core由第四代升级到第五代。

下图中间灰框是着色器执行重排序(SER),用于优化GPU光线追踪和图形渲染。它会遍历并重新排序工作,把相同工作分别放在一起,提高运行效率,将整体重排序性能翻倍。

负责光线追踪计算的Blackwell第四代RT Core,能够更好支持NVIDIA RTX Mega Geometry技术。该技术可将场景中的光线追踪三角形数量增加多达100倍,能够更有效地处理超大几何图形簇。

RT Core增加了对线性扫描球体(Linear-swept spheres)、三角形簇交汇引擎(Triangle Cluster Intersection Engine)、三角形簇解压缩(Triangle Cluster Decompression)的支持,可支持的几何复杂度增加很多。
Blackwell也更擅长加速3D渲染,可将采用生成式AI的3D工作流的性能,较上一代提升50%。相比上一代,由第四代RT Core驱动的3D渲染,性能提升约40%。使用D5 Render时,RTX 5090的性能更是达到上一代的2.3倍。这对3D内容创作大有裨益。

得益于神经网络渲染架构,Blackwell的每帧AI TOPS相比上一代最多提升达8倍。

针对AI运算,第五代Tensor Core首度增加对FP4精度的支持,AI推理性能是上一代Ada FP8的2倍,并使生成式AI模型能够在PC本地运行,占用的显存更小。现在RTX 50系列GPU已经能支持本地运行视频生成模型了。
举个例子,同样是跑Black forest labs图像生成模型FLUX.1,用RTX 4090在FP16精度下要花15秒、占用超过23GB的显存,而用RTX 5090在FP4精度下只花5秒、占用10GB显存。

Blackwell还添加了一个可编程的AI管理处理器,可以实现对AI和图形工作负载同时运行的智能调度分配。比如在玩游戏时,它能优先保证AI队友第一时间作出响应。

Blackwell显示引擎和编解码器同样更新迭代。显示引擎首度支持DP 2.1,能运行更高的刷新率;还新增了对硬件级Flip Metering的支持,用于优化多帧生成中的帧节奏逻辑。

升级的还有视频编解码,现支持4:2:2格式的硬件编解码,能够更好地服务于专业级视频编辑。第9代视频编码器可在DaVinci Resolve、Adobe Premiere Pro等应用中实现快速视频导出,并使用AI驱动特效。


03 .
DLSS 4多帧生成:
帧率暴涨至8倍,占用更少显存


近年来DLSS(深度学习超级采样)已经成为RTX系列GPU升级的重头戏,用于提高帧率,同时提供媲美原始分辨率渲染的清晰高质量图像。
RTX 50系列里最抢眼的技术当属最新引入的DLSS 4,首次推出多帧生成功能。

▲支持DLSS技术的硬件

多帧生成可以为每个渲染帧额外生成最多3帧。整套DLSS技术全开,可将运行游戏或应用的帧率提高到传统图像渲染时的8倍、单帧生成时的1.7倍。

仅用超分辨率或光线重建,4个像素中有3个是AI生成的;添加单帧生成时,8个像素中有7个是由AI生成的;最后通过DLSS 4多帧生成,16个像素中就有15个由AI生成。

可以看几张对比图,来直观感受下开DLSS 4对画面细节的优化效果有多明显。
镜中重影得到优化:

纹理更精细:

发丝、光影的质量也显著提升:

开了DLSS 4后,RTX 5090显卡可以驾驭4K 240 FPS全景光线追踪游戏。

比如玩《赛博朋克2077》,与传统渲染相比,RTX 5090的帧率提高近8倍,PC延迟减少一半,图像质量也得到增强。

NVIDIA还针对RTX 40和50系列GPU强化了帧生成模型。新CNN模型速度提高了40%,显存占用量减少了30%。例如在《战锤40000:暗潮》中,使用DLSS帧生成,在4K、最高设置下提供了10%更快的帧率,同时减少了400MB的显存使用量。

同时,DLSS光线重建、DLSS超分辨率和DLAA也转由Transformer模型驱动, 它将进一步提升RTX20、30、40、50系卡的DLSS 性能体验。
在1月30日产品上市时,将有超过75款游戏和应用支持DLSS 4。《黑神话:悟空》也将在新卡发售当天支持DLSS 4,并在未来提供对DLSS 4的 原生支持
除了游戏外,DLSS 4还将用于虚幻引擎5、D5 Render、Chaos Vantage等创作应用,显著增强实时视图的端口体验,提高D5 Render中的帧速率,使得设计师能更好地迭代和协作工作。

04 .
多帧生成的技术难点:
控制成本、帧节奏、延迟


RTX 50系列能用上多帧生成,得益于Blackwell硬件和DLSS软件创新的相辅相成。
DLSS 3帧生成功能在2022年发布,用AI模型来预测序列中的下一帧。该帧生成AI模型使用游戏里的运动矢量、深度等数据和RTX 40系列光流加速器的光流场,在每对传统渲染的帧之间创建一个额外帧。

而要实现多帧生成,成本就变得很高。因为每个新生成的帧都需要光流加速器和AI模型,性能成本会限制GPU,导致输入帧率降低。
多帧生成难在需要一致且精确的帧节奏。DLSS 3帧生成使用基于CPU的帧节奏,由于不同游戏引擎在CPU和GPU之间划分工作负载的方式不同,其可变性可能会随着其他帧而增加,导致每帧之间的帧间隔是变化的,会造成卡顿。
对此,NVIDIA研究团队开发了一个全新AI模型,搭配Blackwell的硬件级Flip Metering,确保GPU提供一致且最佳的帧率。高效的AI模型取代了硬件光流加速器,来加快光流场生成速度,能显著降低生成额外帧的计算成本。

Flip Metering可以调整帧传送速度,使GPU在生成和渲染帧时能更高效地进行时序管理,实现更稳定的帧生成,避免严重卡顿。

如果一款游戏运行所有DLSS 4功能,包括超分辨率、光线重建、多帧生成,GPU需要在几毫秒内为每个渲染帧运行5个AI模型,否则DLSS多帧生成可能会成为减速器。
这就需要配备更强的硬件。基于Blackwell第五代Tensor Core,RTX 50系列的AI处理性能最高达到上一代GPU的2.5倍。新帧生成后,其节奏均匀,从而能提供流畅的体验。
针对AI补帧会增加延迟的问题,NVIDIA的解法是引入Reflex 2来优化图像渲染管线,最多能将延迟减少75%。Reflex低延迟模式通过在GPU与CPU之间进行精确渲染同步来降低PC延迟。Reflex 2引入了一种新技术Frame Warp,可以在将渲染帧发送到显示器之前,根据最新鼠标输入数据来更新渲染帧,以提高游戏响应速度。

NVIDIA还开发了一个Inpaint预测修补技术,用于修复前一帧的颜色与深度数据的空白区域,让画面更加接近原生渲染。







请到「今天看啥」查看全文