专栏名称: 芯东西

芯东西专注报道芯片、半导体产业创新，尤其是以芯片设计创新引领的计算新革命和国产替代浪潮；我们是一群追“芯”人，带你一起遨游“芯”辰大海。

深度揭秘RTX 5090八大看点：游戏“兵器库”逆天，将AI炼丹术塞到桌面

芯东西 · 公众号 · · 2025-01-21 12:56

正文

RTX 50系列即将开售，刀法如何？

作者 | ZeR0

编辑 | 漠影

今年一开年，NVIDIA GeForce RTX 50系列GPU终于猛兽出笼，能玩顶配游戏，能做AI开发。赶上春节期间上市，估计会成为不少消费者的硬核新年礼物。

国内外有区别的是旗舰卡RTX 5090，RTX 5090起售价1999美元，中国合规版RTX 5090 D起售价16499元。其他非旗舰产品的价格则至少减半。

关注新显卡的朋友们可能还有很多疑问，比如RTX 5090和RTX 5090D有什么区别？除去AI外，其他设计的变化和性能提升有多少？AI和显卡的深度融合到底是噱头还是真有用？

在CES 2025期间，芯东西受邀参加了NVIDIA闭门编辑日，听多位NVIDIA副总裁连讲一整天的大师课，涉及很多GPU性能提升、基准测试和技术原理的细节。在此将一些干货整理分享给大家。

先说结论，如果你不关注AI，只想看传统显卡性能提升，可能50系列显卡会让你略感失望，因为从架构来看，RTX Blackwell和上一代Ada架构相差不大，硬实力升级幅度比较收敛，但是围绕AI的软实力提升可以称得上十分惊艳。

这也是NVIDIA迄今最大胆的一次将AI和游戏显卡高度融合，并让AI成为提升性能的头号主角。

RTX 5090的TDP是575W，比上一代高125W。这么高的功耗，怎么快速冷却呢？以前的设计是空气进来后撞到PCB板拐弯，从一个较小的排气口排出，风扇转得越快噪声越大。NVIDIA则把原来的PCB拿掉，中间做了个更小更紧凑的PCB板，让气流可以从两边风扇的散热鳍片直接顺滑通过，效率更高，还大降噪音。

我们将从以下8个方面，详细解析RTX 50系列消费级GPU的特点：

1、RTX 50系列的基础规格与基准测试表现；

2、Blackwell架构的设计目标、主要变化；

3、DLSS 4多帧生成的效果及用途；

4、多帧生成的技术原理与难点；

5、图形业首个实时Transformer模型应用；

6、首次将AI引入可编程着色器；

7、给游戏世界构建AI队友、AI助手、AI敌人；

8、AI PC本地部署生成式AI模型，优化直播和3D创意工作。

注：本文信息量偏大，读者朋友可直接跳至感兴趣的章节阅读。

01 .

游戏+AI性能猛兽出笼：

全系显存换新，畅玩超250帧4K游戏

RTX 5090仍然采用台积电NVIDIA 4N定制工艺，面积变得更大。上一代4090的GPU芯片面积是608mm²，RTX 5090系列的面积则增加到744mm²。

RTX 5090拥有920亿个晶体管、21760个CUDA核心（比上一代多50%），AI峰值算力是3352TOPS。RTX 5090 D硬件配置是一样的，AI算力受合规限制到2375TOPS，也就是比5080高了约32%。

▲RTX 50系列显卡规格

目前公开的RTX 50系列GPU，显存都升级到GDDR7，位宽、容量做了分级：5090是512bit、32GB，5080和5070 Ti是256bit、16GB，5070是192bit、12GB。

GeForce RTX 50系列笔记本电脑GPU规格也同步更新，相比上一代，能效更高、能跑2倍大的AI模型、视频编辑速度快40%，电池寿命延长40%。

▲RTX 50系列笔记本电脑GPU规格

令人印象深刻的依然是AI技术，性能最多暴涨至8倍。

尤其是DLSS 4，在跑《黑神话：悟空》、《赛博朋克 2077》等硬件密集型光线追踪游戏时，4K分辨率下帧率超过200FPS，而且显著减少延迟。

RTX 5090 / 5090 D无疑是性能猛兽，开DLSS 4和全景光追时升级幅度非常可观。NVIDIA官方公布的游戏及渲染测试显示，4K分辨率、最高游戏设置的情况下，在开DLSS 4时，RTX 5090 / 5090 D / 5080基本上都表现出至少翻倍的性能提升。

RTX 5070 Ti / 5070也借助DLSS 4实现了超过翻倍的性能提升，在采用 2560x1440 分辨率、最高游戏设置的情况下，能以高帧率畅玩《心灵杀手2》、《黑神话：悟空》、《赛博朋克2077》等游戏。

不过在没开DLSS的情况下，例如《生化危机4》，RTX 50系列相比上一代的提升幅度更小一些，约提升15%~30%。

这些基准测试性能对比已经在官网公布。

RTX 5070的硬件规格虽然难与旗舰卡相提并论，但通过DLSS 4等AI软实力的提升，NVIDIA称其性能表现已经堪比前代旗舰卡4090。

02 .

Blackwell架构：

支持神经网络渲染，FP4精度AI算力暴涨

RTX 50系列GPU采用Blackwell架构。NVIDIA称Blackwell融合了AI驱动的神经网络渲染和光线追踪，是自25年前推出可编程着色以来最重要的计算机图形创新。

RTX Blackwell架构的设计目标包括优化新神经网络工作负载、减少显存占用、提高能效等。

上一代Ada架构的SM多单元流处理器里，Shader Core有一半仅支持FP32，一半可以同时支持FP32/INT32。Blackwell SM则变成所有Shader Core都支持FP32/INT32，并首次支持神经网络着色器，可提供125TFLOPS算力；承载AI计算的Tensor Core由第四代升级到第五代。

下图中间灰框是着色器执行重排序（SER），用于优化GPU光线追踪和图形渲染。它会遍历并重新排序工作，把相同工作分别放在一起，提高运行效率，将整体重排序性能翻倍。

负责光线追踪计算的Blackwell第四代RT Core，能够更好支持NVIDIA RTX Mega Geometry技术。该技术可将场景中的光线追踪三角形数量增加多达100倍，能够更有效地处理超大几何图形簇。

RT Core增加了对线性扫描球体（Linear-swept spheres）、三角形簇交汇引擎（Triangle Cluster Intersection Engine）、三角形簇解压缩（Triangle Cluster Decompression）的支持，可支持的几何复杂度增加很多。

Blackwell也更擅长加速3D渲染，可将采用生成式AI的3D工作流的性能，较上一代提升50%。相比上一代，由第四代RT Core驱动的3D渲染，性能提升约40%。使用D5 Render时，RTX 5090的性能更是达到上一代的2.3倍。这对3D内容创作大有裨益。

得益于神经网络渲染架构，Blackwell的每帧AI TOPS相比上一代最多提升达8倍。

针对AI运算，第五代Tensor Core首度增加对FP4精度的支持，AI推理性能是上一代Ada FP8的2倍，并使生成式AI模型能够在PC本地运行，占用的显存更小。现在RTX 50系列GPU已经能支持本地运行视频生成模型了。

举个例子，同样是跑Black forest labs图像生成模型FLUX.1，用RTX 4090在FP16精度下要花15秒、占用超过23GB的显存，而用RTX 5090在FP4精度下只花5秒、占用10GB显存。

Blackwell还添加了一个可编程的AI管理处理器，可以实现对AI和图形工作负载同时运行的智能调度分配。比如在玩游戏时，它能优先保证AI队友第一时间作出响应。

Blackwell显示引擎和编解码器同样更新迭代。显示引擎首度支持DP 2.1，能运行更高的刷新率；还新增了对硬件级Flip Metering的支持，用于优化多帧生成中的帧节奏逻辑。

升级的还有视频编解码，现支持4:2:2格式的硬件编解码，能够更好地服务于专业级视频编辑。第9代视频编码器可在DaVinci Resolve、Adobe Premiere Pro等应用中实现快速视频导出，并使用AI驱动特效。

03 .

DLSS 4多帧生成：

帧率暴涨至8倍，占用更少显存

近年来DLSS（深度学习超级采样）已经成为RTX系列GPU升级的重头戏，用于提高帧率，同时提供媲美原始分辨率渲染的清晰高质量图像。

RTX 50系列里最抢眼的技术当属最新引入的DLSS 4，首次推出多帧生成功能。

▲支持DLSS技术的硬件

多帧生成可以为每个渲染帧额外生成最多3帧。整套DLSS技术全开，可将运行游戏或应用的帧率提高到传统图像渲染时的8倍、单帧生成时的1.7倍。

仅用超分辨率或光线重建，4个像素中有3个是AI生成的；添加单帧生成时，8个像素中有7个是由AI生成的；最后通过DLSS 4多帧生成，16个像素中就有15个由AI生成。

可以看几张对比图，来直观感受下开DLSS 4对画面细节的优化效果有多明显。

镜中重影得到优化：

纹理更精细：

发丝、光影的质量也显著提升：

开了DLSS 4后，RTX 5090显卡可以驾驭4K 240 FPS全景光线追踪游戏。

比如玩《赛博朋克2077》，与传统渲染相比，RTX 5090的帧率提高近8倍，PC延迟减少一半，图像质量也得到增强。

NVIDIA还针对RTX 40和50系列GPU强化了帧生成模型。新CNN模型速度提高了40%，显存占用量减少了30%。例如在《战锤40000：暗潮》中，使用DLSS帧生成，在4K、最高设置下提供了10%更快的帧率，同时减少了400MB的显存使用量。

同时，DLSS光线重建、DLSS超分辨率和DLAA也转由Transformer模型驱动，它将进一步提升RTX20、30、40、50系卡的DLSS 性能体验。

在1月30日产品上市时，将有超过75款游戏和应用支持DLSS 4。《黑神话：悟空》也将在新卡发售当天支持DLSS 4，并在未来提供对DLSS 4的原生支持。

除了游戏外，DLSS 4还将用于虚幻引擎5、D5 Render、Chaos Vantage等创作应用，显著增强实时视图的端口体验，提高D5 Render中的帧速率，使得设计师能更好地迭代和协作工作。

04 .

多帧生成的技术难点：

控制成本、帧节奏、延迟

RTX 50系列能用上多帧生成，得益于Blackwell硬件和DLSS软件创新的相辅相成。

DLSS 3帧生成功能在2022年发布，用AI模型来预测序列中的下一帧。该帧生成AI模型使用游戏里的运动矢量、深度等数据和RTX 40系列光流加速器的光流场，在每对传统渲染的帧之间创建一个额外帧。

而要实现多帧生成，成本就变得很高。因为每个新生成的帧都需要光流加速器和AI模型，性能成本会限制GPU，导致输入帧率降低。

多帧生成难在需要一致且精确的帧节奏。DLSS 3帧生成使用基于CPU的帧节奏，由于不同游戏引擎在CPU和GPU之间划分工作负载的方式不同，其可变性可能会随着其他帧而增加，导致每帧之间的帧间隔是变化的，会造成卡顿。

对此，NVIDIA研究团队开发了一个全新AI模型，搭配Blackwell的硬件级Flip Metering，确保GPU提供一致且最佳的帧率。高效的AI模型取代了硬件光流加速器，来加快光流场生成速度，能显著降低生成额外帧的计算成本。

Flip Metering可以调整帧传送速度，使GPU在生成和渲染帧时能更高效地进行时序管理，实现更稳定的帧生成，避免严重卡顿。

如果一款游戏运行所有DLSS 4功能，包括超分辨率、光线重建、多帧生成，GPU需要在几毫秒内为每个渲染帧运行5个AI模型，否则DLSS多帧生成可能会成为减速器。

这就需要配备更强的硬件。基于Blackwell第五代Tensor Core，RTX 50系列的AI处理性能最高达到上一代GPU的2.5倍。新帧生成后，其节奏均匀，从而能提供流畅的体验。

针对AI补帧会增加延迟的问题，NVIDIA的解法是引入Reflex 2来优化图像渲染管线，最多能将延迟减少75%。Reflex低延迟模式通过在GPU与CPU之间进行精确渲染同步来降低PC延迟。Reflex 2引入了一种新技术Frame Warp，可以在将渲染帧发送到显示器之前，根据最新鼠标输入数据来更新渲染帧，以提高游戏响应速度。

NVIDIA还开发了一个Inpaint预测修补技术，用于修复前一帧的颜色与深度数据的空白区域，让画面更加接近原生渲染。

深度揭秘RTX 5090八大看点：游戏“兵器库”逆天，将AI炼丹术塞到桌面

正文

请到「今天看啥」查看全文