就在本月15号,我们评测室受邀参加了英伟达线下举行的
RTX 50系列显卡
技术分享和体验交流会。活动现场除了专家对Blackwell架构、新显卡AI表现及应用的详细解读外,英伟达还向参会个人和媒体展示了一系列基于Blackwell架构GPU以及NVIDIA RTX AI技术的性能和功能演示DEMO。我们也见到了
FE版的RTX5080
实物。新硬件和新技术带来了很多思考,GeForce RTX5090D是如何做到最高画质4K/240FPS的,神经网络渲染究竟是什么,未来的游戏究竟会变成什么样子?
专家演讲部分主要分为7个部分,这边挑重点和大家解读,主要是4块内容,即:
-
Blackwell架构分析
-
RTX神经网络渲染技术解读
-
DLSS 4
-
NVIDIA ACE
【1】Blackwell架构分析
相较于RTX 40系列的Ada Lovelace架构,全新的Blackwell架构提升依然显著,就以老黄此前发布会上的说法,3倍的AI算力、2倍的光追算力、1.5倍的传统FP32算力,以及GDDR7显存带来将近2倍的带宽能力,光面上数据看来,Blackwell架构很不简单。另外RTX5090/D,其核心面积增大22%,晶体管数量多了21%。Blackwell架构还改进了能源管理,能够比前几代产品更快地进入和退出深度睡眠模式。
上面这张PPT展示了Blackwell架构的几大关键提升,像第五代张量计算核心(Tensor Cores)可以带来夸张的
4000 AI TOPS
(每秒数万亿次运算)计算能力;第四代光线追踪(RT)核心的光线与三角形相交速率是Ada架构的两倍,也是为Mega Geometry构建,有助于未来基于虚幻引擎5开发的游戏运行更流畅;GPU着色器也针对神经着色器进行了增强;GDDR7显存的引入可以带来
30Gbps的显存带宽
。Blackwell架构也使英伟达RTX 50家族首次全面支持
DisplayPort 2.1 UHBR20
(80Gbps),突破DisplayPort 1.4a的限制。它们还将支持
PCIe 5.0
,成为首批实现这一转变的消费级GPU。视频编码和解码功能也得到了增强,现在支持4:2:2图像视频流。
从上图可以看出,相较于Ada架构的着色器一半仅支持FP32运算,另一半则可同时进行FP32和INT32运算不同,英伟达让Blackwell架构中的
所有着色器核心都完全兼容FP32/INT32运算
,使得内存指针计算效率大幅提升。英伟达还对着色器渲染管线进行了一些调整,以便更好地混合着色器和张量核心运算。英伟达将其归类为
RTX Neural Shaders(神经网络着色器)
,虽然其他RTX系列似乎仍能运行这些工作负载,但与Blackwell架构的GPU相比,速度会相对较慢。这部分得益于着色器执行重排序(SER,Shader Execution Reordering)技术的改进,在Blackwell架构上的运行速度是Ada架构的两倍。
AI性能数据方面,RTX50系列的性能最高达4000 AI TOPS,在生成式 AI 应用中,在RTX5090D上采用FP4图像生成速度是RTX4090D上采用FP16的3倍,而显存消耗减少一半。FP4是一种更低精度量化方式,有助于减小模型尺寸。在 FP16 计算精度下,Black Forest Lab 的 FLUX.1 [dev] 模型需要超过 23GB的VRAM。使用RTX4090D需要18秒左右生成图像,而采用 FP4 时,VRAM 占用更少,RTX5090D仅需要5秒左右。
Blackwell架构还从Ada架构中高端产品采用的
GDDR6X全面转向GDDR7
。带宽表现方面,现有RTX 50系列GPU的GDDR7运行带宽为28-30Gbps,是GDDR6的两倍,相比GDDR6X芯片则提升了30%以上。像RTX5090D配备了512bit的32GB GDDR7显存,显存带宽可达1792GB/s,RTX5080则减半为256bit/16GB,而RTX5070Ti、RTX5070还要进一步缩减,但即便如此,后两者的带宽提升也超过了30%。
值得注意的是,Blackwell架构还引入了
AI Management Processor
(AI管理处理器),从而更好地调度RT Core、CUDA Core、Tensor Core的能力资源,并且据说可以根据正在运行的工作负载类型以及需要优先完成的任务来进行调度。例如,为了先完成多帧生成(MFG,Multi Frame Generation),文本生成的大语言模型(LLM)运算可以稍微降低延迟。
【2】Neural Rendering功能解读
Neural Rendering(神经网络渲染)
是一种利用深度学习和图形技术实现高质量、高效率、高灵活性的图像合成和渲染的方法。它利用深度学习模型来模拟图形学渲染的过程,通过AI辅助渲染生成着色、纹理、光影等,从而生成更为逼真的图像。与传统的基于物理规律和数学模型的确定性算法不同,Neural Rendering不需要对场景中的几何、材质、光照等要素进行精确的描述和计算,而是通过学习大量的数据来模拟渲染过程。
RTX 50系列显卡在Neural Rendering(神经网络渲染)方面进行了重要的技术创新和应用,RTX Neural Shaders可以将纹理压缩7倍,进而节省出大量的图形的显存。RTX Neural Shaders的应用范围很广泛,除了处理纹理压缩(Texture Compression)之外,也能兼顾到辐射缓存(Radiance Caching),材质(Materials)和辐射场(Radiance Fields)的计算。
所采用的第四代RT Core支持
RTX Mega Geometry
渲染,这是神经网络渲染的最核心技术,它能够将光线追踪环境中的三角形渲染数量提升到100倍之多,可实时追踪渲染数以亿计的三角形,极大地加强实时光追效果的交互计算,让RTX 50系GPU的光追渲染性能得到了大幅度强化。
RTX Neural Shaders SDK
允许开发者能够在RTX AI PC上训练游戏数据和着色器代码,并通过Tensor Core加速神经表示和模型权重,在训练过程中,神经网络训练的游戏数据还会与传统渲染的游戏数据进行对比,从而获得多次迭代进化。开发团队还可以使用着色语言Slang简化训练过程,将大型复杂的函数,拆分成更小、更容易处理的部分。利用RTX Neural Shaders还能创造出高质量的纹理,帮助游戏场景实现更先进的光照效果。微软也进而表示,DirectX也将很快对这套技术提供支持,以确保进一步发挥Tensor Core的能力,让游戏开发团队能够在Windows平台上更好的使用Neural Shaders。
活动现场,英伟达通过几个演示(DEMO)向我们展现了神经网络渲染和第四代RT Core的卓越性能,其中包括了Dragon龙、Zorah等示例。在演示中,依托RTX5090D以及RTX Mega Geometry渲染技术的强大能力,我们目睹了电影级别的渲染效果(远看没啥感觉,后面的自主体验感受很深)。光照、阴影等各种视觉效果都栩栩如生,且运行极为流畅。
在现场,工程师还利用RTX Neural Shaders构架一套名为RTX Neural Faces(RTX神经网络面孔)方案,通过AI生成的方式提升游戏任务的面部质量。这套方案与传统的渲染不同,为RTX Neural Faces获取简单的光栅化面孔和3D姿势后,再利用生成式AI模型构建出更为自然的面孔,也进而释放了GPU的硬件性能。与直接渲染不同,RTX Neural Face只需要简单的光栅化面孔和3D姿态数据作为基础,就可以实时通过生成式AI模型推断出自然的面孔展现。而在此之前,模型已经经过数千张离线数据的学习和训练,涵盖不同角度、光照、情感和遮挡条件。
可以预见,神经网络渲染技术的应用前景将十分广阔,它不仅适用于游戏和电影的场景制作、CG创作,还将在设计创作、工业3D渲染、虚拟现实以及增强现实等多个领域发挥关键作用。
【3】DLSS 4
DLSS 4或许是RTX 50系列的又一大灵魂,其最大的变化之一就是带来了多帧生成技术(Multi Frame Generation),这是GeForce RTX 50系列GPU的专属功能,意味着未来的一段时间中,只有采用GeForce RTX 50系列的台式机和笔记本才能获得对应的功能。
NVIDIA表示,在RTX50系显卡上市时会有75款游戏和应用率先支持DLSS多帧生成技术。
如前面所说,DLSS多帧生成技术,是在传统渲染的基础上,通过AI在每一帧的基础上多生成三帧的额外帧,并且与其他的DLSS技术套件协同工作。由于DLSS本身就允许游戏实际渲染以低分辨率进行,再以全分辨率高质量输出,因此实际获得的效果是传统渲染能力的8倍,从而让RTX5090D获得在开启光线追踪最高画质的前提下,以4K/240FPS的极高帧率运行游戏。
在现场的演示展示了《黑神话:悟空》在DLSS 4下的表现。当游戏在4K光追效果全开原生效果运行时帧数仅有29FPS,很难保证流畅体验,但一旦打开DLSS4多帧生成,帧数飙升至240FPS+,这无疑为玩家带来了无缝的游戏体验。并且《黑神话:悟空》将于今年晚些时候正式支持DLSS4多帧生成技术,对RTX50系显卡而言真是个极好的消息。
DLSS 4同时也是2020年DLSS 2.0发布以来,最大的AI模型升级,在DLSS 3.5上所构建的DLSS光线重建技术(DLSS Ray Reconstruction),DLSS超分辨率(DLSS Super Resolution),以及DLAA(Deep Learning Anti-Aliasing)深度学习抗锯齿技术全部引入到实时计算的Transformers模型中,用来代替此前的卷积神经网络(Convolutional Neural Networks,CNN)。Transformers在商用领域被广泛采用,前沿的AI模型,比如ChatGPT、Flux和Gemini均是在Transformers架构下实现的。NVIDIA表示,DLSS Transformers的引入,可以获得更好的稳定性,更少的鬼影,更高质量的运动细节,图像质量也因此获得进一步提升。
【4】NVIDIA ACE
NVIDIA ACE自2023年首次推出以来,便是一项将生成式AI对话技术应用于游戏角色的创新。在本次活动中,NVIDIA ACE成为了重点展示的内容,尽管游戏AI已在游戏领域应用了数十年,但传统上游戏中的NPC都是遵循预设程序与玩家互动,并且机械性较强,很可能玩几次就腻了。而NVIDIA ACE的出现,打破了NPC固定对话模式的局限,带来了一种全新的自主交互体验。在生成式AI的助力下,NVIDIA ACE所塑造的游戏角色更具自主互动性,结合本地小语言模型,能够即时响应玩家的文字、音频乃至视觉互动。
如今,这项技术已拓展至更广泛的应用领域。在活动现场,提供了《永劫无间手游》PC版的NVIDIA ACE AI队友试玩体验。同时,还演示了《MIR5》中由AI驱动的BOSS,它能根据对手的动作做出类似人类的判断反应。值得一提的是,《暗影火炬城》的制作团队也利用NVIDIA ACE打造了一个《动物朋克》的演示版本,玩家可以通过语音或文字与NPC进行交互。
《永劫无间手游》PC版
是首款采用 NVIDIA ACE和大语言模型在PC端侧实现AI队友功能的国产游戏。在我们的现场体验中,一共提供了6个AI队友角色可供选择,这些AI队友有着各自的性格与说话风格,既有夹子音的萝莉风,也有御姐范儿的成熟女性,而且在游戏中实际体验发现,他们也会根据玩家通过麦克风输入的语音指令进行相应的动作或声音回应互动,在智能程度上还是比较完善的。根据这种发展势头,以后匹配模式甚至不需要真人队友即可实现联机开黑功能!