本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。
8
月份,在
NVIDIA
新一代
GPU
图灵(代号
Turing
)发布之际,我整理过一篇《
实测:光线追踪过去
9
年有多大改进?
》,当时只是拿移动工作站上的
Quadro P4200
显卡和
Optix
自带的
Demo
小试了一把。而这几天,我手上有了些更牛的设备:)
三款显卡:哪块最豪华?哪块有点丑?
首先是
Volta
架构的
Quadro GV100
,数万元
RMB
的身价,在最新款
Quadro RTX 5000
和
6000
供货之前它仍是最顶级的专业显卡。
从这块全长双宽显卡的背面,不难看出
GV100 GPU
芯片的尺寸有多大,它的规格也足够惊人哦。
Quadro GV100
拥有完整的
5,120
个
CUDA
流处理器,豪华的
32GB 4096bitHBM2
显存,带宽高达
870.4 GB/s
。
相比之下,
GeForce GTX 1080 Ti
的
CUDA
核心为
3584
个,
11GB GDDR5X
显存带宽
484GB/s
;而我手头另一片
GeForce RTX 2080
的
CUDA
核心数
2944
个,
8GB GDDR6
显存带宽
448GB/s
。
在上面这片公版的
GeForce GTX 1080 Ti
显卡背面,覆盖了一整块金属散热片。这也使
250W
功耗的它在
室温压测时比较静音
,在
GPU
超过
80
℃
之前风扇基本保持在
2000
多转的低速状态。我摸了一下散热片已经很烫手了。
不过相比之下,针对工作站的
Quadro GV100
专业显卡才是针对
7x24
小时运行设计的(与
Tesla
同为工业级标准)。从前面的截图也可以看出
GV100
的频率设置并不算高,可以说它是
拿
GPU
体质来换取较低一些的功耗,散热表现及稳定性自然应该更好
。
GV100
只需要
1
个
8pin PCIe
辅助供电,也就是整块卡
不超过
225W
,而
1080 Ti
还有下面这块
RTX 2080
超频版都是
8pin+6pin
供电的。
不得不说,在我拿到这片
GeForce RTX 2080
全长显卡之后,背面中间那一排焊点让我感觉长得有点丑。我无意透露这是哪家的卡,而这个设计应该也不会影响它的效能。
可能是由于超频版的缘故,这块
RTX 2080
在压力测试开始后风扇转速很快升到比较高,
噪音大了点但同时温度也控制的相对较低
。
注:由于是临时测试,本文中使用的这款
RTX 2080
显卡在
Dell Precision7920 Tower
工作站测试平台上,应该还不在官方支持列表中。而在实际运行中未发现兼容问题。
在
RTX 2080
上的这个
USB-C
接口,就是
VirtualLink VR
规范的,使用
1
条连接就可以连接
VR
头盔外设,实现
显示信号
+USB
数据传输
+
供电
,未来可以替代之前
USB 3.0+HDMI/DP
两条线缆的方式。
NVIDIA Optix AI
去噪点加速测试
Monky
(猴子)场景,请注意
FPS
与可视化时间(单位
ms
)这两个数值成反比
这次我拿到了更好的一个
Demo
,如上图:中间有一条竖线,
左边为传统
GPU
渲染,右边则采用
Optix
光线追踪引擎的
AI
去噪点算法
。静止状态下不容易看出左右两边的区别,只要用鼠标一拖动,就会出现类似下图中的效果:
上面这个
Demo
,左右两边也是用来对比效果。在去年的
Dell Precision
工作站
20
周年发布会上,我就看到
NVIDIA
的朋友用
2
片
Quadro GP100
显卡来跑这个。
顺便把我上次测试的这个截图也列出来,很容易看到没有光线追踪去噪点对画面的影响。
本文的测试结果并不复杂,由于
Demo
程序有点老
,尽管在每块
GPU
上都能跑到
70-80%
的占用率,但新一代
RTX
显卡上的
RT Core
显然没有利用起来
,因此
2080
的帧率比
1080Ti
落后了不少。
另外,在相对复杂一些的
monky
场景下,
Quadro GV100
还是能表现出明显的优势。同时我也认为专门用于计算的
双精度浮点单元和
Tensor Core
在这里没有发挥作用
,如果应用对硬件有充分优化
GV100
相对
1080Ti
的优势应该不止这么多。
由于时间有限我承认这个性能测试不够全面,但也能反映出某些应用场景下的情况。对于
AI
人工智能
/
深度学习
计算的用户来说,无论是理论
FP32
、
FP16
指标,还是网上的言论都能看到
RTX 2080
不一定比
GTX 1080Ti
速度快,除非程序针对新一代
GPU
做了优化
。
下面我再列出对比表格中的另外
2
个测试场景,供大家参考。
Simple Demo
Ward Demo
GPU
人工智能
/
深度学习工作站:散热和静音的平衡
首先,本文暂时不打算讨论各种专用
GPU
服务器,那些高密度的机型我也有些了解。比如支持
4
块双宽
GPU
的服务器,
10
年前我就写过相关的方案,如今像
Dell PowerEdge T640
这样的机型也能官方支持
4
块
300W
被动散热的
Tesla
计算卡。
这里特别提到
被动散热
,要想达到最大的计算密度应该都是这个方式(前提是风冷,不包括液冷),同时
不限制风扇转速
。而我接下来讨论的,是另一种兼顾静音——也就是能在办公室里安静运行的系统。
这个机型只是
2
块显卡相邻,想想那些
4
块
GPU
(特别是主动散热显卡)并列紧挨着的系统,估计风扇进风口附近的温度都不太好控制。如果工作环境温度较低还好,要是达到
35
℃
左右的室温,我觉得
GeForce
的稳定性
还真的不好说。
上图我在《
双
Xeon SP
只用一个风扇?
Precision7920
工作站散热设计解析
》一文中曾经列出过,现在有几款高端双路塔式工作站上,
支持
3
块顶级显卡
是没有问题的。除了上图中
2
个
Quadro GP100
的位置,下面我列出了第
3
张显卡插在哪里。
由于拍照时取下了
CPU-
内存一体式散热导风罩,可以看出
Dell 7920 Tower
工作站机箱的空间比较大。
第三张高端
PCIe x16
双宽显卡在
CPU
和内存的另一侧,也就是机箱的顶部。这样设计也
分散了热源
吧,并且
CPU/
内存和显卡散热互不干扰
。
一线大厂的图形工作站,通常都有较好的温控静音散热设计。考虑到有些特殊情况,
Dell
在
BIOS
中特别增加了
手动提高几个风扇转速的设置
。我认为这可能适用于以下几种情况:
1、
大功率显卡数量多,同时环境温度不低。如果散热不够理想,可以考虑适当调高这个值?
2、
增加了对风速要求高的
被动散热
PCIe
设备,如
FPGA
加速卡等;
3、
在超标的环境温度运行,如
40
℃
左右?(注:
Dell
官方不一定承诺长期稳定运行在这种温度下)
总之,
如果允许牺牲静音效果,想支持更高的
GPU
功耗并不是难事
,同时不要忘了保证电源供应。
这台
Precision 7920 Tower
工作站的电源功率为
1400W
,即使用
3
块
GTX 1080Ti
,这部分才不过
750W
的功耗。
对于有一定计算密度要求,同时需要在机房中上架的用户,通常会选择机架式服务器,这时噪音就不是问题了。
如上图,
2U
的
Dell Precision 7920 Rack
工作站应该是和
PowerEdge R740
服务器共用的硬件平台。为满足图形方面用户的需求,官方认证过
各种主动散热的
AMD
、
NVIDIA
专业显卡
,最大可以装
3
块
300W
双宽
GPU
。当然,这款机型就不适合长期放在办公室里近距离使用了。
注
:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。
进一步交流
技术
,
可以
加我的
QQ/
微信:
490834312
。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:
HL_Storage
长按二维码可直接识别关注
历史文章汇总
:
http://chuansong.me/account/huangliang_storage