专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

AI计算GPU工作站选型与测试:Quadro GV100 vs. GeForce RTX 2080

企业存储技术  · 公众号  ·  · 2018-11-01 07:00

正文

请到「今天看啥」查看全文


本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。


8 月份,在 NVIDIA 新一代 GPU 图灵(代号 Turing )发布之际,我整理过一篇《 实测:光线追踪过去 9 年有多大改进? 》,当时只是拿移动工作站上的 Quadro P4200 显卡和 Optix 自带的 Demo 小试了一把。而这几天,我手上有了些更牛的设备:)

三款显卡:哪块最豪华?哪块有点丑?


首先是 Volta 架构的 Quadro GV100 ,数万元 RMB 的身价,在最新款 Quadro RTX 5000 6000 供货之前它仍是最顶级的专业显卡。


从这块全长双宽显卡的背面,不难看出 GV100 GPU 芯片的尺寸有多大,它的规格也足够惊人哦。


Quadro GV100 拥有完整的 5,120 CUDA 流处理器,豪华的 32GB 4096bitHBM2 显存,带宽高达 870.4 GB/s

相比之下, GeForce GTX 1080 Ti CUDA 核心为 3584 个, 11GB GDDR5X 显存带宽 484GB/s ;而我手头另一片 GeForce RTX 2080 CUDA 核心数 2944 个, 8GB GDDR6 显存带宽 448GB/s


在上面这片公版的 GeForce GTX 1080 Ti 显卡背面,覆盖了一整块金属散热片。这也使 250W 功耗的它在 室温压测时比较静音 ,在 GPU 超过 80 之前风扇基本保持在 2000 多转的低速状态。我摸了一下散热片已经很烫手了。

不过相比之下,针对工作站的 Quadro GV100 专业显卡才是针对 7x24 小时运行设计的(与 Tesla 同为工业级标准)。从前面的截图也可以看出 GV100 的频率设置并不算高,可以说它是 GPU 体质来换取较低一些的功耗,散热表现及稳定性自然应该更好 GV100 只需要 1 8pin PCIe 辅助供电,也就是整块卡 不超过 225W ,而 1080 Ti 还有下面这块 RTX 2080 超频版都是 8pin+6pin 供电的。


不得不说,在我拿到这片 GeForce RTX 2080 全长显卡之后,背面中间那一排焊点让我感觉长得有点丑。我无意透露这是哪家的卡,而这个设计应该也不会影响它的效能。

可能是由于超频版的缘故,这块 RTX 2080 在压力测试开始后风扇转速很快升到比较高, 噪音大了点但同时温度也控制的相对较低

注:由于是临时测试,本文中使用的这款 RTX 2080 显卡在 Dell Precision7920 Tower 工作站测试平台上,应该还不在官方支持列表中。而在实际运行中未发现兼容问题。


RTX 2080 上的这个 USB-C 接口,就是 VirtualLink VR 规范的,使用 1 条连接就可以连接 VR 头盔外设,实现 显示信号 +USB 数据传输 + 供电 ,未来可以替代之前 USB 3.0+HDMI/DP 两条线缆的方式。

NVIDIA Optix AI 去噪点加速测试

Monky (猴子)场景,请注意 FPS 与可视化时间(单位 ms )这两个数值成反比

这次我拿到了更好的一个 Demo ,如上图:中间有一条竖线, 左边为传统 GPU 渲染,右边则采用 Optix 光线追踪引擎的 AI 去噪点算法 。静止状态下不容易看出左右两边的区别,只要用鼠标一拖动,就会出现类似下图中的效果:


上面这个 Demo ,左右两边也是用来对比效果。在去年的 Dell Precision 工作站 20 周年发布会上,我就看到 NVIDIA 的朋友用 2 Quadro GP100 显卡来跑这个。


顺便把我上次测试的这个截图也列出来,很容易看到没有光线追踪去噪点对画面的影响。


本文的测试结果并不复杂,由于 Demo 程序有点老 ,尽管在每块 GPU 上都能跑到 70-80% 的占用率,但新一代 RTX 显卡上的 RT Core 显然没有利用起来 ,因此 2080 的帧率比 1080Ti 落后了不少。

另外,在相对复杂一些的 monky 场景下, Quadro GV100 还是能表现出明显的优势。同时我也认为专门用于计算的 双精度浮点单元和 Tensor Core 在这里没有发挥作用 ,如果应用对硬件有充分优化 GV100 相对 1080Ti 的优势应该不止这么多。

由于时间有限我承认这个性能测试不够全面,但也能反映出某些应用场景下的情况。对于 AI 人工智能 / 深度学习 计算的用户来说,无论是理论 FP32 FP16 指标,还是网上的言论都能看到 RTX 2080 不一定比 GTX 1080Ti 速度快,除非程序针对新一代 GPU 做了优化

下面我再列出对比表格中的另外 2 个测试场景,供大家参考。

Simple Demo

Ward Demo

GPU 人工智能 / 深度学习工作站:散热和静音的平衡

首先,本文暂时不打算讨论各种专用 GPU 服务器,那些高密度的机型我也有些了解。比如支持 4 块双宽 GPU 的服务器, 10 年前我就写过相关的方案,如今像 Dell PowerEdge T640 这样的机型也能官方支持 4 300W 被动散热的 Tesla 计算卡。

这里特别提到 被动散热 ,要想达到最大的计算密度应该都是这个方式(前提是风冷,不包括液冷),同时 不限制风扇转速 。而我接下来讨论的,是另一种兼顾静音——也就是能在办公室里安静运行的系统。

这个机型只是 2 块显卡相邻,想想那些 4 GPU (特别是主动散热显卡)并列紧挨着的系统,估计风扇进风口附近的温度都不太好控制。如果工作环境温度较低还好,要是达到 35 左右的室温,我觉得 GeForce 的稳定性 还真的不好说。

上图我在《 Xeon SP 只用一个风扇? Precision7920 工作站散热设计解析 》一文中曾经列出过,现在有几款高端双路塔式工作站上, 支持 3 块顶级显卡 是没有问题的。除了上图中 2 Quadro GP100 的位置,下面我列出了第 3 张显卡插在哪里。

由于拍照时取下了 CPU- 内存一体式散热导风罩,可以看出 Dell 7920 Tower 工作站机箱的空间比较大。

第三张高端 PCIe x16 双宽显卡在 CPU 和内存的另一侧,也就是机箱的顶部。这样设计也 分散了热源 吧,并且 CPU/ 内存和显卡散热互不干扰


一线大厂的图形工作站,通常都有较好的温控静音散热设计。考虑到有些特殊情况, Dell BIOS 中特别增加了 手动提高几个风扇转速的设置 。我认为这可能适用于以下几种情况:

1、 大功率显卡数量多,同时环境温度不低。如果散热不够理想,可以考虑适当调高这个值?

2、 增加了对风速要求高的 被动散热 PCIe 设备,如 FPGA 加速卡等;

3、 在超标的环境温度运行,如 40 左右?(注: Dell 官方不一定承诺长期稳定运行在这种温度下)

总之, 如果允许牺牲静音效果,想支持更高的 GPU 功耗并不是难事 ,同时不要忘了保证电源供应。


这台 Precision 7920 Tower 工作站的电源功率为 1400W ,即使用 3 GTX 1080Ti ,这部分才不过 750W 的功耗。

对于有一定计算密度要求,同时需要在机房中上架的用户,通常会选择机架式服务器,这时噪音就不是问题了。


如上图, 2U Dell Precision 7920 Rack 工作站应该是和 PowerEdge R740 服务器共用的硬件平台。为满足图形方面用户的需求,官方认证过 各种主动散热的 AMD NVIDIA 专业显卡 ,最大可以装 3 300W 双宽 GPU 。当然,这款机型就不适合长期放在办公室里近距离使用了。


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流 技术 可以 加我的 QQ/ 微信: 490834312 。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号: HL_Storage

长按二维码可直接识别关注

历史文章汇总 http://chuansong.me/account/huangliang_storage

点击下方“阅读原文”,查看更多历史文章
↓↓↓






请到「今天看啥」查看全文


推荐文章
爱丽丝手札  ·  今年,社保卡将实现一个逆天的功能!
8 年前
36大数据  ·  【福利】探求ETL本质
7 年前
程序员大咖  ·  谈谈 MVX 中的 Model
7 年前