专栏名称: 企业存储技术

企业存储、服务器、SSD、灾备等领域技术分享，交流 | @唐僧_huangliang （新浪微博）

AI计算GPU工作站选型与测试：Quadro GV100 vs. GeForce RTX 2080

企业存储技术 · 公众号 · · 2018-11-01 07:00

正文

请到「今天看啥」查看全文

本文内容非商业用途可无需授权转载，请务必注明作者及本微信公众号、微博 @唐僧_huangliang，以便更好地与读者互动。

8 月份，在 NVIDIA 新一代 GPU 图灵（代号 Turing ）发布之际，我整理过一篇《 实测：光线追踪过去 9 年有多大改进？ 》，当时只是拿移动工作站上的 Quadro P4200 显卡和 Optix 自带的 Demo 小试了一把。而这几天，我手上有了些更牛的设备：）

三款显卡：哪块最豪华？哪块有点丑？

首先是 Volta 架构的 Quadro GV100 ，数万元 RMB 的身价，在最新款 Quadro RTX 5000 和 6000 供货之前它仍是最顶级的专业显卡。

从这块全长双宽显卡的背面，不难看出 GV100 GPU 芯片的尺寸有多大，它的规格也足够惊人哦。

Quadro GV100 拥有完整的 5,120 个 CUDA 流处理器，豪华的 32GB 4096bitHBM2 显存，带宽高达 870.4 GB/s 。

相比之下， GeForce GTX 1080 Ti 的 CUDA 核心为 3584 个， 11GB GDDR5X 显存带宽 484GB/s ；而我手头另一片 GeForce RTX 2080 的 CUDA 核心数 2944 个， 8GB GDDR6 显存带宽 448GB/s 。

在上面这片公版的 GeForce GTX 1080 Ti 显卡背面，覆盖了一整块金属散热片。这也使 250W 功耗的它在室温压测时比较静音，在 GPU 超过 80 ℃ 之前风扇基本保持在 2000 多转的低速状态。我摸了一下散热片已经很烫手了。

不过相比之下，针对工作站的 Quadro GV100 专业显卡才是针对 7x24 小时运行设计的（与 Tesla 同为工业级标准）。从前面的截图也可以看出 GV100 的频率设置并不算高，可以说它是拿 GPU 体质来换取较低一些的功耗，散热表现及稳定性自然应该更好。 GV100 只需要 1 个 8pin PCIe 辅助供电，也就是整块卡不超过 225W ，而 1080 Ti 还有下面这块 RTX 2080 超频版都是 8pin+6pin 供电的。

不得不说，在我拿到这片 GeForce RTX 2080 全长显卡之后，背面中间那一排焊点让我感觉长得有点丑。我无意透露这是哪家的卡，而这个设计应该也不会影响它的效能。

可能是由于超频版的缘故，这块 RTX 2080 在压力测试开始后风扇转速很快升到比较高，噪音大了点但同时温度也控制的相对较低。

注：由于是临时测试，本文中使用的这款 RTX 2080 显卡在 Dell Precision7920 Tower 工作站测试平台上，应该还不在官方支持列表中。而在实际运行中未发现兼容问题。

在 RTX 2080 上的这个 USB-C 接口，就是 VirtualLink VR 规范的，使用 1 条连接就可以连接 VR 头盔外设，实现显示信号 +USB 数据传输 + 供电，未来可以替代之前 USB 3.0+HDMI/DP 两条线缆的方式。

NVIDIA Optix AI 去噪点加速测试

Monky （猴子）场景，请注意 FPS 与可视化时间（单位 ms ）这两个数值成反比

这次我拿到了更好的一个 Demo ，如上图：中间有一条竖线，左边为传统 GPU 渲染，右边则采用 Optix 光线追踪引擎的 AI 去噪点算法。静止状态下不容易看出左右两边的区别，只要用鼠标一拖动，就会出现类似下图中的效果：

上面这个 Demo ，左右两边也是用来对比效果。在去年的 Dell Precision 工作站 20 周年发布会上，我就看到 NVIDIA 的朋友用 2 片 Quadro GP100 显卡来跑这个。

顺便把我上次测试的这个截图也列出来，很容易看到没有光线追踪去噪点对画面的影响。

本文的测试结果并不复杂，由于 Demo 程序有点老，尽管在每块 GPU 上都能跑到 70-80% 的占用率，但新一代 RTX 显卡上的 RT Core 显然没有利用起来，因此 2080 的帧率比 1080Ti 落后了不少。

另外，在相对复杂一些的 monky 场景下， Quadro GV100 还是能表现出明显的优势。同时我也认为专门用于计算的双精度浮点单元和 Tensor Core 在这里没有发挥作用，如果应用对硬件有充分优化 GV100 相对 1080Ti 的优势应该不止这么多。

由于时间有限我承认这个性能测试不够全面，但也能反映出某些应用场景下的情况。对于 AI 人工智能 / 深度学习计算的用户来说，无论是理论 FP32 、 FP16 指标，还是网上的言论都能看到 RTX 2080 不一定比 GTX 1080Ti 速度快，除非程序针对新一代 GPU 做了优化。

下面我再列出对比表格中的另外 2 个测试场景，供大家参考。

Simple Demo

Ward Demo

GPU 人工智能 / 深度学习工作站：散热和静音的平衡

首先，本文暂时不打算讨论各种专用 GPU 服务器，那些高密度的机型我也有些了解。比如支持 4 块双宽 GPU 的服务器， 10 年前我就写过相关的方案，如今像 Dell PowerEdge T640 这样的机型也能官方支持 4 块 300W 被动散热的 Tesla 计算卡。

这里特别提到被动散热，要想达到最大的计算密度应该都是这个方式（前提是风冷，不包括液冷），同时不限制风扇转速。而我接下来讨论的，是另一种兼顾静音——也就是能在办公室里安静运行的系统。

这个机型只是 2 块显卡相邻，想想那些 4 块 GPU （特别是主动散热显卡）并列紧挨着的系统，估计风扇进风口附近的温度都不太好控制。如果工作环境温度较低还好，要是达到 35 ℃ 左右的室温，我觉得 GeForce 的稳定性 还真的不好说。

上图我在《 双 Xeon SP 只用一个风扇？ Precision7920 工作站散热设计解析 》一文中曾经列出过，现在有几款高端双路塔式工作站上，支持 3 块顶级显卡是没有问题的。除了上图中 2 个 Quadro GP100 的位置，下面我列出了第 3 张显卡插在哪里。

由于拍照时取下了 CPU- 内存一体式散热导风罩，可以看出 Dell 7920 Tower 工作站机箱的空间比较大。

第三张高端 PCIe x16 双宽显卡在 CPU 和内存的另一侧，也就是机箱的顶部。这样设计也分散了热源吧，并且 CPU/ 内存和显卡散热互不干扰。

一线大厂的图形工作站，通常都有较好的温控静音散热设计。考虑到有些特殊情况， Dell 在 BIOS 中特别增加了手动提高几个风扇转速的设置。我认为这可能适用于以下几种情况：

1、 大功率显卡数量多，同时环境温度不低。如果散热不够理想，可以考虑适当调高这个值？

2、 增加了对风速要求高的 被动散热 PCIe 设备，如 FPGA 加速卡等；

3、 在超标的环境温度运行，如 40 ℃ 左右？（注： Dell 官方不一定承诺长期稳定运行在这种温度下）

总之，如果允许牺牲静音效果，想支持更高的 GPU 功耗并不是难事，同时不要忘了保证电源供应。

这台 Precision 7920 Tower 工作站的电源功率为 1400W ，即使用 3 块 GTX 1080Ti ，这部分才不过 750W 的功耗。

对于有一定计算密度要求，同时需要在机房中上架的用户，通常会选择机架式服务器，这时噪音就不是问题了。

如上图， 2U 的 Dell Precision 7920 Rack 工作站应该是和 PowerEdge R740 服务器共用的硬件平台。为满足图形方面用户的需求，官方认证过各种主动散热的 AMD 、 NVIDIA 专业显卡，最大可以装 3 块 300W 双宽 GPU 。当然，这款机型就不适合长期放在办公室里近距离使用了。

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。 进一步交流 技术，可以加我的 QQ/ 微信： 490834312 。如果您想在这个公众号上分享自己的技术干货，也欢迎联系我：）

尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号： HL_Storage

长按二维码可直接识别关注

历史文章汇总 ： http://chuansong.me/account/huangliang_storage

点击下方“阅读原文”，查看更多历史文章

↓↓↓