专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
相关文章推荐
经济观察报  ·  腾讯等来了“破壁人” ·  18 小时前  
第一财经  ·  上海迪士尼,开班了! ·  2 天前  
超级数学建模  ·  限时领 | 国家地理Look ... ·  5 天前  
国资报告  ·  透视美国科技创新背后的“举国体制” ·  3 天前  
51好读  ›  专栏  ›  吃果冻不吐果冻皮

黑神话悟空火了,为何没人用H100打游戏?(盘点H100和4090的十点区别)

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-07 12:55

正文

【点击】 加入大模型技术交流群

一、为何没人用H100打游戏?

智算中心建设的火爆不仅带火了H100而且还大量采购了4090的GPU服务器,主要原因是H100在训练侧最具性价比,而4090在推理侧最具性价比。 最近几天国产3A大作黑神话悟空火了,同样拉升了4090这类gpu的销量,但是为何没人用H100来打游戏呢?

大家通常考虑的点有如下三个,是这样吗?

有人说是价格,有人说是视频输出接口,有人说是驱动?

假如,我说假如把H100的价格打到4090一样,同时给它开发游戏驱动,也配置视频输出接口,它能替代4090吗, 答案是否定的 ,接下来我们从十个方面分析两者的区别,看完你就明白为何H100这类gpu打不了游戏了。

二、 H100和RTX 4090的10点区别

老张从多个角度(数据中心和游戏玩家的角度),独家梳理了H100和RTX 4090 GPU的10个区别点,分别为:厂商的产品定位、价格、产品外观、游戏特性、GPU和GPGPU、单卡算力、芯片结构、多卡互联、销售模式、禁售后阉割程度。

1、产品定位不同

RTX 4090: 面向消费级市场产品,受众是打游戏的ToB用户。RTX好比方是跑车,虽然速度非常快,面向单个玩家,主打的就是可玩性高。

H100: 面向数据中心、企业级市场,做人工智能大模型训练、HPC等领域的ToC用户。而H100更像是高铁,主打商务,快是基础,另一方面更注重稳定可靠。

2、 单卡价格差距10倍以上

一张RTX 4090市场价,1.3-1.6W

一张H100 PCIe卡在22W左右,八卡HGX模组210W

3、产品外观差异很大

RTX4090: 主要可分为公版和非公版、以及风扇版和涡轮版,风扇版外观五花八门

H100: 有2种形态:H800 SXM和PCIe

4、游戏特性方面差距大

RTX4090支持 全新DLSS 3 技术(高级游戏特性),3 代 RT Core的光线追踪性能较上一代大幅提升, H100无游戏特性相关的设计,视频输出接口也没有。

5、 单卡算力差距

RTX 4090的基本参数如下,其中FP16的算力330Tflops,个人分析应该是稀疏后的,稠密算力实际为160Tflos,不少公开的算力租赁平台显示4090 FP16算力160Tflops

这里说明稍微有点问题:

如果使用使用FP32 Accumulate则峰值的稠密算力为165 Tflops ,如果使用 FP16 Accumulate 峰值的稠密算力为 330Tflops。由于大多数时候进行模型训练和推理时采用的是混合精度,即使用BF16或FP16进行矩阵乘,然后用 FP32 累加,所以显示的 165 Tflops的样子。


这里我们用H800来举例子

6、GPU的类型不同

从显卡演进的角度,4090属于全功能GPU,而 H100属于GPGPU,通用GPU,阉割了图像显示相关的核心,把GPU芯片的空间都让给计算核心了

7、芯片结构差异大

RTX 4090属于Ada Lovelace 架构,16384 个 CUDA 核心,由128个SM组成,单个SM如下图:







请到「今天看啥」查看全文