在使用英伟达的H800 GPU训练DeepSeek-V3时, 他-20250129165635_LoneSchicksal的专栏文章_微信文章

在使用英伟达的H800 GPU训练DeepSeek-V3时, 他-20250129165635

LoneSchicksal · 微博 · · 2025-01-29 16:56

正文

2025-01-29 16:56
本条微博链接

"在使用英伟达的H800 GPU训练DeepSeek-V3时, 他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信, 而不是计算任务. 变相绕过了硬件对通信速度的限制." 哈哈哈哈哈…

【“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？】这一次是DeepSeek-V3论文中的更多细节，被人挖掘出来。

来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。

在使用英伟达的H800 GPU训练DeepSeek-V3时, 他-20250129165635

正文

请到「今天看啥」查看全文