DeepSeek绕开CUDA垄断，V3论文细节再挖出！英伟达护城河不存在了？

Dots机构投资者社区 · 公众号 · · 2025-01-30 08:15

正文

本文转自微信公众号“新智元”，作者：新智元。

编辑：桃子好困

原本DeepSeek低成本训出的R1，就已经让整个硅谷和华尔街为之虎躯一震。

而现在又曝出，打造这款超级AI，竟连CUDA也不需要了？

根据外媒的报道，他们在短短两个月时间，在2,048个H800 GPU集群上，训出6710亿参数的MoE语言模型，比顶尖AI效率高出10倍。

这项突破不是用CUDA实现的，而是通过大量细粒度优化以及使用英伟达的类汇编级别的PTX（并行线程执行）编程。

这则消息一出，再次掀翻AI圈，网友对其策略纷纷表示震惊：

「在这个世界上，如果有哪群人会疯狂到说出『CUDA太慢了！干脆直接写PTX吧！』这种话，绝对就是那些前量化交易员了。」

左右滑动查看

还有人表示，如果DeepSeek开源了CUDA替代品，这将意味着什么？

天才极客微调PTX，让GPU性能极致发挥

英伟达PTX（并行线程执行）是专门为其GPU设计的中间指令集架构，位于高级GPU编程语言（如CUDA C/C++或其他语言前端）和低级机器代码（流处理汇编或SASS）之间。

PTX是一种接近底层的指令集架构，将GPU呈现为数据并行计算设备，因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化，这些是CUDA C/C++等语言无法实现的。

当PTX转换为SASS后，就会针对特定代的英伟达GPU进行优化。

在训练V3模型时，DeepSeek对英伟达H800 GPU进行了重新配置：

在132个流处理器多核中，划分出20个用于服务器间通信，主要用于数据压缩和解压缩，以突破处理器的连接限制、提升事务处理速度。

为了最大化性能，DeepSeek还通过额外的细粒度线程/线程束级别调整，实现了先进的流水线算法。

这些优化远超常规CUDA开发水平，但维护难度极高。然而，这种级别的优化恰恰充分展现DeepSeek团队的卓越技术实力。