专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
51好读  ›  专栏  ›  Dots机构投资者社区

DeepSeek绕开CUDA垄断,V3论文细节再挖出!英伟达护城河不存在了?

Dots机构投资者社区  · 公众号  ·  · 2025-01-30 08:15

正文

本文转自微信公众号“新智元”,作者:新智元。




编辑:桃子 好困
【导读】 DeepSeek模型开发竟绕过了CUDA?最新爆料称,DeepSeek团队走了一条不寻常的路——针对英伟达GPU低级汇编语言PTX进行优化实现最大性能。业界人士纷纷表示,CUDA护城河不存在了?

原本DeepSeek低成本训出的R1,就已经让整个硅谷和华尔街为之虎躯一震。
而现在又曝出,打造这款超级AI,竟连CUDA也不需要了?
根据外媒的报道,他们在短短两个月时间,在2,048个H800 GPU集群上,训出6710亿参数的MoE语言模型,比顶尖AI效率高出10倍。
这项突破不是用CUDA实现的,而是通过大量细粒度优化以及使用英伟达的类汇编级别的PTX(并行线程执行)编程。
这则消息一出,再次掀翻AI圈,网友对其策略纷纷表示震惊:
「在这个世界上,如果有哪群人会疯狂到说出『CUDA太慢了!干脆直接写PTX吧!』这种话,绝对就是那些前量化交易员了。」
左右滑动查看
还有人表示,如果DeepSeek开源了CUDA替代品,这将意味着什么?

天才极客微调PTX,让GPU性能极致发挥

英伟达PTX(并行线程执行)是专门为其GPU设计的中间指令集架构,位于高级GPU编程语言(如CUDA C/C++或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。
PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDA C/C++等语言无法实现的。
当PTX转换为SASS后,就会针对特定代的英伟达GPU进行优化。
在训练V3模型时,DeepSeek对英伟达H800 GPU进行了重新配置:
在132个流处理器多核中,划分出20个用于服务器间通信,主要用于数据压缩和解压缩,以突破处理器的连接限制、提升事务处理速度。
为了最大化性能,DeepSeek还通过额外的细粒度线程/线程束级别调整,实现了先进的流水线算法。
这些优化远超常规CUDA开发水平,但维护难度极高。然而,这种级别的优化恰恰充分展现DeepSeek团队的卓越技术实力。







请到「今天看啥」查看全文