专栏名称: 重庆晨报

三家美国巨头同日接入DeepSeek，业内人士：DeepSeek或准备适配国产GPU

重庆晨报 · 公众号 · 科技自媒体互联网安全 · 2025-02-01 17:43

主要观点总结

文章讨论了DeepSeek技术引发的热议，介绍了DeepSeek-R1模型的特点和其在研发中的技术细节，包括绕过了CUDA的做法、使用PTX语言的复杂性以及DeepSeek在工程上的技巧。文章还提到了DeepSeek与GPU厂商的合作趋势以及美国对华制裁对DeepSeek的激发的紧迫感和创造力。

关键观点总结

关键观点1: DeepSeek-R1模型的特点和在全球范围内的热议

DeepSeek-R1模型被认为是先进的大语言模型，英伟达宣布其登陆NVIDIANIM，亚马逊和微软也接入了该模型。这引发了全球范围内的热议和业内分析。

关键观点2: DeepSeek在研发中的技术细节

DeepSeek在研发过程中绕过了CUDA，使用了英伟达的PTX语言。这要求开发者具备AI模型算法和计算机系统架构的知识，能高效分配硬件资源。使用PTX语言写出来的代码非常复杂且难以维护。

关键观点3: DeepSeek与GPU厂商的合作趋势

AMD已经宣布集成DeepSeek-V3到MI300X GPU，未来不排除会有更多GPU厂商与DeepSeek合作。这显示了DeepSeek在工程上的技巧和非凡水平，也激发了其在硬件适配方面的创造力。

关键观点4: 美国对华制裁对DeepSeek的影响

美国对华制裁加剧了“GPU短缺危机”，这激发了DeepSeek的紧迫感和创造力。韩国分析师认为，这凸显了DeepSeek非凡的工程水平。

正文

尽管春节假期已经过半，但是“来自东方的神秘力量的 DeepSeek”仍在引起全世界热议，各路业内人士也仍在从不同角度分析 DeepSeek 的模型和技术文章。

北京时间1月31日，英伟达宣布DeepSeek-R1模型登陆NVIDIANIM。同一时段内，亚马逊和微软也接入DeepSeek-R1模型。英伟达称，DeepSeek-R1是最先进的大语言模型。

韩国 Mirae Asset Securities Research 的一名分析师在 X 撰写长文分析称：“这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程，而非通过英伟达 CUDA 中的某些功能来实现的。”

▲（来源：X）

也就是说 DeepSeek 在研发大模型时绕过了 CUDA。CUDA（Compute Unified Device Architecture，统一计算架构），是由英伟达开发的一种通用编程框架，它允许开发者利用英伟达的图形处理器（GPU，Graphics Processing Unit）进行通用计算。

如果 DeepSeek 真的绕过了 CUDA，那么这能说明什么？

在 DeepSeek-V3 的技术博文中，DeepSeek 表示其使用了英伟达的 PTX（Parallel Thread Execution）语言。

假如 DeepSeek 的开发者能够很好地使用 PTX（Parallel Thread Execution）语言，那么相比使用 CUDA 提供的编程接口，肯定可以更精细地控制 GPU 之间传输数据、权重和梯度等。但是，使用 PTX 写出来的代码非常复杂，且很难维护，因此需要专业度较高的开发者。

▲（来源：DeepSeek）

也就是说，绕过CUDA的做法具有一定的技术难度，这需要开发者既要懂AI模型的算法，又要懂计算机系统架构来高效分配硬件资源。如果没有同时掌握这两方面技能的开发者，那就要分别招聘懂这些技能的开发者，即需要协调好不同人员。

从DeepSeek的技术报告来看，其主体实现还是基于CUDA的相关接口，其描述中也阐述绕开了CUDA来写通信，那就意味着它招聘了掌握不同技能的人才，并能将这些人才很好地串了起来。

这也说明 DeepSeek 拥有一些擅长写 PTX 语言的内部开发者。那么，假如它之后使用国产GPU，其在硬件适配方面将会更得心应手，其只要了解这些硬件驱动提供的一些基本函数接口，就可以仿照英伟达GPU硬件的编程接口去写相关的代码，从而让自家大模型更加容易适配国产硬件。

与此同时，从DeepSeek的技术报告来看，其技术从学术研究角度并没有胜出一筹，但是在工程上面的确非常有技巧。考虑到AMD已经宣布集成DeepSeek-V3到 MI300X GPU，因此未来不排除会有更多 GPU 厂商牵手 DeepSeek。

同时，也正如上述韩国分析师在同一篇 X 文章中所说的：“这凸显了DeepSeek非凡的工程水平，并表明美国对华制裁加剧的“GPU短缺危机“激发了他们紧迫感和创造力。“

来源：大象新闻、深科技
编辑：张建
责编：张浩
审核：胡钊钦