专栏名称: OSC开源社区

OSChina 开源中国官方微信账号

目录

相关文章推荐

OSC开源社区 · 诞生20年的Fish ... · 昨天

OSC开源社区 · 2025最值得学习的10个Vue3开源代码库 · 4 天前

程序员小灰 · 取代程序员岗，中国又一相关高薪岗位在崛起！这 ... · 2 天前

程序猿 · 马斯克“查美国社保”后怒批150岁领保障金， ... · 昨天

程序员小灰 · 部署DeepSeek ... · 3 天前

51好读 › 专栏 › OSC开源社区

DeepSeek团队莫不是有神仙？

OSC开源社区 · 公众号 · 程序员 · 2025-02-26 17:17

正文

OSCHINA

↑点击蓝字关注我们

🔗 《2024 中国开源开发者报告》正式发布

在线阅读： https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf

在 DeepSeek 开源周的第二天，该团队发布了 DeepEP，这是针对 MoE 模型的通信库，能提高 GPU 内核之间的吞吐量并降低延迟。此外该库还支持低精度操作，比如 FP8。

DeepSeek 团队在仓库的 README 中写道：

为了追求极致性能，我们发现并使用了一个在文档描述之外的 PTX 指令：ld.global.nc.L1::no_allocate.L2::256B。

这条指令会导致未定义行为：使用非一致性只读 PTX 修饰符 .nc 访问易失性 GPU 内存。

但是，在 Hopper 架构上，经过测试，使用 .L1::no_allocate 可以保证正确性，并且性能会好得多。

根据博主「karminski-牙医」的解读， no_allocate 这个指令出现在 CUDA PTX ISA 文档的第 214 页，但只是草草说了句用途，并没有详细解释能带来什么提升。

DeepSeek 团队从这么“深”的地方挖掘到了一个不被官方详细介绍的指令——并且带来极致的性能提升，可见他们对 CUDA 的研究程度之深，以及在 GPU 领域的积累。

CUDA PTX ISA 文档： https://docs.nvidia.com/cuda/pdf/ptx_isa_8.7.pdf

相关阅读

DeepSeek-R2真的要来了，这次不是KFCVWO50！

相关来源：

https://weibo.com/2169039837/Pg2pjpXZF

https://github.com/deepseek-ai/DeepEP

END

热门文章

2024年AI编程工具的进化

如何公正评价百度开源的贡献？

请到「今天看啥」查看全文

推荐文章

OSC开源社区 · 诞生20年的Fish Shell正式发布4.0：近6万行核心C++代码被Rust重写

昨天

OSC开源社区 · 2025最值得学习的10个Vue3开源代码库

4 天前

程序员小灰 · 取代程序员岗，中国又一相关高薪岗位在崛起！这才是程序员未来5年最好的就业方向！

2 天前

程序猿 · 马斯克“查美国社保”后怒批150岁领保障金，竟是年轻程序员不懂COBOL惹了祸！

昨天

程序员小灰 · 部署DeepSeek 满血版？你需要这款节约50%成本的H200裸机服务器

3 天前

经典短篇阅读小组 · 没有声音的地方就是寂寞

8 年前

经典短篇阅读小组 · 没有声音的地方就是寂寞

8 年前

刘晓博说楼市 · 节前最后一个交易日，股市将这样走！（市场套路变天了，2017只有这样操作才有机会）

8 年前

美好滁州 · 【好消息】这张卡真牛！明年滁州将人手一张……不知道这些，可要误大事儿!

7 年前

全域旅游 · 王屋山景区免门费啦，索道半价！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!