专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
OSC开源社区  ·  诞生20年的Fish ... ·  昨天  
OSC开源社区  ·  2025最值得学习的10个Vue3开源代码库 ·  4 天前  
程序员小灰  ·  部署DeepSeek ... ·  3 天前  
51好读  ›  专栏  ›  OSC开源社区

DeepSeek团队莫不是有神仙?

OSC开源社区  · 公众号  · 程序员  · 2025-02-26 17:17

正文

OSCHINA

↑点击蓝字 关注我们


🔗 《2024 中国开源开发者报告》正式发布


在线阅读: https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf




在 DeepSeek 开源周的第二天,该团队发布了 DeepEP,这是针对 MoE 模型的通信库,能提高 GPU 内核之间的吞吐量并降低延迟。 此外该库还支持低精度操作,比如 FP8。

DeepSeek 团队在仓库的 README 中写道:

为了追求极致性能,我们发现并使用了一个在文档描述之外的 PTX 指令:ld.global.nc.L1::no_allocate.L2::256B。
这条指令会导致未定义行为:使用非一致性只读 PTX 修饰符 .nc 访问易失性 GPU 内存。
但是,在 Hopper 架构上,经过测试,使用 .L1::no_allocate 可以保证正确性,并且性能会好得多。

根据博主「karminski-牙医」的解读, no_allocate 这个指令出现在 CUDA PTX ISA 文档的第 214 页, 但只是草草说了句用途,并没有详细解释能带来什么提升。

DeepSeek 团队从这么“深”的地方挖掘到了一个不被官方详细介绍的指令——并且带来极致的性能提升,可见他们对 CUDA 的研究程度之深,以及在 GPU 领域的积累。


CUDA PTX ISA 文档: https://docs.nvidia.com/cuda/pdf/ptx_isa_8.7.pdf


相关阅读

DeepSeek-R2真的要来了,这次不是KFCVWO50!


相关来源:

https://weibo.com/2169039837/Pg2pjpXZF

https://github.com/deepseek-ai/DeepEP


END


热门文章

2024年AI编程工具的进化

如何公正评价百度开源的贡献?







请到「今天看啥」查看全文