刚刚，DeepSeek发布第一个新开源项目！榨干H800性能，强得可怕！

柠檬工会 · 公众号 · AI 科技自媒体 · 2025-02-24 11:17

主要观点总结

DeepSeek发布开源项目FlashMLA，这是专为Hopper GPU优化的高效MLA解码内核，可针对可变长度序列进行优化，并已投入生产使用。FlashMLA具有多项核心特性，并在H800上实现了高内存带宽峰值和计算机峰值性能。DeepSeek将在接下来四天继续发布新的开源项目。

FlashMLA是一个高效MLA解码内核，专为Hopper GPU优化，可针对可变长度序列进行优化，并已投入生产使用。

包括16 BF16支持、点精度支持、分页KV缓存（块大小64）等。

在H800上，FlashMLA可以实现3000 GB/s的内存带宽峰值和580 TFLOPS的计算机峰值性能。

除了FlashMLA，DeepSeek还计划在接下来的四天里每天发布一个新的开源项目，值得期待。

还记得上周五DeepSeek在X上发文说要在这周连续发布开源5个项目吧？现在，它来了：

「🚀 #开源周首日：FlashMLA技术发布

很荣幸和大家分享 FlashMLA - 我们专为 Hopper GPU 优化的高效 MLA 解码内核，可针对可变长度序列进行了优化，现已投入生产、使用。

其核心特性：

✅ 16 BF16 支持点精度支持
✅ 分页 KV 缓存（块大小 64）
⚡ 在 H800上可以实现：

- 3000 GB/s 的内存带宽峰值
- 580 TFLOPS 的计算机峰值性能」

啊，看不懂啊！没关系，我们让DeepSeek用最简单易懂的方式给解释下

所以简单总结来说 FlashMLA 是一个能让 LLM模型（大语言模型）在H800上跑得更快、效率更高的优化方案。而这，是开源的！

评论区也是老规矩，各路网民纷纷点赞：非常感谢、这才是真.开源、向团队致敬、diao~

而今天才是第一弹，接下来的四天每天还会发布一个新开源项目。让我们拭目以待，看看接下来还会发些什么！

最后附上 FlashMLA Git Hub 的项目地址：

https://github.com/deepseek-ai/FlashMLA