专栏名称: 柠檬工会
主聊科技,顺带聊中午吃啥
目录
相关文章推荐
51好读  ›  专栏  ›  柠檬工会

刚刚,DeepSeek发布第一个新开源项目!榨干H800性能,强得可怕!

柠檬工会  · 公众号  · AI 科技自媒体  · 2025-02-24 11:17

主要观点总结

DeepSeek发布开源项目FlashMLA,这是专为Hopper GPU优化的高效MLA解码内核,可针对可变长度序列进行优化,并已投入生产使用。FlashMLA具有多项核心特性,并在H800上实现了高内存带宽峰值和计算机峰值性能。DeepSeek将在接下来四天继续发布新的开源项目。

关键观点总结

关键观点1: FlashMLA是DeepSeek发布的开源项目

FlashMLA是一个高效MLA解码内核,专为Hopper GPU优化,可针对可变长度序列进行优化,并已投入生产使用。

关键观点2: FlashMLA具有多项核心特性

包括16 BF16支持、点精度支持、分页KV缓存(块大小64)等。

关键观点3: FlashMLA在H800上实现了高内存带宽峰值和计算机峰值性能

在H800上,FlashMLA可以实现3000 GB/s的内存带宽峰值和580 TFLOPS的计算机峰值性能。

关键观点4: DeepSeek将在接下来四天继续发布新的开源项目

除了FlashMLA,DeepSeek还计划在接下来的四天里每天发布一个新的开源项目,值得期待。


正文

请到「今天看啥」查看全文


还记得上周五DeepSeek在X上发文说要在这周连续发布开源5个项目吧? 现在,它来了:

「🚀 #开源周首日:FlashMLA技术发布

很荣幸和大家分享 FlashMLA - 我们专为 Hopper GPU 优化的高效 MLA 解码内核,可针对可变长度序列进行了优化,现已投入生产、使用。

其核心特性:
✅ 16 BF16 支持 点精度支持
分页 KV 缓存(块大小 64)
⚡ 在 H800上可以实现:
- 3000 GB/s 的内存带宽峰值
-
580 TFLOPS 的计算机 峰值性能」


啊,看不懂啊! 没关系,我们让DeepSeek用最简单易懂的方式给解释下


所以简单总结来说 FlashMLA 是一个能让 LLM模型 (大语言模型) 在H800上跑得更 快、效率更高的优化方案。 而这 ,是开源的

评论区也是老规矩,各路网民纷纷点赞:非常感谢、这才是真.开源、向团队致敬、diao~


而今天才是第一弹,接下来的四天每天还会发布一个新开源项目。让我们拭目以待,看看接下来还会发些什么!

最后附上 FlashMLA Git Hub 的项目地址:
https://github.com/deepseek-ai/FlashMLA







请到「今天看啥」查看全文


推荐文章
视觉志  ·  借钱见人品
8 年前
InternetDeep  ·  死亡是生命最伟大的导师
8 年前
山西老乡俱乐部  ·  【山西早知道】-2017.5.19
7 年前
映维网Nweon  ·  YouTube宣布VR180视频格式
7 年前