FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化。 目前已发布:BF16,块大小为 64 的分页 kvcache,项目:
网页链接
。
查看图片
//
@udonwudong
:已经公布一个开源成果了 FlashMLA
#DeepSeek宣布将开源5个代码库#
蹲守在这个地址就对了:github.com/deepseek-ai/open-infra-index
目前就已经有超过3000⭐了!现在放了一篇24年8月的论文:Fire-Flyer AI-HPC:一种经济高效的深度学习软硬件协同设计(A Cost-Effective Software-Hardware Co-Design for Deep Learning)
论文摘要:
深度学习 (DL) 和大型语言模型 (LLM) 的快速发展成倍增加了对计算能力和带宽的需求。再加上更快的计算芯片和互连的高成本,高性能计算 (HPC) 的建设成本大幅膨胀。
蹲守在这个地址就对了:github.com/deepseek-ai/open-infra-index
目前就已经有超过3000⭐了!现在放了一篇24年8月的论文:Fire-Flyer AI-HPC:一种经济高效的深度学习软硬件协同设计(A Cost-Effective Software-Hardware Co-Design for Deep Learning)
论文摘要:
深度学习 (DL) 和大型语言模型 (LLM) 的快速发展成倍增加了对计算能力和带宽的需求。再加上更快的计算芯片和互连的高成本,高性能计算 (HPC) 的建设成本大幅膨胀。