专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【[150星]Zotero-arxiv-wo ... ·  昨天  
爱可可-爱生活  ·  【[540星]AgentQL:AI驱动的网页 ... ·  昨天  
爱可可-爱生活  ·  【TeamCraft:为多模态多智能体系统提 ... ·  昨天  
量子位  ·  阶跃Agent生态首曝光:手机汽车IoT机器 ... ·  3 天前  
黄建同学  ·  Jim ... ·  3 天前  
51好读  ›  专栏  ›  黄建同学

FlashMLA 是适用于 Hopper GPU 的高效 MLA-20250224122632

黄建同学  · 微博  · AI  · 2025-02-24 12:26

正文

2025-02-24 12:26

FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化。 目前已发布:BF16,块大小为 64 的分页 kvcache,项目: 网页链接 查看图片 // @udonwudong :已经公布一个开源成果了 FlashMLA [哈哈]
#DeepSeek宣布将开源5个代码库#
蹲守在这个地址就对了:github.com/deepseek-ai/open-infra-index

目前就已经有超过3000⭐了!现在放了一篇24年8月的论文:Fire-Flyer AI-HPC:一种经济高效的深度学习软硬件协同设计(A Cost-Effective Software-Hardware Co-Design for Deep Learning)

论文摘要:
深度学习 (DL) 和大型语言模型 (LLM) 的快速发展成倍增加了对计算能力和带宽的需求。再加上更快的计算芯片和互连的高成本,高性能计算 (HPC) 的建设成本大幅膨胀。






请到「今天看啥」查看全文