专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
凤凰网读书  ·  只要坚持就好|第十届单向街书店文学奖获奖名单 ·  14 小时前  
新京报书评周刊  ·  《不确定宣言:狄金森,茨维塔耶娃》:她们的身 ... ·  3 天前  
壹读  ·  啄木鸟是好鸟吗? ·  4 天前  
51好读  ›  专栏  ›  Dots机构投资者社区

DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中

Dots机构投资者社区  · 公众号  ·  · 2025-02-25 08:15

正文

本文转自微信公众号“机器之心”,作者:机器之心。

机器之心编辑部

上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。

第一个项目,果然与推理加速有关。

北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。

image.png

该项目上线才 45 分钟就已经收获了超过 400 star!并且在我们截图时,Star 数量正在疯狂飙升。

image.png

项目地址:https://github.com/deepseek-ai/FlashMLA

众所周知,MLA是 DeepSeek大模型的重要技术创新点,主要就是减少推理过程的KV Cache,从而实现在更少的设备上推理更长的Context,极大地降低推理成本。

此次 DeepSeek 直接开源了该核心技术的改进版本,可以说是诚意满满。

接下来,就让我看下这个开源项目的核心内容。

据介绍,FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化。

目前已发布的内容有:

  • BF16
  • 块大小为 64 的分页 kvcache

其速度非常快,在 H800 SXM5 GPU 上具有 3000 GB/s 的内存速度上限以及 580 TFLOPS 的计算上限。

在部署这个项目之前,你需要的有:

  • Hopper GPU






请到「今天看啥」查看全文