专栏名称: 共识粉碎机
寻找与共识的不同
目录
相关文章推荐
英文悦读  ·  推荐一本经典英文有声书:了不起的盖茨比 ·  2 天前  
恶魔奶爸  ·  为什么越是长相普通的女生,嫁得越好? ·  2 天前  
BetterRead  ·  超级学霸的时间魔法:竞赛生高效秘籍 ·  2 天前  
51好读  ›  专栏  ›  共识粉碎机

DeepSeek开源周观察-1:让所有人都能用起来R1

共识粉碎机  · 公众号  ·  · 2025-02-24 15:25

正文

打赏我们一本AI应用百科全书

毫无疑问,DeepSeek已经是全球开源圈毫无疑问的一哥了。今天, DeepSeek 在“开源周”活动中首发了 FlashMLA,这是一个专门针对英伟达 Hopper GPU(如 H800)优化的高效多头潜在注意力(MLA)解码内核。


简单来说, FlashMLA 解决了传统大模型在处理变长序列时资源浪费的问题,针对MLA架构,通过深度优化Kernel,提升内存带宽利用率和计算效率。 这个工作,和之前的Native Sparse Attention是类似的优化思路

  • 在 H800 SXM5 GPU 上,FlashMLA 达到了 3000 GB/s 的内存带宽和 580 TFLOPS 的计算性能,大幅提升了大模型推理速度。

  • 该内核支持 BF16 混合精度运算,并采用了块大小为 64 的分页 KV 缓存技术,有效减少冗余计算和显存浪费。

  • FlashMLA 的设计受到了 FlashAttention 2&3 以及 CUTLASS 项目的启发,结合了先进的注意力机制优化策略(还是在Nvidia GPU的生态上)

  • 只需简单执行 python setup.py install 即可安装,并已开源在 GitHub 上,迅速获得大量关注和星标


目前看起来,DeepSeek真的是为了人类社会早日通过开源模型实现AGI操碎了心:开源了模型,发论文解释了技术, 还担心你没办法做到16人民币/百万Token的成本,于是打算通过这一整个开源周,把自己是怎么优化infra核心技术都开源。 看起来,DeepSeek还是希望把自己的计算资源都投入到AGI的研发中。通过R1模型做产品和应用,看起来是希望交给开源社区和下游应用了。


DeepSeek这个开源周,从“Open”的角度,看起来会吊打CloseAI的12天发布。毫无疑问,这也将进一步强化我们长期的判断:DeepSeek R1开源会极大的利好下游应用,现在不光白送一个o1级别的模型,而且贴心的帮你把成本也优化了


对于算力, FlashMLA是完全基于Nvidia GPU做的优化 ,对于NV的GPU是开箱即用的(当然,从BF16到FP8还需要自己手动优化,但是肯定比从0开始写FP8要容易),短期肯定会进一步利好DeepSeek模型在Nvidia的部署和落地,增加对Nvidia的需求


期待接下来4天,DeepSeek每天给我们带来惊喜!





上周三我们在Discord中做了2个小时深度的SNOW/MDB 4Q24财报Bull-bear debate,超过10位朋友参与debate发言,其中包括了投资人、从业者以及SNOW/MDB客户,戳Discord看纪要。
本周三10点计划讨论中国互联网公司的AI Upside,请点击下方方式购买进入Discord。如果您是与本话题相关的特别一线的从业者(非投资人),也可私信后台,或者私信微信453561212。
机构客户进入Discord方法

机构客户进入Discord讨论区指引

个人购买Discord方法

本周日Applovin线上讨论与个人用户开放注册







请到「今天看啥」查看全文