专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

DeepSeek开源第三天，300行代码性能赶超英伟达？

AI算法与图像处理 · 公众号 · · 2025-02-26 20:25

正文

AI 开源大战进入白热化！

DeepSeek 开源周持续加码，今天第三个项目 DeepGEMM 正式上线。

与此同时，阿里昨晚也放出了大招，全球最强开源视频生成模型 万相 2.1 重磅登场！

此外，据报道 DeepSeek 正在加速推出其 R2 人工智能模型 ，最初计划五月份推出，目前正在努力争取尽快。

显然，现在不仅是「开卷」的时代，也是争相「开源」的时代！

各大 AI 机构纷纷抛出王牌，整个 AI 赛道热度飙升。

一、DeepGEMM

DeepSeek 持续开源第三天：

DeepSeek 这次带来了 DeepGEMM ，一款专为 FP8 矩阵乘法（GEMM）设计的高效计算库。

开源项目地址：

https://github.com/deepseek-ai/DeepGEMM

它完全用 CUDA 编写，主打「轻量级、极致性能、即装即用」，不需要编译，所有核心计算内核都能 JIT（即时编译）运行，兼顾 高效和易用 ！

DeepGEMM 到底强在哪里？

高效 FP8 计算 ：专为 NVIDIA Hopper Tensor Core 设计，直接打破 FP8 计算瓶颈；

MoE 专属优化 ：针对 MoE（Mixture of Experts）模型进行了特殊优化，提高大模型推理效率；

轻量级 JIT 设计 ：不像 CUTLASS 那么复杂，核心代码只有 300 行，易读易学，还性能炸裂；

比专家调优的库还快 ：在 DeepSeek-V3 推理中，性能全面超越 CUTLASS 3.6；

性能测试数据直接看爆表：

64×2112×7168 计算速度高达 206 TFLOPS ，内存带宽 1688GB/s ，速度提升 2.7 倍 ！
在 MoE 训练任务中，速度提升 1.2 倍以上 ，让大模型训练推理全面加速！

这么极致的压榨英伟达显卡，让网友直呼，可以从澳洲听到英伟达的尖叫。

还有网友评论说，就300行代码，要不是你们有最厉害的工程师，就是有黑魔法！

怎么用？

只需三步：

1、克隆项目且部署

# Submodule must be cloned
git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
# Make symbolic links for third-party (CUTLASS and CuTe) include directories
python setup.py develop
# Test JIT compilation
python tests/test_jit.py
# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py