专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
北京本地宝  ·  跨越3区、设5站!北京市郊铁路线+1!还有京 ... ·  3 天前  
北京本地宝  ·  北京长期有效的免费福利! ·  4 天前  
北京吃货小分队  ·  庆丰包子铺出自助了!但... ·  3 天前  
51好读  ›  专栏  ›  AI算法与图像处理

DeepSeek开源第三天,300行代码性能赶超英伟达?

AI算法与图像处理  · 公众号  ·  · 2025-02-26 20:25

正文

AI 开源大战进入白热化!

DeepSeek 开源周持续加码,今天第三个项目 DeepGEMM 正式上线。

与此同时,阿里昨晚也放出了大招,全球最强开源视频生成模型 万相 2.1 重磅登场!

此外,据报道 DeepSeek 正在加速推出其 R2 人工智能模型 ,最初计划五月份推出,目前正在努力争取尽快。

显然,现在不仅是「开卷」的时代,也是争相「开源」的时代!

各大 AI 机构纷纷抛出王牌,整个 AI 赛道热度飙升。

一、DeepGEMM

DeepSeek 持续开源第三天:

DeepSeek 这次带来了 DeepGEMM ,一款专为 FP8 矩阵乘法(GEMM)设计的高效计算库。

开源项目地址:

https://github.com/deepseek-ai/DeepGEMM

它完全用 CUDA 编写,主打「轻量级、极致性能、即装即用」,不需要编译,所有核心计算内核都能 JIT(即时编译)运行,兼顾 高效和易用

DeepGEMM 到底强在哪里?

高效 FP8 计算 :专为 NVIDIA Hopper Tensor Core 设计,直接打破 FP8 计算瓶颈;

MoE 专属优化 :针对 MoE(Mixture of Experts)模型进行了特殊优化,提高大模型推理效率;

轻量级 JIT 设计 :不像 CUTLASS 那么复杂,核心代码只有 300 行,易读易学,还性能炸裂;

比专家调优的库还快 :在 DeepSeek-V3 推理中,性能全面超越 CUTLASS 3.6;

性能测试数据直接看爆表:

  • 64×2112×7168 计算速度高达 206 TFLOPS ,内存带宽 1688GB/s ,速度提升 2.7 倍

  • 在 MoE 训练任务中,速度提升 1.2 倍以上 ,让大模型训练推理全面加速!

这么极致的压榨英伟达显卡,让网友直呼,可以从澳洲听到英伟达的尖叫。

还有网友评论说,就300行代码,要不是你们有最厉害的工程师,就是有黑魔法!

怎么用?

只需三步:

1、克隆项目且部署

# Submodule must be cloned
git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
# Make symbolic links for third-party (CUTLASS and CuTe) include directories
python setup.py develop
# Test JIT compilation
python tests/test_jit.py
# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py

2、进行环境配置

python setup.py install

3、直接调用 deep_gemm 在你的python文件里,

简洁、强悍、无痛上手,完全是 AI 计算优化的神器!







请到「今天看啥」查看全文