|
CUDA优化 让向量求和变得非常快 GiantPandaCV · 公众号 · 3D · 3 天前 · |
|
|
Llama4凌晨突然发布!以超高性价比开启原生多模态AI和开源MoE的新时代,并公开训练策略! GiantPandaCV · 公众号 · 3D · 6 天前 · |
|
|
[CUDA基础]CUDA-Learn-Notes: v3.0 大升级-面试刷题不迷路 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
https://github.com/BBuf/Panzhihua-Mi-Yi-Pipa GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
分享一个DeepSeek V3和R1中 Shared Experts和普通Experts融合的一个小技巧 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
[InternLM/VL系列]InternLM2/LM2.5/ViT/VL1.5/VL2.0笔记: 核心点解析 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
[KV Cache优化]MQA/GQA/YOCO/CLA/MLKV笔记: 层内和层间KV Cache共享 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
[张量/序列并行]图解 DeepSpeed-Ulysses & Megatron-LM TP/SP GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
SGLang 支持Flash Attention V3 Backend GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
DeepSeek V3/R1 推理效率分析(3):Decode 配置泛化讨论 GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
DeepSeek V3/R1 推理效率分析: 满血版逆向工程分解 GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
从零开始设计 SGLang 的 KV Cache GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
谈谈DeepSeek-R1满血版推理部署和优化 GiantPandaCV · 公众号 · 3D · 3 周前 · |
|
|
详解vLLM和SGLang awq dequantize kernel的魔法 GiantPandaCV · 公众号 · 3D · 3 周前 · |
|
|
非常简洁的图像复原新方法:退化分类预训练,已中ICLR2025 GiantPandaCV · 公众号 · 3D · 4 周前 · |
|
|
《超大规模AI实战手册》PDF领取 GiantPandaCV · 公众号 · 3D · 4 周前 · |
|
|
从DeepSeek MoE专家负载均衡谈起 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
从DeepSeek V3开源趋势重新审视大模型Infra GiantPandaCV · 公众号 · 3D · 1 月前 · |
|