最近热门专栏推荐
最近热门专栏推荐
51好读 › 主题  ›  3D
书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型
GiantPandaCV  ·  公众号  · 3D  ·  5 天前  · 
PyTorch 博客 CUTLASS Ping-Pong GEMM Kernel 简介
GiantPandaCV  ·  公众号  · 3D  ·  1 周前  · 
SGLang的Expert Parallel特性解读
GiantPandaCV  ·  公众号  · 3D  ·  1 周前  · 
简单聊聊Deepseek V3的FP8训练
GiantPandaCV  ·  公众号  · 3D  ·  1 周前  · 
PyTorch 原生FP8训练进展
GiantPandaCV  ·  公众号  · 3D  ·  1 周前  · 
[分布式训练与TorchTitan] PyTorch中的Async Tensor Parallelism介绍
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  · 
使用torchtune把LLaMa-3.1 8B蒸馏为1B
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  · 
图解Megatron TP中的计算通信overlap
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  · 
将Diffusion模型的推理速度提升了8倍,顺利拿到6家企业offer
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  · 
让预训练 Transformer 生成更长的文本/图像:位置编码长度外推技术
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  · 
Triton Kernel 编译阶段
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  · 
CUDA-MODE课程笔记 第17课 GPU集合通信(NCCL)
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  · 
AWQ:模型量化应当关注激活值
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  · 
使用 PyTorch 加速生成式 AI 之 GPT Fast
GiantPandaCV  ·  公众号  · 3D  ·  1 月前  · 
【ml-engineering 翻译系列】计算加速器之gpu
GiantPandaCV  ·  公众号  · 3D  ·  1 月前  · 
图解OpenRLHF中基于Ray的分布式训练流程
GiantPandaCV  ·  公众号  · 3D  ·  1 月前  · 
GTX 4090 的 cuda graph 诡异
GiantPandaCV  ·  公众号  · 3D  ·  1 月前  · 
PyTorch 通讯实践
GiantPandaCV  ·  公众号  · 3D  ·  1 月前  · 
CUDA-MODE 课程笔记 第29课 Triton内部机制
GiantPandaCV  ·  公众号  · 3D  ·  1 月前  ·