|
书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型 GiantPandaCV · 公众号 · 3D · 5 天前 · |
|
|
PyTorch 博客 CUTLASS Ping-Pong GEMM Kernel 简介 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
SGLang的Expert Parallel特性解读 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
简单聊聊Deepseek V3的FP8训练 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
PyTorch 原生FP8训练进展 GiantPandaCV · 公众号 · 3D · 1 周前 · |
|
|
[分布式训练与TorchTitan] PyTorch中的Async Tensor Parallelism介绍 GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
使用torchtune把LLaMa-3.1 8B蒸馏为1B GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
图解Megatron TP中的计算通信overlap GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
将Diffusion模型的推理速度提升了8倍,顺利拿到6家企业offer GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
让预训练 Transformer 生成更长的文本/图像:位置编码长度外推技术 GiantPandaCV · 公众号 · 3D · 2 周前 · |
|
|
Triton Kernel 编译阶段 GiantPandaCV · 公众号 · 3D · 3 周前 · |
|
|
CUDA-MODE课程笔记 第17课 GPU集合通信(NCCL) GiantPandaCV · 公众号 · 3D · 3 周前 · |
|
|
AWQ:模型量化应当关注激活值 GiantPandaCV · 公众号 · 3D · 3 周前 · |
|
|
NIPS 2024 最佳论文 VAR 深度解读:下一尺度预测为何能超越扩散模型? GiantPandaCV · 公众号 · 3D · 4 周前 · |
|
|
使用 PyTorch 加速生成式 AI 之 GPT Fast GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
【ml-engineering 翻译系列】计算加速器之gpu GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
图解OpenRLHF中基于Ray的分布式训练流程 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
GTX 4090 的 cuda graph 诡异 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
PyTorch 通讯实践 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
CUDA-MODE 课程笔记 第29课 Triton内部机制 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|