|
图解大模型训练系列:序列并行2,DeepSpeed Ulysses GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【翻译】在FSDP2中开启Float8 All-Gather GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
图解大模型训练系列:序列并行1,Megatron SP GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【ml-engineering 翻译系列】AI系统中的网络 benchmark GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
OpenAI o1技术初探3:如何让模型拥有自我纠错的能力 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【ml-engineering 翻译系列】AI系统中的网络 debug GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读) GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【ml-engineering 翻译系列】AI系统中的网络概述 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【ml-engineering 翻译系列】大模型推理 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【翻译】使用PyTorch FSDP和Torch.compile最大化训练吞吐量 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
课程升级、资源加码!万人共学的书生大模型实战营第4期正式起航! GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
OpenAI o1 技术初探1:整体框架,利用Test-Time Scaling Law提升逻辑推理能力 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【翻译】使用PyTorch FSDP最大化训练吞吐量 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
图文详解 Continuous Batch:不写 CUDA Kernel 也能成倍优化推理效率 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
CUDA-MODE 课程笔记 第14课,Triton 实践指南 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
【翻译】CUDA-Free Inference for LLMs GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
揭秘 PagedAttention(上):如何管理 Paged KV Cache GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
图解KV Cache:加速大模型推理的幕后功臣 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
Flex Attention API 应用 Notebook 代码速览 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|
|
将GLM-4-Plus大模型应用到Cursor中 GiantPandaCV · 公众号 · 3D · 4 月前 · |
|