|
[Hopper 架构特性学习笔记 Part2] Tensor Memory Access(TMA) GiantPandaCV · 公众号 · 3D · 4 周前 · |
|
|
CUDA-MODE课程笔记 第9课: 归约(也对应PMPP的第10章) GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
TensorRT-LLM初探(三)最佳部署实践 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
通过微基准测试和指令级分析(Instruction-level Analysis)揭秘英伟达Ampere架构 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
[Hopper 架构特性学习笔记 Part1] Distributed Shared Memory GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
H100 vs. A100 和 4090 vs. A10 实测性能(一)算力篇 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
[原创]TensorRT-LLM 中的 Hopper Mixed GEMM 的 CUTLASS 3.x 实现讲解 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
ICML2024 : Bandwidth Efficient Attention - 保精度下8~300倍长序列极致加速无需微调 GiantPandaCV · 公众号 · 3D · 1 月前 · |
|
|
[原创]DeepSpeed-Chat 打造类ChatGPT全流程 笔记一 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
[原创]CVPR 2023 中的领域适应: 一种免反向传播的 TTA 语义分割方法 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
深入浅出扩散模型系列:基石DDPM(模型架构篇),最详细的DDPM架构图解 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
CVPR 2023的46篇AIGC应用论文+部分代码汇总【附PDF+文末送书】 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
【DeepSpeed 教程翻译】三,在 DeepSpeed中使用 PyTorch Profiler和Flops Profiler GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
[原创]Continual Test-Time 的领域适应 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
thinktwice:用于端到端自动驾驶的可扩展解码器(已开源) GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
CVPR 2023 最全分割类论文整理:图像/全景/语义/实例分割等【附PDF+代码】 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
图解大模型训练之:Megatron源码解读2,模型并行 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
[原创]DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法 GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
[原创]DeepSpeed结合Megatron-LM训练GPT2模型笔记(上) GiantPandaCV · 公众号 · 3D · 1 年前 · |
|
|
被导师放养的科研er,出路在哪? GiantPandaCV · 公众号 · 3D · 1 年前 · |
|