|
NVIDIA Nemotron-4 340B 开源技术报告(二) | 你想要的都在这里 GiantPandaCV · 公众号 · · 8 月前 · |
|
|
NVIDIA Nemotron-4 340B 开源技术报告 | 你想要的都在这里 GiantPandaCV · 公众号 · · 8 月前 · |
|
|
NVIDIA Nemotron-4 340B 开源技术报告(三) | 你想要的都在这里 GiantPandaCV · 公众号 · · 8 月前 · |
|
|
窥探Triton的lower(二) GiantPandaCV · 公众号 · · 8 月前 · |
|
|
窥探Trition的lower(一) GiantPandaCV · 公众号 · · 8 月前 · |
|
|
FP8量化解读--8bit下最优方案?(一) GiantPandaCV · 公众号 · · 8 月前 · |
|
|
如何使用“LoRa”的方式加载ONNX模型:StableDiffusion相关模型 的C++推理 GiantPandaCV · 公众号 · · 8 月前 · |
|
|
TransformerEngine代码走读 GiantPandaCV · 公众号 · · 8 月前 · |
|
|
大模型KV Cache节省神器MLA学习笔记(包含推理时的矩阵吸收分析) GiantPandaCV · 公众号 · · 8 月前 · |
|
|
60行代码加速20倍 NEON实现深度学习OD任务后处理绘框 GiantPandaCV · 公众号 · · 8 月前 · |
|
|
从啥也不会到Cuda GEMM优化 GiantPandaCV · 公众号 · · 8 月前 · |
|
|
[Prefill优化]图解vLLM Prefix Prefill Triton Kernel GiantPandaCV · 公众号 · · 8 月前 · |
|
|
大模型人才今年的薪资。。。 GiantPandaCV · 公众号 · · 9 月前 · |
|
|
GPTQ & SmoothQuant & AWQ 代码解析 GiantPandaCV · 公众号 · · 9 月前 · |
|
|
vAttention:用于在没有Paged Attention的情况下Serving LLM GiantPandaCV · 公众号 · · 9 月前 · |
|
|
GQA,MLA之外的另一种KV Cache压缩方式:动态内存压缩(DMC) GiantPandaCV · 公众号 · · 9 月前 · |
|
|
LLM PTQ量化经典研究解析 GiantPandaCV · 公众号 · · 9 月前 · |
|
|
PipeFusion:如何用PCIe互联GPU 低成本并行推理扩散模型 GiantPandaCV · 公众号 · · 9 月前 · |
|
|
I-LLM:首次实现了LLM全整形量化,精度逼近浮点,超过Smooth/Omini/AffineQuant GiantPandaCV · 公众号 · · 9 月前 · |
|
|
硬件高效的线性注意力机制Gated Linear Attention论文阅读 GiantPandaCV · 公众号 · · 9 月前 · |
|