专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

目录

相关文章推荐

纪念币预约信息 · 开始预约！国色天香彩色银币，龙头币！ · 4 小时前

纪念币预约信息 · 每人20枚！新10元生肖纪念币，一定要约！ · 4 小时前

小易说钱 · 黑马！这个年份的荷花5角硬币，涨了 · 4 小时前

纪念币发行信息 · 重磅！2025新版100元纸钞发行！开始预约！ · 昨天

纪念币发行信息 · 重磅！2025新版100元纸钞发行！开始预约！ · 昨天

小易说钱 · 面值预约！新币即将发行！还有蛇钞二次预约！ · 3 天前

51好读 › 专栏 › 吃果冻不吐果冻皮

LLM推理-PD分离架构思考

吃果冻不吐果冻皮 · 公众号 · · 2024-12-21 10:52

正文

原文：https://zhuanlan.zhihu.com/p/11802769479

前言

PD 分离出来也有一阵子时间了，之前一直觉得主要问题在 KV Cache 传输上，并且业内似乎落地成功的不多于是没有过多思考，碰巧前阵子 mooncake 正在开源他们的分离架构，于是这篇文章对 PD 分离进行一个进一步的思考。

融合推理存在的问题

PD 分离主要是考虑到了 LLM 的 prefill 和 decode 的两个阶段的特性不同，prefill 阶段是 compute bound，decode 阶段是 memory bound，prefill 阶段的能力我们用 TTFT 首 token 时延来衡量，decode 的能力我们用 TPOT 生成每个 token 的时间来衡量。

但是在同一张卡上做 prefill 和 decode 会出现问题，在机器的算力等条件固定的情况下，你增加 bsz，prefill 阶段机器到算力瓶颈了，反而影响 TTFT，你减小 bsz，decode 阶段又是访存瓶颈的，decode 阶段可以比 prefill 阶段承载更大的 bsz。

那么问题来了，到底要不要增大 bsz？

vLLM 中的调度策略是：

优先调度 prefill，然后调度 decode，但是会设置一个阈值防止 decode 一直等待。

也就是优先确保 TTFT，然后设置一个阈值来保证 TPOT 不会太差。很明显，这只是一个折中的方法。

PD 分离的优势

有了 PD 分离之后，我们可以把 prefill 阶段放在 H800 这样的算力高的机器，decode 阶段放在

请到「今天看啥」查看全文

推荐文章

纪念币预约信息 · 开始预约！国色天香彩色银币，龙头币！

4 小时前

纪念币预约信息 · 每人20枚！新10元生肖纪念币，一定要约！

4 小时前

小易说钱 · 黑马！这个年份的荷花5角硬币，涨了

4 小时前

纪念币发行信息 · 重磅！2025新版100元纸钞发行！开始预约！

昨天

纪念币发行信息 · 重磅！2025新版100元纸钞发行！开始预约！

昨天

小易说钱 · 面值预约！新币即将发行！还有蛇钞二次预约！

3 天前

点点星光 · 明天3.8妇女节谁打开谁幸福

7 年前

腾讯时尚 · 杨幂鼻梁虽高鼻头不完美？还不是因为鼻子有没有这条线…… | 八公举

7 年前

猎奇漫画部 · 内涵漫画丨晚上隔壁...嘎吱声

7 年前

济南日报 · 山大6个学院8个研究机构整体搬迁青岛并启动！今年省内拟招生2065人！

7 年前

金融行业网 · 万达的野心有多大？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!