专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
相关文章推荐
纪念币预约信息  ·  开始预约!国色天香彩色银币,龙头币! ·  4 小时前  
纪念币预约信息  ·  每人20枚!新10元生肖纪念币,一定要约! ·  4 小时前  
小易说钱  ·  黑马!这个年份的荷花5角硬币,涨了 ·  4 小时前  
纪念币发行信息  ·  重磅!2025新版100元纸钞发行!开始预约! ·  昨天  
纪念币发行信息  ·  重磅!2025新版100元纸钞发行!开始预约! ·  昨天  
51好读  ›  专栏  ›  吃果冻不吐果冻皮

LLM推理-PD分离架构思考

吃果冻不吐果冻皮  · 公众号  ·  · 2024-12-21 10:52

正文

原文:https://zhuanlan.zhihu.com/p/11802769479

前言

PD 分离 出来也有 一阵子时间了,之前一直觉得主要问题在 KV Cache 传输上,并且业内似乎落地成功的不多于是没有过多思考,碰巧前阵子 mooncake 正在开源他们的分离架构,于是这篇文章对 PD 分离进行一个进一步的思考。

融合推理存在的问题

PD 分离主要是考虑到了 LLM prefill decode 的两个阶段的特性不同,prefill 阶段是 compute bound,decode 阶段是 memory bound,prefill 阶段的能力我们用 TTFT 首 token 时延来衡量,decode 的能力我们用 TPOT 生成每个 token 的时间来衡量。

但是在同一张卡上做 prefill 和 decode 会出现问题,在机器的算力等条件固定的情况下,你增加 bsz,prefill 阶段机器到算力瓶颈了,反而影响 TTFT,你减小 bsz,decode 阶段又是访存瓶颈的,decode 阶段可以比 prefill 阶段承载更大的 bsz。

那么问题来了,到底要不要增大 bsz?

vLLM 中的调度策略是:

优先调度 prefill,然后调度 decode,但是会设置一个阈值防止 decode 一直等待。

也就是优先确保 TTFT,然后设置一个阈值来保证 TPOT 不会太差。很明显,这只是一个折中的方法。

PD 分离的优势

有了 PD 分离之后,我们可以把 prefill 阶段放在 H800 这样的算力高的机器,decode 阶段放在







请到「今天看啥」查看全文