大语言模型的快速分布式推理服务

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-07-06 00:41

正文

23年5月来自北京大学的论文“Fast Distributed Inference Serving for Large Language Models”。

ChatGPT 为代表的大语言模型 (LLM) 为新一代交互式 AI 应用程序提供支持。这些应用程序的交互性要求模型推理的作业完成时间 (JCT) 较低。现有的 LLM 服务系统为推理作业进行“运行-到-完成”处理，这会受到队头阻塞和长 JCT 的影响。

FastServe是一种用于 LLM 的分布式推理服务系统。FastServe 利用 LLM 推理的自回归模式来实现在每个输出token粒度的优先。FastServe 使用抢占调度，通过跳-加入（skip-join）多级反馈队列（Multi-Level Feedback Queue，MLFQ）调度器来最小化 JCT。基于 LLM 推理的半信息不可知设置，调度器利用输入长度信息，为每个要加入的到达作业分配适当的初始队列。比加入队列优先级更高的队列被跳过，减少降级。设计一种高效的 GPU 内存管理机制，可以主动卸载和上传 GPU 内存和主机内存之间的中间状态，进行 LLM 推理。基于 NVIDIA FasterTransformer 构建 FastServe 的系统原型。实验结果表明，与 Orca 相比，FastServe 将平均 JCT 和尾部 JCT 分别提高 5.1 倍和 6.4 倍。

现有的推理服务解决方案（例如 Clockwork [29] 和 Shepherd [59]）主要针对确定性模型推理作业（例如 ResNet [31]）。它们依靠准确的执行时间分析来做出调度决策，而对于执行时间可变的 LLM 推理，这不起作用。Orca [58] 是最先进的 LLM 推理解决方案。它提出了迭代级调度，在每次迭代结束时，它可以向当前处理批次中添加新作业或从中移除已完成的作业。但是，它使用先到先服务 (FCFS) 来处理推理作业。作业一旦被调度，就会一直运行直到完成。由于 GPU 内存容量有限且推理作业需要的 JCT 较低，因此当前处理批次无法在任意数量的传入作业中进行扩展。众所周知，“运行-到-完成”处理具有队头阻塞 [35]。对于 LLM 推理作业来说，这个问题尤其严重，因为 LLM 的大小会导致绝对执行时间过长。大型 LLM 推理作业（即输出长度较长）将运行很长时间，从而阻塞后续的短作业。

大多数现有的推理服务系统，例如 Tensorflow Serving [43] 和 Triton Inference Server [19]，与 DNN 模型无关。它们作为底层执行引擎之上的抽象，对到达的作业进行排队，将作业分派到可用的计算资源，并将结果返回给客户端。由于 GPU 等加速器具有大量并行计算单元，因此它们通常会批处理作业以提高硬件利用率和系统吞吐量。启用批处理后，来自多个作业的输入张量将连接在一起并作为一个整体输入到模型中。与单个作业执行相比，批处理的缺点是内存开销更高。由于激活内存与模型大小成比例增长，LLM 的大尺寸限制 LLM 推理的最大批次大小。

随着 GPT 模型的普及，推理服务系统已经发展到包括针对 GPT 独特架构和迭代生成模式的特定优化。GPT 架构的主要部分是 Transformer 层的堆叠，如图所示。在 Transformer 层中，Masked Self-Attention 模块是将其与 CNN 等其他架构区分开来的核心组件。对于输入中的每个 token，它都会派生出三个值，即Q、K和V。它将Q与之前 token 的所有K点积相乘，从当前 token 的角度衡量之前 token 的兴趣。由于 GPT 是一种经过训练以预测下一个 token 的语言模型，因此每个 token 不应该看到其位置之后的信息。这是通过 Transformer 中的因果掩码实现的。然后，它将 Softmax 应用于点积获得权重，并根据权重生成V的加权和，作为输出。在高层次上，注意算子使输入中的每个 token 都知道其他的 token，而不管位置距离如何。

如图说明 FastServe 的架构。用户将作业提交到作业池。跳跃-加入（skip-join） MLFQ 调度器利用一个分析器（profiler）根据新到达作业的启动阶段执行时间确定其初始优先级。它采用迭代级优先，并优先执行最少获得的作业，以解决队头阻塞问题。一旦选择执行某个作业，调度器就会将其发送到分布式执行引擎，该引擎为 GPU 集群中的 LLM 提供服务，并与分布式KV缓存交互，以在运行时检索和更新相应作业的KV张量。为了解决 GPU 内存容量有限的问题，KV缓存管理器主动将低优先级作业的KV张量卸载到主机内存，并根据工作负载的突发性动态调整其卸载策略。为了扩展系统以服务于 GPT-3 175B 等大型模型，FastServe 将模型推理分布在多个 GPU 上。调度器和KV缓存中添加了扩展以支持分布式执行。

大语言模型的快速分布式推理服务

正文

请到「今天看啥」查看全文