专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

大语言模型高效推理技术

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-06-18 00:01

正文

24年6月来自无问芯穹、清华大学和上海交大的论文“A Survey on Efficient Inference for Large Language Models”。

大语言模型 (LLM) 因其在各种任务中的出色表现而受到广泛关注。然而，LLM 推理对计算和内存的大量要求对在资源受限的情况下的部署带来了挑战。如何提高 LLM 推理效率？本文对现有的高效 LLM 推理进行了全面调查。首先分析 LLM 推理效率低下的主要原因，即模型规模大、二次复杂度的注意操作和自回归解码方法。采用一个全面的分类法，即数据级、模型级和系统级的优化。此外，对关键子领域内代表性方法做比较实验，提供定量见解。最后，提供了一些总结并讨论未来的研究方向。

最流行的 LLM，即仅解码器的 LLM，通常采用自回归方法来生成输出句子。具体而言，自回归方法逐个生成tokens。在每个生成步骤中，LLM 将整个token序列（包括输入tokens和之前生成的tokens）作为输入，并生成下一个token。随着序列长度的增加，生成过程的时间成本迅速增长。为了应对这一挑战，引入了一种关键技术，即KV缓存，以加快生成过程。 KV 缓存技术，顾名思义，涉及在多头自注意 (MHSA) 块中存储和重用先前的(K) 和 (V) 对。由于该技术对生成延迟进行了显着优化，因此已在 LLM 推理引擎和系统中得到广泛采用。基于上述方法和技术，LLM 的推理过程可分为两个阶段：

预填充阶段：LLM 计算并存储初始输入 token 的 KV 缓存，并生成第一个输出 token，如图 (a) 所示。
解码阶段：LLM 使用 KV 缓存逐个生成输出 token，然后使用新生成 token 的 (K) - (V) 对，进行更新，如图 (b) 所示。

LLM推理过程效率低下的三个根本原因，重点关注上述三个关键因素：

• 模型大小：主流LLM通常包含数十亿甚至数万亿个参数。例如，LLaMA-70B模型包含700亿个参数，而GPT-3模型则扩展到1750亿个参数。这种相当大的模型大小显著增加了LLM推理过程中的计算成本、内存访问成本和内存使用率。
• 注意算子：在预填充阶段，自注意算子在输入长度上表现出二次计算复杂度。因此，随着输入长度的增加，注意算子的计算成本、内存访问成本和内存使用量迅速增加。
• 解码方法：自回归解码方法逐个生成 token。在每个解码步骤中，所有模型权重都从片外 HBM 加载到 GPU 芯片，导致内存访问成本很高。此外，KV 缓存的大小会随输入长度的增长而增加，这可能导致内存碎片化和不规则的内存访问模式。

仔细回顾和总结工作的类别，将其分为三个层次，即数据级优化、模型级优化和系统级优化，如图所示：

在数据层面，前期研究主要可以分为输入压缩和输出组织两大类，输入压缩技术直接缩短模型输入，降低推理成本；而输出组织技术通过组织输出内容的结构，实现批量（并行）推理，提高硬件利用率，降低生成延迟。

在这个领域内，相关研究分为四类，如图所示：提示修剪、提示摘要、基于软提示的压缩和检索增强生成（RAG）。

传统的 LLM 生成过程是完全连续的，这会导致大量时间消耗。输出组织技术旨在通过组织输出内容的结构来（部分）并行化生成。

思维骨架 (SoT) [47] 是该方向的先驱。SoT 背后的核心思想是利用 LLM 的涌现能力来规划输出内容的结构。具体来说，SoT 包含两个主要阶段。在第一阶段（即骨架阶段），SoT 指示 LLM 使用预定义的“骨架提示”生成答案的简洁骨架。例如，给出一个问题“中国菜的典型类型有哪些？”，此阶段的输出将是一串菜肴（例如面条、火锅、米饭），没有详细的描述。然后，在第二阶段（即点扩展阶段），SoT 使用“点扩展提示”指示 LLM 同时扩展骨架中的每个点，然后连接这些扩展以形成最终答案。当应用于开源模型时，可以通过批次推理执行点扩展，从而优化硬件利用率并使用相同的计算资源减少总体生成延迟。为了减轻额外提示（即骨架提示和点扩展提示）带来的附加计算开销，SoT 讨论了在点扩展阶段跨多个点共享公共提示前缀 KV 缓存的可能性。此外，SoT 使用路由器模型来决定是否将 SoT 应用于特定问题，旨在将其使用限制在合适的情况下。结果，SoT 在 12 个最近发布的 LLM 上实现了高达 2.39 倍的加速，并通过提高答案的多样性和相关性来提高许多问题的答案质量。

如图是SoT的推理过程两个阶段演示：

LLM 高效推理的模型级优化，主要集中在优化模型结构或数据表示上。模型结构优化涉及直接设计高效的模型结构、修改原始模型和调整推理时间架构。在数据表示优化方面，通常采用模型量化技术。

模型层优化

根据模型级优化技术所需的额外训练开销进行分类：第一类涉及设计更高效的模型结构（称为高效结构设计）。使用这种方法开发的模型通常需要从头开始训练。第二类侧重于压缩预训练模型（称为模型压缩）。此类别中的压缩模型通常只需要最少的微调即可恢复其性能。

高效结构

为了应对这些效率挑战，一些研究集中于开发更高效的模型结构。如图所示，将这些研究分为三类：高效 FFN 设计、高效注意设计和 Transformer 替代方案。

注意操作是 Transformer 架构中的关键组件。然而，其与输入长度相关的二次复杂度会导致大量的计算成本、内存访问成本和内存使用量，尤其是在处理长上下文时。为了解决这个问题，研究人员正在探索更有效的方法来近似原始注意操作的功能。这些研究大致可以分为两个主要分支：多查询注意（MQA）和低复杂度注意（包括基于核的注意和低秩注意）。

除了将有效的技术应用于注意操作之外，最近的研究还创新性地设计了高效而有效的序列建模架构。如表所示比较了一些代表性非 Transformer 模型的效率。这些架构在训练和推理过程中都表现出相对于序列长度的亚二次计算复杂度，从而使 LLM 能够显著增加其上下文长度。

模型压缩

模型压缩包含一系列技术，旨在通过修改预训练模型的数据表示（例如量化）或改变其架构（例如稀疏化、结构优化和动态推理）来提高预训练模型的推理效率，如图所示。

预填充阶段的延迟主要受高精度 CUDA Cores 执行的计算限制。为了应对这一挑战，现有方法量化权重和激活，用低精度 Tensor Cores 加速计算。如图 (b) 所示，激活量化在每个 GEMM 操作之前在线执行，从而允许使用低精度 Tensor Cores（例如 INT8）进行计算。这种量化方法称为权重-激活量化。

相反，在解码阶段，LLM 在每个生成步骤中仅处理一个 token，使用一般矩阵向量乘法 (GEMV) 作为核心操作。解码阶段的延迟主要受大权重张量的加载影响。为了应对这一挑战，现有方法专注于仅量化权重以加速内存访问。这种方法称为仅权重量化，涉及离线量化权重，然后将低精度权重反量化为 FP16 格式进行计算，如图 (a) 所示。

许多研究都致力于开发有效的量化算法来压缩 LLM。下表提供按四个维度分类的PTQ代表性算法。

关于数据格式，大多数算法采用统一格式，以便于硬件直接实现。关于量化参数（例如尺度、零点）的确定，大多数研究依赖于从权重或激活数值得出的统计数据。尽管如此，一些研究工作 [192]、[208] 主张基于重建损失寻找最佳参数。此外，某些研究 [190]、[192]、[203] 建议在量化过程之前或期间更新未量化的权重（称为量化值更新），以提高性能。

量化-觉察训练 (QAT) 将量化的影响纳入模型训练程序中。集成复制量化效果的层，这样这种方法有助于权重适应量化引起的误差，从而提高任务性能。然而，训练 LLM 通常需要大量的训练数据和大量的计算资源，这对 QAT 的实施构成了潜在的瓶颈。因此，当前的研究工作重点是减少训练数据要求或减轻与 QAT 实施相关计算负担的策略。

为了降低计算成本，许多方法采用参数高效调优 (PEFT) 策略来加速 QAT。QLoRA [187] 将 LLM 的权重量化为 4 位，随后对每个 4 位权重矩阵采用 BF16 中的 LoRA [218] 来微调量化模型。QLoRA 允许在仅具有 30 GB 内存的单个 GPU 上对 65B 参数 LLM 进行高效微调。QA-LoRA [188] 建议将逐组量化纳入 QLoRA。QLoRA 中的量化参数数量明显少于 LoRA 参数数量，导致量化和低秩自适应之间的不平衡。增加专用于量化的参数量，逐组操作可以解决这个问题。此外，QA-LoRA 可以将 LoRA 项合并到相应的量化权重矩阵中。LoftQ [189] 发现，在 QLoRA 中用零初始化 LoRA 矩阵对于下游任务而言效率低下。作为替代方案，LoftQ 建议使用原始 FP16 权重和量化权重之差的奇异值分解 (SVD) 来初始化 LoRA 矩阵。LoftQ 迭代应用量化和 SVD 来更精确地近似原始权重。Norm Tweaking [186] 建议在量化后训练 LayerNorm 层，并使用知识蒸馏将量化模型的输出分布与 FP16 模型的输出分布相匹配，实现与 LLM-QAT 类似的效果，同时避免高昂的训练成本。

基于Tensor-LLM和LMDeploy，比较预填充延迟、解码延迟和端到端延迟的加速性能，如表所示，其中OOM是内存不足。

稀疏化是一种压缩技术，可增加数据结构（例如模型参数或激活）中零值元素的比例。此方法旨在通过在计算过程中有效地忽略零元素来降低计算复杂度和内存使用量。在 LLM 的背景下，稀疏化通常应用于权重参数和注意激活。它导致了权重修剪策略和稀疏注意机制的发展。包括权重修剪和稀疏（动态/静态）注意。

结构优化的目的是改进模型架构或结构，以增强模型效率和性能之间的平衡。在这个研究领域，有两种突出的技术脱颖而出：神经架构搜索 (NAS) 和低秩分解 (LRF)。

知识蒸馏 (KD) 是一种成熟的模型压缩技术，其中将大模型（称为教师模型）中的知识转移到较小的模型（称为学生模型）。在 LLM 的背景下，KD 涉及使用原始 LLM 作为教师模型来蒸馏较小的 LM。许多研究都致力于有效地将 LLM 的各种能力转移到较小的模型上。在这个领域，方法可以分为两大类：白盒子 KD 和黑盒子 KD（如图所示）。

在模型压缩领域，量化是大语言模型 (LLM) 部署中采用的主要方法，这主要归因于两个关键因素。首先，量化提供了一种压缩 LLM 的便捷方法。例如，采用训练后量化 (PTQ) 方法可以在几分钟内将具有 70 亿个参数的 LLM 参数量减少为压缩形式。其次，量化可以大幅降低内存消耗和推理速度，同时只会带来很小的性能损失。这种妥协通常被认为对于许多实际应用来说是可以接受的。然而，值得注意的是，量化可能仍然会损害 LLM 的某些涌现能力，如自标定或多步推理。此外，在处理长上下文等特定场景下，量化可能会导致性能显著下降 [212]。因此，需要谨慎选择合适的量化方法来减轻这些特殊情况下性能下降的风险。

系统层优化

LLM 推理的系统级优化主要涉及增强模型前向传递。考虑到 LLM 的计算图，存在多个算子，其中注意算子和线性算子占据了大部分运行时间。

推理引擎

推理引擎的优化致力于加速模型前向过程。LLM 推理中的主要算子和计算图都经过了高度优化。此外，还提出了推测解码技术来加速推理速度，而不会降低性能。如图所示：包括图和算子（注意和线性）优化，以及推测解码。

大语言模型高效推理技术

正文

请到「今天看啥」查看全文