专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

【博士论文】朝向大规模语言模型的原则性训练与服务

数据派THU · 公众号 · 大数据 · 2025-02-18 17:23

正文

来源：专知
本文约1000字，建议阅读5分钟
本论文通过两个关键贡献解决了这些挑战：推动基于人类反馈的强化学习（RLHF）在后期训练中的应用，并通过新颖的缓存策略优化LLM的服务。

大规模语言模型（LLM），由拥有数十亿到数万亿参数的神经网络驱动，由于其计算需求，面临着训练效率和部署可扩展性方面的关键挑战。本论文通过两个关键贡献解决了这些挑战：推动基于人类反馈的强化学习（RLHF）在后期训练中的应用，并通过新颖的缓存策略优化LLM的服务。

首先，我们提供了RLHF的全面理论分析，提出了具有接近最优样本复杂度的奖励学习算法。我们通过实际案例研究验证了这些算法的有效性，包括开发Starling-7B模型，这是一个与RLHF对齐的模型，展示了在人工偏好基准测试中的强大表现。

其次，我们设计了专门为LLM推理量身定制的接近最优的缓存算法，减少了计算开销，同时保持了输出质量。我们的框架在LLM服务环境中显著减少了延迟。

我们的工作将理论分析与实际实现相结合，为可扩展对齐技术和高效部署策略提供了新的见解。结果突显了RLHF在LLM后期训练中的可行性，以及系统级优化在可持续LLM应用中的重要性。

第1章

引言大规模语言模型（LLM）作为一种变革性技术，已成为人工智能（AI）领域的重要突破，在从翻译和总结到代码生成、复杂推理及智能体任务等众多任务中展现出前所未有的能力【266, 205, 28, 160, 118, 6, 12, 256, 206, 53, 262, 29, 228, 218, 179, 120】。近年来，LLM的进展正在重塑自然语言处理（NLP）以及更广泛的AI应用。本章将探讨LLM的全面发展，从其理论基础到实际部署中的挑战。

1.1 大规模语言模型概述

语言建模的理论基础可以追溯到Claude Shannon在信息理论方面的开创性工作【236, 235】，该工作引入了熵等基本概念，并为序列中的下一个符号预测建立了方法论。早期的自然语言处理系统采用了基本的预处理技术，如标点符号移除和词干提取【171】，并结合统计方法，包括N-gram模型【23】和用于词性标注的隐马尔可夫模型（HMMs）【204, 125】。这些方法在当时有效，但在捕捉语义关系和长程依赖方面存在根本的局限性。

随着分布式词向量表示（如Word2Vec【180】和GloVe【198】）的引入，出现了一个范式转变，这些表示将语义关系编码到稠密的向量空间中。随后，神经网络架构兴起，首先是循环神经网络（RNNs）【217, 132】及其增强版长短时记忆网络（LSTM）【108】和门控循环单元（GRUs）【51】，它们通过复杂的门控机制解决了梯度消失问题。

注意力机制的革命始于Bahdanau等人的序列到序列学习开创性工作【14】，最终发展为Transformer架构【266】，该架构通过自注意力机制取代了递归结构。这一创新使得并行计算成为可能，并通过位置编码策略（如绝对位置嵌入【266】和旋转位置嵌入（RoPE）【253】）在长程依赖处理中表现出色。Transformer的可扩展性推动了大规模语言模型的时代，首先是GPT【205】和BERT【118】的推出，它们通过扩展架构展示了前所未有的少样本学习能力【135】。

现代LLM的开发得益于两个关键因素：首先，在预训练阶段，数据量和模型规模的扩展创造了强大的基础模型；其次，新型的后期训练范式，如基于人类反馈的强化学习（RLHF），显著提高了模型作为聊天机器人的有用性和安全性。

近年来，专有和开源LLM都经历了爆炸性增长。GPT系列经历了从GPT-2【206】到GPT-3【28】再到GPT-4【6】的演进，逐步加入了多模态能力和改进的推理能力。竞争性的专有模型，如Anthropic的Claude系列【12】和Google的Gemini系列【255】在能力和多模态性上都取得了突破。开源社区也推出了如MPT【258】、Falcon【11】、LLaMA【262, 68】、Mistral【127】、Qwen【16, 291】、OLMo【92】、Gemma【179, 257】、Phi【96, 4, 5】和Deepseek【166, 167】等模型系列，而专注于编码的模型如StarCoder【160】、CodeLlama【216】、Qwen-Coder【114】以及专注于智能体的模型如Gorilla【196】、NexusRaven【249】、xLAM【304】则展示了领域专门化的特点。此外，进一步后期训练现有基础模型以提高能力和安全性的努力也在持续进行，包括但不限于Alpaca【254, 69】、Vicuna【49】、OpenChat【268】、Starling【319】、WizardLM【286】、Zephyr【264】、Tulu【151】和Athene【81】等模型。

随着语言模型的规模增长逐渐达到边际效益递减，研究社区的焦点转向了优化测试时计算【245, 95】。在这一方向上的显著进展包括OpenAI的o1【120】和Deepseek的R1【97】，它们在推理密集型任务（如代码生成和数学问题解决）中展示了显著的性能提升。在方法论的进展方面，近期的后期训练范式越来越倾向于强化学习（RL）而非监督微调（SFT），这一趋势归因于证据表明在线强化学习方法可能比像SFT这样的离线训练方法具有更好的泛化能力。与此同时，研究人员从基于人类反馈的奖励模型过渡到了直接应用确定性和可验证的奖励信号，尤其是在数学和编码等复杂领域中。这一转变源于LLM和传统奖励模型在可靠评估这些领域时所面临的局限性。

1.2 模型架构与组件

当前大多数LLM都建立在Transformer架构的基础上，并进行了若干精密的增强。使用字节对编码（BPE）【231】和WordPiece【281】的先进分词方法提高了词汇处理和稀有词的处理能力。该架构结合了各种位置嵌入方法，从绝对位置编码【266】到如RoPE【253】等更为创新的技术。通过诸如分组查询注意力【10】和稀疏注意力模式【300】等创新，注意力机制得到了优化。专家混合（MoE）架构【119, 70, 76, 155】的引入进一步提高了参数效率和模型的可扩展性。最近，还有一些改进原始注意力机制的尝试，将其从与上下文长度的二次方关系优化为线性关系，包括基于状态空间模型的方法【133, 99, 94, 93】和其他RNN或注意力的变种【202, 136, 52】。

1.3 训练LLMs

LLMs的训练过程通常可以分为两个主要阶段：预训练和后训练。

预训练

预训练是基础阶段，在这个阶段，模型通过自监督学习暴露于大量多样的文本语料（如网页、书籍和科学文章）。在此阶段，模型学习预测被遮蔽的词元或序列中的下一个词，从而使其能够内化语言模式、世界知识和基本的推理能力。预训练过程为模型提供了广泛的、通用的语言理解和上下文知识，但缺乏任务特定或安全对齐的行为。

大型语言模型（LLM）的训练流程从分词开始，这是一种预处理步骤，将原始文本转换为离散的子词单元（如词素、常见短语），并将其映射到整数索引。像字节对编码（BPE）[231]或WordPiece [281]这样的子词分词算法，在词汇效率与处理稀有或超出词汇表的术语之间达到了平衡。

分词之后，预训练阶段在互联网规模的数据集上利用自监督学习进行。模型学习根据前面的词元预测序列中的下一个词，这是自回归架构（如GPT [205]）和BERT中的掩蔽语言建模（Masked Language Modeling）[65]所普及的范式。对于给定的一组文本语料，令其包含词元u1, u2, · · · , uN，基于自回归架构的预训练阶段直接通过最小化交叉熵损失进行：

min⁡θ∈ΘLpre(θ)=min⁡θ∈Θ∑i=1N−log⁡Pθ(ui∣u1,u2,⋯ ,ui−1),\min_{\theta \in \Theta} L_{\text{pre}}(\theta) = \min_{\theta \in \Theta} \sum_{i=1}^{N} - \log P_{\theta}(u_i | u_1, u_2, \cdots, u_{i-1}),θ∈ΘminLpre(θ)=θ∈Θmini=1∑N−logPθ(ui∣u1,u2,⋯,ui−1),

其中 PθP_{\theta}Pθ 是一个参数化的语言模型。由于计算限制，序列通常会被截断至固定的上下文窗口（常见范围为4,000到2,000,000个词元），舍弃较远的依赖关系，同时保持局部连贯性。

实证研究表明，预训练损失的减少与下游任务性能的定性提升相关 [267, 57]。值得注意的是，随着模型规模（参数数量）和训练数据规模的增加，LLMs表现出新的能力——这些能力在小模型中是不存在的，例如复杂推理、上下文学习和指令跟随 [273]。这一阶段为模型提供了关于语法、语义和领域无关的世界知识的基础理解，后续的后训练阶段将其精炼为任务特定、安全且对齐的行为。

后训练

后训练包含了旨在提升模型能力并将其与人类偏好对齐的后续阶段。与预训练不同，后训练利用较小且高质量的数据集来实现以下目标：

有用性：优化模型对用户意图的理解和执行用户指令的能力，如聊天机器人应用。

安全性和伦理：通过人类干预，减少有害、偏见或不真实的输出。

推理能力：通过训练模型在回答问题之前输出更长的思维过程，提升其推理能力。

任务特定适应性：提升模型在特定领域（例如编码或函数调用）上的表现。

后训练阶段通常包括技术如监督微调（SFT）在策划的提示-响应数据集上的应用、通过人类反馈强化学习（RLHF）和通过可验证信号的强化学习（RL）。LLM训练中的一项重要进展是引入了强化学习（RL）。ChatGPT的创建在很大程度上得益于RLHF的应用 [55, 191]。ChatGPT训练中最初使用的RL算法是近端策略优化（PPO）[229]。ChatGPT发布后，SFT显著推动了开放LLM的发展，尤其是在利用从GPT-4或Deepseek R1中提炼的高质量数据方面。这通过如Alpaca [254]、Vicuna [49]、Openchat-3.5 [268]和Sky T-1 [260]等模型得到了有效证明。

该领域还见证了与PPO相对的强化学习算法的开发，例如直接偏好优化（DPO）[207]、群体相对策略优化（GRPO）[237]、卡尼曼-特沃斯基优化（KTO）[72]、SimPO [177]、成对近端策略优化（P3O）[280]、优势诱导策略对齐（APA）[318]和强化离散（RLOO）[142, 7]等。根据早期实验的观察，在线强化学习（如PPO）往往优于离线强化学习方法（如DPO），并且生成的模型质量较高 [287, 116]。

训练这些模型的计算需求推动了分布式训练策略的创新。像DeepSpeed ZeRO [208]和FSDP [308]这样的高级优化技术和代码库使得跨多个设备的高效训练成为可能。高效的IO感知精确注意力算法（如FlashAttention [62, 61, 232]）和如LoRA [111]和QLoRA [64]这样的参数高效微调方法使得模型适应更加易于实现。

1.4 评估LLMs

LLMs的快速发展需要同样先进的评估方法。有效的评估框架不仅能够区分当前模型的能力，还能通过可测量的基准识别改进的方向。虽然传统的评估指标如困惑度（Perplexity）、BLEU [194]和ROUGE [164]提供了定量的见解，但它们日益无法捕捉现代LLMs展示的全部能力。这一差距促使了专为复杂语言理解和生成任务量身定制的综合评估框架的开发。

LLM的基准评测主要是静态的、基于地面实况的评估，涉及多个领域，例如一般知识（MMLU [104]，MMLU-Pro [271]）、数学（MATH [105]，GSM-8K [58]）、编码（HumanEval [40]，Bigcode Bench [321]）和推理（DROP [67]，BigBench [250]）。领域特定的评估，如AGIEval [313]用于人类考试，GPQA [213]用于专家级问题，HellaSwag [303]用于常识推理，进一步扩展了这一评估领域。综合性评估计划如HELM [163]聚合了模型性能的多个维度。任务导向的基准测试也在出现，例如IFEval [315]用于指令跟随，SWE-Bench [129]用于软件工程。

也有专门针对LLMs作为代理（Agent）的基准，如AgentBench [169]、NexusBench [259]、Berkeley Function Calling Leaderboard [290]和Tool Sandbox [172]及τ-Bench [293]等。

静态基准评估容易受到测试集污染的影响，这在一些研究中有所证明 [33, 226, 292]。DynaBench [137]通过提出不断演变的基准来正式化这一需求。此外，还有类似的动态基准，如LiveCodeBench [122]用于编码，LiveBench [275]用于一般任务，R2E [123]用于推理。社区驱动的评估框架，如Chatbot Arena [48]，通过让用户实时比较LLM对相同提示的回应，缓解了这些局限性。该平台采用Bradley-Terry-Luce模型，从众包的偏好判断中统计推导出模型排名。

为了应对人工评估的可扩展性挑战，最近的工作探索了LLM作为评估者的框架。像AlpacaFarm [69]、MT-bench [309]和AlpacaEval [162]这样的框架显示出与人类偏好的良好对齐，尽管这些方法在要求精确验证的领域（尤其是数学推理和复杂编码任务）上存在局限性，在这些领域中人类专业知识仍然对可靠评估至关重要。

1.5 部署LLMs

LLMs的生产部署带来了多方面的工程挑战 [63]，需要在三个关键维度上进行仔细优化：计算效率（推理延迟、内存占用）、运营成本和模型质量的保持 [278]。现代解决方案采用了分层优化策略：

模型压缩 ：通过知识蒸馏将模型架构适应到更小的模型中 [227]，通过结构化剪枝 [79, 42]、动态稀疏化技术 [22, 158] 和精度量化 [117, 305] 来减少基线资源需求。这些技术减少了推理过程中的活跃参数数量。
推理优化 ：服务基础设施现在集成了新的算法，如预测解码 [38, 157]，以加速令牌生成。硬件感知的实现利用闪存注意力机制（flash attention）[62, 61, 232]和流式执行 [283]，以最大化吞吐量。专用推理系统，如vLLM [149] 和 SGLang [312]，通过KV缓存优化和请求批处理优化内存管理，而TensorRT等框架则实现了硬件特定的内核融合。
系统级增强 ：高级资源调度器 [184, 239] 和自适应缓存策略 [320] 解决了多租户部署中的可扩展性挑战。通过缓存以前处理过的输入的输出，推理时间可以显著缩短，从而提高延迟和吞吐量。本论文将探索最优的缓存算法，用于调度推理请求。

【博士论文】朝向大规模语言模型的原则性训练与服务

正文

1.4 评估LLMs

1.5 部署LLMs

1.6 本论文的组织结构

请到「今天看啥」查看全文