什么是后训练？大语言模型训练后优化方法综述，87页pdf

深度学习这件小事 · 公众号 · · 2025-03-18 00:00

正文

大模型智能｜分享

来源 | 专知

论文地址： https://arxiv.org/abs/2503.06072

大语言模型（LLMs）的出现彻底改变了自然语言处理领域，使其在从对话系统到科学探索的各个领域中变得不可或缺。然而，其预训练架构在特定场景中往往表现出局限性，包括推理能力受限、伦理不确定性以及领域特定性能欠佳等问题。这些挑战促使了训练后语言模型（Post-training Language Models, PoLMs）的发展，以应对这些不足，例如OpenAI-o1/o3和DeepSeek-R1（统称为大推理模型，Large Reasoning Models, LRMs）。

本文首次对PoLMs进行了全面综述，系统性地追溯了其在五大核心范式中的演变： 微调（Fine-tuning） ，用于提升任务特定准确性； 对齐（Alignment） ，确保伦理一致性与人类偏好的一致性； 推理（Reasoning） ，尽管奖励设计存在挑战，但仍推动多步推理的发展； 效率（Efficiency） ，在复杂性增加的背景下优化资源利用；以及 集成与适应（Integration and Adaptation） ，在解决一致性问题的基础上扩展跨多模态能力。

从2018年ChatGPT的基础对齐策略到2025年DeepSeek-R1的创新推理进展，我们展示了PoLMs如何利用数据集来减少偏见、深化推理能力并增强领域适应性。本文的贡献包括：首次对PoLM演进的系统性综述、对技术和数据集进行分类的结构化分类法，以及强调LRMs在提升推理能力和领域灵活性中的战略议程。作为首篇涵盖如此广泛范围的综述，本文整合了近期PoLM的进展，并为未来研究建立了严谨的学术框架，推动LLMs在科学和社会应用中实现精准性、伦理鲁棒性和多功能性的卓越表现。

关键词 ：训练后优化、大语言模型、微调、对齐、推理、效率。

01

引言

普遍认为，真正的智能赋予我们推理能力，使我们能够检验假设并为未来的可能性做好准备。
——Jean Khalfa，《什么是智能？》（1994）

语言模型（Language Models, LMs）[1, 2] 是旨在建模和生成人类语言的复杂计算框架。这些模型彻底改变了自然语言处理（Natural Language Processing, NLP）领域[3]，使机器能够以接近人类认知的方式理解、生成和交互人类语言。与人类通过互动和语境环境自然习得语言能力不同，机器需要通过大量数据驱动的训练来发展类似的能力[4]。这带来了重要的研究挑战，因为使机器能够理解并生成人类语言，同时进行自然且语境适当的对话，不仅需要巨大的计算资源，还需要精细的模型开发方法[5, 6]。

大语言模型（Large Language Models, LLMs）的出现，如GPT-3 [7]、InstructGPT [8] 和 GPT-4 [9]，标志着语言模型演化的一个变革阶段。这些模型以其广泛的参数化和先进的学习能力为特点，旨在捕捉复杂语言结构、语境关系以及海量数据集中的细微模式。这使得LLMs不仅能够预测后续词语，还能在翻译、问答和摘要等多种任务中生成连贯且语境相关的文本。LLMs的发展引发了广泛的学术兴趣[5, 6, 10]，其研究可分为两个主要阶段： 预训练 和 训练后优化 。

预训练 ：预训练的概念源于计算机视觉（Computer Vision, CV）任务中的迁移学习[10]。其主要目标是利用大规模数据集开发通用模型，以便轻松微调以适应各种下游应用。预训练的一个显著优势是能够利用任何未标注的文本语料库，从而提供丰富的训练数据来源。然而，早期的静态预训练方法，如神经网络语言模型（Neural Network Language Models, NNLM）[11] 和 Word2vec [12]，难以适应不同的文本语义环境，这促使了动态预训练技术的发展，如BERT [2] 和 XLNet [13]。BERT通过利用Transformer架构和在大规模未标注数据集上使用自注意力机制，有效解决了静态方法的局限性。这项研究确立了“预训练与微调”的学习范式，激发了后续众多研究，引入了多种架构，包括GPT-2 [14] 和 BART [15]。

训练后优化 ：训练后优化是指在模型完成预训练后采用的技术和方法，旨在针对特定任务或用户需求对模型进行优化和调整。随着GPT-3 [7]（拥有1750亿参数）的发布，训练后优化领域迎来了显著的关注和创新。各种方法涌现以提升模型性能，包括微调（Fine-tuning）[16, 17]，利用标注数据集或特定任务数据调整模型参数； 对齐策略 （Alignment Strategies）[18, 19, 20]，优化模型以更好地与用户偏好对齐； 知识适应技术 （Knowledge Adaptation Techniques）[21, 22]，使模型能够融入领域特定知识；以及 推理改进 （Reasoning Improvements）[23, 24]，增强模型的逻辑推理和决策能力。这些技术统称为 训练后语言模型 （Post-training Language Models, PoLMs），并推动了如GPT-4 [9]、LLaMA-3 [25]、Gemini-2.0 [26] 和 Claude-3.5 [27] 等模型的发展，标志着LLM能力的显著进步。然而，训练后模型往往难以在不重新训练或大幅调整参数的情况下适应新任务，这使得PoLM的开发成为一个活跃的研究领域。

正如所强调的，预训练语言模型（Pre-trained Language Models, PLMs）主要旨在提供通用知识和能力，而PoLMs则专注于将这些模型适应特定任务和需求。一个显著的例子是最新的LLM——DeepSeek-R1 [28]，它展示了PoLMs在增强推理能力、对齐用户偏好以及提高跨领域适应性方面的演化[29]。此外，开源LLMs（如LLaMA [30]、Gemma [31] 和 Nemotron [32]）和领域特定大规模数据集（如PromptSource [33] 和 Flan [34]）的日益普及，正在推动学术界和工业界开发PoLMs的趋势。这一趋势凸显了在PoLM领域中定制化适应的重要性。

在现有文献中，PLMs已被广泛讨论和综述[10, 35, 36, 37]，而PoLMs则很少被系统性地回顾。为了推动这些技术的发展，有必要彻底审视现有研究，以识别关键挑战、差距和进一步优化的机会。本综述旨在填补这一空白，为训练后优化的研究提供一个结构化框架。如图1所示，它探讨了训练后优化的多个阶段，特别关注从ChatGPT到DeepSeek所采用的技术。这些技术涵盖了广泛的方法论，包括微调、LLM对齐、推理增强和效率改进。图中的蓝色部分特别突出了DeepSeek所采用的一系列训练后优化方法，强调了其在适应用户偏好和领域特定需求方面的创新策略。

1.1 主要贡献

本文是首次对PoLMs进行全面综述，系统性地梳理了该领域的最新进展。以往的综述通常集中于LLM开发的特定方面，如偏好对齐[38]、参数高效微调[39] 和LLM的基础技术[40]，而本综述则采取整体视角，全面回顾了训练后优化中常用的核心技术，并对其进行了系统分类。此外，我们还探讨了与这些方法相关的数据集和实际应用（如图2所示），并指出了未来研究的开放挑战和潜在方向。本综述的主要贡献如下：

全面的历史综述 ：我们首次对PoLMs进行了深入的历史综述，追溯了从ChatGPT的初始人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）到DeepSeek-R1的创新冷启动强化学习方法的演变。这一综述涵盖了关键技术（如微调、对齐、推理、效率和集成与适应），分析了它们的发展及相关挑战，如计算复杂性和伦理问题。通过将这些进展呈现为一个连贯的叙述，并辅以重要参考文献，我们为研究人员提供了近年来训练后优化演变的全面概述，为该领域奠定了坚实基础。
结构化分类与框架 ：我们引入了一个结构化分类法（如图2所示），将训练后优化方法分为五大类别，并将数据集组织为七种类型，同时将应用框架划分为专业、技术和交互领域。这一框架阐明了这些方法之间的相互关系及其实际意义，为研究发展提供了系统性视角。通过提供明确的分类和分析见解，我们提高了新手和专家对训练后优化研究的可访问性和理解度，为应对其复杂性提供了全面指南。
未来方向 ：我们强调了新兴趋势，特别是大推理模型（Large Reasoning Models, LRMs）的兴起，如o1 [41] 和 DeepSeek-R1 [28]，它们利用大规模强化学习推动推理能力的边界。我们指出，持续的进步对于进一步增强推理能力和领域适应性至关重要。我们的分析识别了关键挑战，包括可扩展性限制、伦理对齐风险和多模态集成障碍。我们提出了研究路径，如自适应强化学习框架和公平感知优化。这些方向旨在推动训练后优化的发展，确保LLMs实现更高的精确性和可信度，以满足未来需求。

1.2 组织结构

本综述系统地组织，以全面探讨训练后语言模型（PoLMs），涵盖其历史演变、方法论、数据集、应用和未来发展方向。第2节提供了PoLMs的历史概述。第3节探讨了微调，包括监督微调（Supervised Fine-Tuning, SFT）（第3.1节）和强化微调（Reinforcement Fine-Tuning, RFT）（第3.3节）。第4节讨论了对齐，涵盖人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）（第4.1节）、AI反馈强化学习（Reinforcement Learning from AI Feedback, RLAIF）（第4.2节）和直接偏好优化（Direct Preference Optimization, DPO）（第4.3节）。第5节聚焦推理，包括自我优化方法（第5.1节）和推理强化学习（第5.2节）。第6节调查了效率提升方法，包括模型压缩（第6.1节）、参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）（第6.2节）和知识蒸馏（第6.3节）。第7节研究了集成与适应，涵盖多模态方法、领域适应和模型合并。第8节回顾了训练后优化中使用的数据集。第9节探讨了LLM的应用。第10节评估了开放问题和未来方向。最后，第11节总结了全文并展望了研究前景。

02
PoLMs的历史

大语言模型（LLMs）的进步构成了自然语言处理（NLP）领域的关键篇章，而训练后优化方法则是其从通用预训练架构演变为专用任务适应系统的关键催化剂。本节梳理了训练后语言模型（Post-training Language Models, PoLMs）的历史轨迹，追溯了从BERT [2] 和 GPT [1] 等基础预训练里程碑到当代模型（如o1 [41] 和 DeepSeek-R1 [28]）所体现的复杂训练后范式的发展。如图3所示，这一进展反映了从建立广泛语言能力到增强任务特定适应性、伦理对齐、推理复杂性和多模态集成的转变，标志着LLM能力的变革性演进。

什么是后训练？大语言模型训练后优化方法综述，87页pdf

正文

01 引言

1.1 主要贡献

1.2 组织结构

02 PoLMs的历史

请到「今天看啥」查看全文

01

引言

02
PoLMs的历史