专栏名称: 深度学习基础与进阶

一个百度人的技术提升之路，为您提供一系列计算机视觉，自然语言处理和推荐系统等高质量技术文章，让您的碎片化时间最大价值化

最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）

深度学习基础与进阶 · 公众号 · · 2025-03-03 14:00

正文

Datawhale干货

作者：LM Po，编辑：Datawhale

2025年初，我国推出了一款开创性且高性价比的「大型语言模型」（Large Language Model, LLM） — — DeepSeek-R1，引发了AI领域的巨大变革。

本文回顾LLM的发展历程，以2017年具有革命性意义的Transformer架构为起点。

1. 什么是语言模型 (Language Models)？

「语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

1.1 大型语言模型（LLMs）

「语言模型」（LMs）和「大型语言模型」（LLMs）这两个术语虽然经常被互换使用，但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集，其规模显著更大，通常包含数十亿个参数（例如，GPT-3 拥有 1750 亿个参数）。这种更大的规模使 LLMs 能够在广泛的任务中表现出卓越的性能。

“LLM”这一术语在 2018 至 2019 年间随着基于 Transformer 架构的模型（如 BERT 和 GPT-1）的出现开始受到关注。然而，在 2020 年 GPT-3 发布后，这个词才被广泛使用，展示了这些大规模模型的重大影响力和强大能力。

1.2 自回归语言模型（Autoregressive Language Models）

大多数LLMs以「自回归方式」(Autoregressive)操作，这意味着它们根据前面的「文本」预测下一个「字」（或token／sub-word）的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系，从而善于「文本生成」。

在数学上，LLM 是一个概率模型(Probabilistic Model)，根据之前的输入文本预测下一个字的概率分布。这可以表示为：

在文本生成任时，LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。

这一过程可以采用不同的策略：既可以选择概率最高的下个字（即贪婪搜索），也可以从预测的概率分布中随机采样一个字。后一种方法使得每次生成的文本都可能有所不同，这种特性与人类语言的多样性和随机性颇为相似。

1.3 生成能力

LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始，如下图，模型通过迭代预测下一个词，直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答，LLM通过将先前选择的标记添加到输入中进行迭代生成，尤如「文字接龙」游戏。

LLM的文本生成尤如「文字接龙」游戏。

这种生成能力推动了多种应用的发展，例如创意写作、对话式人工智能以及自动化客户支持系统。

2. Transformer革命 (2017)

Vaswani等人在2017年通过其开创性论文“Attention is All You Need”引入了Transformer架构，标志着NLP的一个分水岭时刻。它解决了早期模型如循环神经网络（RNNs）和长短期记忆网络（LSTMs）的关键限制，这些模型在长程依赖性和顺序处理方面存在困难。

这些问题使得使用RNN或LSTM实现有效的语言模型变得困难，因为它们计算效率低下且容易出现梯度消失等问题。另一方面，Transformers克服了这些障碍，彻底改变了这一领域，并为现代大型语言模型奠定了基础。

自注意力和Transformer架构

2.1 Transformer架构的关键创新

自注意力机制 (Self-Attention)：与按顺序处理标记并难以应对长程依赖性的RNN不同，Transformers使用自注意力来权衡每个标记相对于其他标记的重要性。这使得模型能够动态关注输入的相关部分。数学上：

这里，Q、K、V是查询(query)、键(key)和值(value)矩阵，dₖ是键的维度。自注意力允许并行计算，加快训练速度，同时提高全局上下文理解。

多头注意力：多个注意力头并行操作，每个头专注于输入的不同方面。它们的输出被连接并转换，从而实现更丰富的上下文表示。

前馈网络(FFN)和层归一化(Layer Norm)：每个Transformer层包括应用于每个标记的前馈网络，以及层归一化和残差连接。这些稳定了训练并支持更深的架构。

位置编码：由于Transformers本身不编码标记顺序，因此添加了位置编码（位置和频率的正弦函数）以表示词序，在不牺牲并行化的情况下保留顺序信息。

对语言建模的影响

可扩展性：Transformers实现了完全并行化的计算，使得在大型数据集上训练大规模模型成为可能。
上下文理解：自注意力捕捉局部和全局依赖关系，提高了连贯性和上下文意识。

Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。

3. 预训练Transformer模型时代 (2018–2020)

2017年Transformer架构的引入为NLP的新时代铺平了道路，其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现：BERT和GPT，它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT：双向上下文理解 (2018)

2018年，谷歌推出了BERT（Bidirectional Encoder Representations from Transformers），这是一种使用Transformer编码器(Encoder)的突破性模型，在广泛的NLP任务中取得了最先进的性能。

与之前单向处理文本（从左到右或从右到左）的模型不同，BERT采用了双向训练方法，使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示，BERT在文本分类、命名实体识别（NER）、情感分析等语言理解任务中表现出色。

BERT的关键创新包括：

掩码语言建模（Masker Language Modeling — MLM）：BERT不是预测序列中的下一个词，而是被训练预测句子中随机掩码的标记。这迫使模型在进行预测时考虑整个句子的上下文 — — 包括前后词语。例如，给定句子“The cat sat on the [MASK] mat”，BERT会学习根据周围上下文预测“soft”。
下一句预测（Next Sentence Prediction — NSP）：除了MLM之外，BERT还接受了称为下一句预测的次要任务训练，其中模型学习预测两个句子是否在文档中连续。这帮助BERT在需要理解句子之间关系的任务中表现出色，例如问答和自然语言推理。

BERT的影响：BERT的双向训练使其在GLUE（通用语言理解评估）和SQuAD（斯坦福问答数据集）等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。

3.2 GPT：生成式预训练和自回归文本生成（2018–2020）

虽然BERT优先考虑双向上下文理解，但OpenAI的GPT系列采用了不同的策略，专注于通过自回归预训练实现生成能力。通过利用Transformer的解码器(Decoder)，GPT模型在自回归语言模型和文本生成方面表现出色。

GPT (2018)GPT的第一个版本于2018年发布，是一个大规模的Transformer模型，经过训练以预测序列中的下一个词，类似于传统语言模型。

单向自回归训练：GPT使用因果语言建模目标进行训练，其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务，如文本补全、摘要生成和对话生成。
下游任务的微调：GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式，GPT就可以适应诸如情感分析、机器翻译和问答等任务。

GPT-2 (2019)在原版GPT的成功基础上，OpenAI发布了GPT-2，这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力，意味着它可以在没有任何特定任务微调的情况下执行任务。例如，它可以生成连贯的文章、回答问题，甚至在语言之间翻译文本，尽管没有明确针对这些任务进行训练。

GPT-3 (2020)GPT-3的发布标志着语言模型规模扩展的一个转折点。凭借惊人的1750亿参数(175B parameters)，GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力，在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务，展示了超大模型的潜力。