专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

LLM模型的通病：模型坍塌

数据派THU · 公众号 · 大数据 · 2025-02-19 17:04

正文

来源：人工智能前言讲习
本文约4500字，建议阅读5分钟
本文研究者针对长期时间序列预测任务开发了一种基于 LSTM 的方法，即补丁分割长短期记忆网络（P-sLSTM）。

基于Transformer的语言模型及其模型坍塌现象

近年来，基于Transformer的语言模型在人工智能领域受到了广泛关注，尤其是像GPT、Gemini、LLama和Claude这样的大型语言模型（LLMs）。这些模型擅长生成类似人类的文本，解决复杂问题，并在多种应用中提供帮助。在最近几个月中，有几篇文章和讨论表达了对AI在使用自身生成数据进行训练时稳定性问题的担忧。结果显示，随着时间的推移，大型语言模型的响应质量会逐渐下降。这种现象被称为模型坍塌（Model Collapse）。

什么是模型坍塌？

模型坍塌是指生成模型由于过度使用低质量数据或对类似模型的输出进行重复微调而导致性能下降的现象。这种退化表现为模型输出的多样性减少、泛化能力降低，以及在超出其训练分布的任务中表现能力减弱。

第一代大型语言模型是通过抓取互联网数据并使用人类反馈强化学习（RLHF）等技术进行微调训练的。随着AI工具生成内容的使用增加，人们担心如果未来的训练数据也来自网络抓取，那么LLMs不可避免地会使用自身输出进行训练。最近一篇文章指出，到2026年，90%的在线内容将由AI生成。

模型坍塌的定义

模型坍塌是机器学习中一个被广泛记录的现象，通常与在有偏或重复数据上过度训练的生成模型相关。Bender等人（2021）强调，仅在合成数据上训练的模型可能会进入一个退化循环，生成缺乏新颖性和原创性的输出。这是因为这些模型越来越依赖自身的输出或类似系统的输出，导致对语言的理解趋于同质化且不够稳健。

Shumailov等人（2024）将模型坍塌定义为随着时间影响多代模型的退化过程。这些模型生成的响应最终会污染下一代模型的训练集，如此循环往复。

作者定义了这一现象的两个阶段。第一阶段称为早期模型坍塌，模型从另一个模型的输出中学习并表现出方差减少。第二阶段称为晚期模型坍塌。此时，AI模型由于在污染或低质量数据上训练而不再可靠，导致模型将自身的错误引入数据。换句话说，最初生成数据中的偏差或错误被传递到下一代模型，后者又添加了自己的错误和偏差并继续传递。这种持续的生成和循环数据的过程使模型开始误解现实，导致泛化能力和性能下降。

需要指出的是，这一过程与灾难性遗忘（Catastrophic Forgetting）不同。灾难性遗忘涉及多个模型，当模型在学习新任务时忘记之前学到的信息时会发生。相比之下，在模型坍塌中，模型优先考虑某些模式或对特定数据分布失去敏感性，从而“忘记”与主导信号相矛盾的信息。

模型坍塌在机器学习模型中的表现

正如Shumailov等人（2024）所解释的，模型坍塌在许多机器学习模型中普遍存在。本节通过高斯混合模型（GMMs）和生成对抗网络（GANs）中的模型坍塌示例，建立对这种行为的基础理解，并强调其在传统机器学习模型中的普遍性。

高斯混合模型（GMMs）

高斯混合模型（GMM）是一种参数化的概率密度函数，表示为高斯成分密度的加权和（Reynolds, D. 2009）。它假设数据集是由具有未知参数的有限数量的高斯分布生成的。GMM试图识别这些潜在的高斯分布，并估计每个数据点属于每个分布的概率。GMM广泛用于聚类、密度估计和分类等任务。

在GMM中，当一个或多个高斯成分的方差缩小到非常小的时候，就会发生模型坍塌。这意味着模型集中在数据空间的一个狭窄、特定区域，忽略了整体数据分布。这种坍塌减少了学习到的混合成分的多样性，导致模型失去表示原始数据分布的能力。这一现象在下面的图表中展示。很明显，当在生成数据上训练时，GMM会随着时间的推移失去关于真实分布的信息。

图1：高斯混合模型（GMM）在350次演化中的模型坍塌过程。最初（左侧），数据通过两个不同的聚类（黄色和紫色）得到良好表示。随着模型演化，聚类失去方差并坍塌到更狭窄的区域。

第一幅图对应初始数据集，两个明确的聚类表明初始GMM正确地捕捉了底层数据分布。
在50次演化后，方差减少变得明显。紫色聚类开始坍塌，而黄色聚类仍然分布较广。
在第150次演化时，紫色聚类压缩到一个更紧密的区域，失去了大部分原始方差。
在第250次演化时，黄色聚类也开始显示出方差减少的迹象，表明GMM未能代表整体数据。
在最终演化中，两个聚类都已坍塌，不再代表原始数据的分布。很明显，当使用生成数据进行训练时，GMM会随着时间的推移失去关于真实分布的信息。

生成对抗网络（GANs ）

生成对抗网络（GANs）也是一种表现出模型坍塌的模型。GAN系统由一个生成器和一个判别器组成，它们在对抗过程中进行训练。生成器G被训练以生成可能被误认为真实数据的样本，而判别器D被训练以最大化正确标记训练样本和生成器G生成样本的概率（Rosales等人，2021）。换句话说，判别器D和生成器G正在进行一场极小化极大游戏。

GANs特别容易发生模型坍塌，也称为“模式坍塌”（Mode Collapse）。模式坍塌发生在生成器产生一组有限的数据模式并成功欺骗判别器时。因此，生成器未能近似目标分布，而是专注于从特定模式生成数据。

例如，在图像生成任务中，发生模式坍塌的GAN会生成视觉上相同的图像（例如相同的面孔）。这种行为是由于生成器和判别器之间的不平衡，生成器专注于用狭窄的输出范围欺骗判别器，而不是学习整个数据分布。

下面的图表展示了在原始数据上训练的GAN如何逐步学习并很好地近似分布。生成器不断改进并捕捉数据的多样性。

在第50次演化（第50个epoch）时，生成的数据（黄色点）分布较散，尚未与原始数据（紫色点）很好地对齐。然而，在训练结束时（第350次演化），生成的数据与原始数据分布相似。

在第50次演化时，生成的数据接近原始数据，但过于集中在一个小区域。这种模式在整个训练过程中持续存在。生成器输出相同的样本，围绕一个单一模式聚集，忽略了原始数据分布。

至此，已经清楚地看到，传统机器学习模型在迭代使用自身输出进行训练时会失去输出的多样性。这些发现对于理解大型语言模型中的模型坍塌现象非常重要，这些模型通常以预训练架构初始化，并针对特定任务进行重新训练。基于这一基础，下一节将解释大型语言模型中的模型坍塌概念。

从巅峰性能到坍塌

本节展示了模型坍塌对大型语言模型的影响。实验范围限于模型坍塌的早期阶段，专注于证明大型语言模型在迭代使用自身生成数据进行训练时，响应质量和多样性会下降。以下是该过程的主要步骤。

过程概述

步骤1 — 微调初始模型

实验从对大型语言模型（如GPT-2模型）进行微调开始，使用包含4,000个文本样本的选定数据集。此步骤的目标是创建一个基线模型，该模型能够对预定义的提示生成输出。

步骤2 — 生成文本

模型微调完成后，要求其生成1,000个文本样本。这些输出将作为下一次迭代的训练数据。

步骤3 — 迭代重新训练过程

模型经历一系列重新训练周期。在每一代中，模型根据前一代的微调参数生成1,000个新样本，然后在这些新生成的数据集上重新训练。

步骤4 — 评估

在每一代之后，使用四个预定义的提示对模型进行评估。响应从以下两个方面进行评估：

响应创造力：句子结构的复杂性和变化。
响应多样性：生成的独特输出数量。

实验设置

实验使用Hugging Face Transformers库中的GPT-2预训练模型。具体来说，使用的是GPT2-medium模型，这是一个基于Transformer的模型，包含3.45亿参数，包括注意力机制和前馈层中的权重。GPT-2模型是在包含近800万份文档的WebText数据集上训练的，相当于40GB的文本数据。

计算环境为Google Colab，使用T4 GPU硬件加速器优化训练过程。这种配置提供了足够的计算能力，以处理模型在多代中的微调、训练和评估。

代码可在此处找到。

实验结果

本节展示了实验结果。首先解释输出文本的创造力和变化结果，然后是多样性的结果。

响应创造力

使用词汇多样性分数和可读性分数来衡量每个模型生成的句子结构的复杂性和变化。词汇多样性指标计算唯一词与总词的比率。这一指标可以评估模型输出中使用的词汇种类。高词汇多样性意味着丰富的词汇，而低分数则表明重复。

计算三种可读性分数：Flesch阅读易读性、Flesch-Kincaid年级和Gunning雾指数。以下是每种分数的简要描述：

Flesch阅读易读性分数衡量文本的易读性。高分表示文本更简单。
Flesch-Kincaid年级表示理解文本所需的教育水平。低值表示较低的教育知识水平。
Gunning雾指数根据句子长度和词汇复杂性反映文本难度。

表1：各代模型的可读性分数显示了句子结构逐渐简化的趋势。

从第0代到第6代，Flesch阅读易读性分数从38.69增加到203.36，表明模型生成的句子由于文本多样性丧失而变得越来越简单。从第0代的8.02年级下降到第6代的-15.13年级，表明模型生成的文本复杂性降低，可能类似于儿童语言。Gunning雾指数从11.75急剧下降到第6代的0.24，表明生成的文本极其简单，几乎没有句子结构。

下面的图表显示了词汇多样性的趋势。第0代的值最大，表明这一阶段生成的文本在词汇和短语的复杂性和变化性方面更具多样性。第6代的低分表明模型生成的词汇范围有限且出现重复。

图4：各代模型的词汇多样性趋势。从第0代（0.23）到第6代（0.03），词汇多样性呈下降趋势，表明随着代数的增加，词汇种类减少。

这些结果支持了假设，即在生成输出上进行迭代训练会导致语言多样性减少。

响应多样性

本节展示了每代模型生成的独特输出数量。图表显示，从第0代的892个独特响应下降到第6代的仅180个。第4代与第3代相比，独特响应数量下降了25%，降幅最为显著。随着独特输出数量的减少，模型更有可能重复特定模式。

图5：每代GPT-2模型生成的独特输出数量，随着模型在多代中重新训练，多样性显著下降。

结果清楚地表明，模型在连续几代中经历了“遗忘”过程。这种现象可能有多种原因。例如，独特响应数量在各代之间急剧下降。如图5所示，从第一代到最后一代，独特输出减少了80%。这种行为表明模型处于模型坍塌的早期阶段，失去了生成多样化响应的能力。此外，模型失去了生成深思熟虑内容的能力，其响应变得更加简单和重复。

图6：展示各代文本输出的“遗忘”过程。

图6显示了从提示“什么是数据科学家？”生成的文本输出示例。最初，在第0代，模型对数据科学家的角色提供了广泛的响应。然而，在后续几代中，响应失去了语言多样性，变得更短且更重复（例如“与数据相关的工作”）。到第6代，模型无法响应。该示例表明输出逐渐坍塌为更简单的格式。

图7：对提示“谁是巴拉克·奥巴马？”的响应示例，展示了模型随时间的退化和多样性的减少。

图7展示了模型退化和输出多样性减少的另一个例子。与之前的例子类似，模型坍塌并失去了关于原始主题的信息，产生了单个词汇的输出。