一文带您了解数据和模型漂移(Drift)：漂移检测示例

新语数据故事汇 · 公众号 · · 2024-04-20 20:50

正文

“漂移( Drift )”是机器学习中用来描述模型在生产环境中随着时间推移而性能逐步下降的现象，有很多原因引起，主要原因是随着时间推移输入数据（x）分布的变化和期望目标（y）之间的关系发生了变化。

在现实世界中使用机器学习模型时，漂移是一个很大的挑战，因为数据通常是动态的，不断变化的。接下来将探讨模型发生漂移的原因、漂移的类型和漂移的检测及Python漂移检测示例。

机器学习模型是基于过去的数据进行学习的，但在实际使用时，由于环境的变化，这些模型可能会渐渐失去准确性，就像是“过气”一样。这种现象被称为“漂移”。简单来说，就是模型原本学习了过去的规律，但是现在环境变了，导致它的预测能力变差。

举个例子，考虑一个用于预测公司股价的机器学习模型，它是基于历史数据进行训练的。如果我们使用来自相对稳定市场的数据来训练模型，那么模型可能在一开始表现得很好。但是，如果随着时间的推移，市场变得更加波动，那么模型可能无法再准确地预测股价，因为它所依赖的数据的统计特性已经发生了变化。

数据漂移可以被看作是导致模型漂移的原因之一，而模型漂移则是由数据漂移的影响而产生的结果。

数据漂移指的是用于新的数据相对于历史数据发生的数据分布发生了变化。这种变化可能是由于外部因素引起的，例如市场趋势的变化、用户行为的改变或者数据收集过程的变更。

模型漂移则是由于数据漂移引起的模型性能下降或者偏差的结果。当模型在实际应用中遇到数据漂移时，它可能会变得不再适用于新的数据分布，导致其预测能力下降或者产生误差。因此，数据漂移可以被视为导致模型漂移的根源，而模型漂移则是对数据漂移的反映和响应。

让我们探讨两种不同类型的漂移：

概念漂移/Concept Drift（又称为模型漂移，Model Drift）
概念漂移或者模型漂移发生在模型设计的任务随着时间的推移而发生变化时。例如，想象一下，一个机器学习模型被训练来根据电子邮件的内容检测垃圾邮件。如果人们收到的垃圾邮件类型发生了显著变化，模型可能就无法准确检测垃圾邮件了。概念漂移可以进一步分为四类，包括突发性漂移、渐进性漂移、增量漂移和循环概念（参见《概念漂移下的学习：综述》，Jie Lu等人）。

来源 : https://arxiv.org/pdf/2004.05785.pdf

数据漂移（Data Drift）
数据漂移，也称为协变量漂移，发生在输入数据的分布随时间发生变化时。举个例子，考虑一个机器学习模型，该模型根据客户的年龄和收入预测其购买产品的可能性。如果客户的年龄和收入分布随时间发生显著变化，那么模型可能无法准确预测购买的可能性。

了解概念漂移和数据漂移，并采取措施防止或减轻它们的影响是很重要的。一些解决漂移的策略包括持续监控和评估模型的性能，使用新数据更新模型，以及使用更能够抵御漂移的机器学习模型。

可以通过两种方式来检测漂移：

顺序分析方法：通过连续的时间序列分析来检测数据的统计特性变化。这些方法可以实时监测并在漂移发生时立即检测到。
自定义漂移检测模型：构建专门用于检测漂移的自定义模型，经过历史数据训练，能够识别与预期模式的偏差。
时间分布方法：利用统计技术比较不同时间点收集到的数据的概率分布。常见的方法包括 opulation Stability Index 、KL散度、JS散度、KS检验和Wasserstein度量。这些方法量化了分布之间的差异，能够根据这些分布随时间的变化来检测漂移。