概化处理
是数据预处理的一项重要技术,尤其在处理复杂数据时能够有效提高模型的稳定性与准确性。它通过简化数据的层级结构或合并数据中的不必要细节,帮助我们构建更高效的模型。接下来,我将详细解释
三种常见的概化处理方法
:简单合并、基于事实合并和基于算法的合并。
简单合并是最基础、最直观的一种概化处理方法。它的核心思想是将原始数据中的一些类别或区间直接合并成较大类别。合并的原则可以非常简单,通常是根据某些
相似性
或
可操作性
来决定哪些类别或区间可以合并。要求合并后要求大类样本占比
≥5%
,且
样本量不少于50个
。
使用场景:
• 当数据集中某些类别的
占比极小
,可能会影响模型的
稳定性
时,直接
进行合并。
• 例如,在用户分类、产品类别分析中,某些低频类别可以合并为“其他”类别,以减少类别数量,提高分析效率。
典型例子如:
地理位置
可能包含很多小区域(比如城市或县区),通过简单合并,可以将小区域归类为更大的区域(例如,省份级别),来减少分析时的复杂性。
这种方法简单易操作,常用于数据初步预处理阶段,特别是在面对分类变量数量较多时。适用于那些类别间差异不大且合并后不会影响分析结果的情况。
这种合并的
主要思想
是先计算每个类别的
P值
(p-value,指统计显著性指标)以及Logit值(对数几率),然后按P值大小进行排序,合并相近类别。
目的是尽量将
样本量较小的类别合并到样本量较大的类别
,保证合并后的分组仍具有统计意义,并且样本数仍然满足
大于5%且不少于50个
的要求。
如图:
•
B11、B4、B19
被合并,它们的 Logit 值计算后为 0.85,表示这一组的特征较为一致。
•
B18、B2、B13、B15
组合在一起,这一组的 Logit 值为 -0.67。
•
B6 及其他类别
在另一个组合中,Logit 值为 -0.99。
在这里Logit 值是通过
log(p / (1 - p))
计算得出的,它用于衡量一个类别的事件发生概率。在极端情况下,某些类别可能会导致 Logit 值无法计算(如 p 值为 0 或 1),因此 P 值的适用性更广,可用于决定如何合并类别。
这种方法适用于
信用评分建模、医疗风险评估
等对数据精度要求较高的领域。
最后一种方法是基于算法的合并,该方法常与分箱方法结合使用,分箱方法是用于常用的
消除异常值、离群值、极端值的做法
。分箱算法包括对
连续型变量
进行
等距等频分箱,
也包括对
分类变量
进行
合并
。
基于算法的合并,常采用机器学习或统计算法自动决定如何合并类别,常见的方法包括:
基于
卡方检验
,计算不同类别的显著性差异,并合并P值接近的类别。
比如我们有一个关于用户购买某商品的数据集,记录了不同年龄段用户的购买情况(1表示购买,0表示未购买)。
首先,
卡方分箱法会对不同类别之间的频次进行
卡方检验。
对于上述数据,假设年龄段为“18-25”,“26-35”,“36-45”和“46-60”四个类别,卡方检验将计算这些类别与“购买情况”之间的关系。
根据卡方统计量,计算每个类别与目标变量(购买情况)之间的P值。P值较低表示这些类别与目标变量之间的关系显著。
通过排序P值,卡方分箱法会合并P值接近且不显著的类别。在我们的例子中,可能会发现“36-45”与“46-60”这两个年龄段的P值较高,差异不显著,因而可以合并为一个新的年龄段(比如“36-60”)。
合并后的数据:
卡方分箱法有效地合并了差异不显著的类别,减少了数据维度,同时保持了重要的统计信息。
决策树分箱法(Decision Tree Binning)
决策树分箱法通过决策树模型自动选择最佳分箱方式。它通过构建一个决策树来判断如何将连续变量划分为多个区间,从而使得每个区间内的数据样本具有较高的纯度(即在目标变量上具有较大的一致性)。
在决策树分箱法中,选择分箱点的核心目标是
最大化目标变量的纯度
,即让每个分箱(区间)中的数据点在目标变量(如贷款批准=1或0)上尽可能一致。通常使用
信息增益
(Information Gain) 或
基尼指数
(Gini Index) 来衡量纯度,并决定最佳分箱点。
如下演示基于信息增益的最优分割:
信息增益基于
熵(Entropy)
的减少量来衡量纯度。熵越小,纯度越高。
比如我们有以下贷款数据:
-
计算未分箱前的熵:
• 总共有 7 个客户,其中 3 个贷款批准(1),4 个贷款未批准(0)。
• 计算整体熵:
2. 计算以
收入=50K
为分箱点后的加权熵:
• 左侧(收入 ≤ 50K):客户(1,2,5)→ 贷款批准(1,1,0)
• 右侧(收入 > 50K):客户(3,4,6,7)→ 贷款批准(0,1,0,0)
如果 50K 的信息增益是最大值,则 50K 作为最佳分箱点。
决策树分箱方法适用于连续变量,通过决策树模型自动选择最佳的分箱点,确保每个区间内的数据具有较高的一致性。
这种通过算法自动优化类别合并,避免主观决定可能带来的误差。适用于大规模数据处理,特别是当类别众多且类别间关系复杂时。
如果你渴望在这个充满机遇和挑战的领域中有所作为,想做一个数据分析师,那么不妨加入
CDA数据分析脱产就业班,
与志同道合的伙伴一起,开启一段全新的职业之旅。
CDA数据分析师就业班
2025.02.15
脱产班和在职周
末班
开班
,欢迎大家扫码咨询。
扫码回复"
就业班
",咨询课程
优惠