专栏名称: CDA数据分析师
CDA数据分析师品牌官方微信,开放、创新、分享。
目录
相关文章推荐
大数据分析和人工智能  ·  取代数据分析岗,中国又行业一新兴岗位在崛起! ... ·  2 天前  
CDA数据分析师  ·  “TikTok ... ·  2 天前  
人工智能与大数据技术  ·  DeepSeek 推出移动版 ... ·  5 天前  
51好读  ›  专栏  ›  CDA数据分析师

【干货】7类常见的统计分析错误

CDA数据分析师  · 公众号  · 大数据  · 2025-01-16 10:25

正文

一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年招聘平台发布《中国女性职场现状调查报告》,报告中说,从薪酬来看,女性的平均薪酬为8689元/月,与男性的9942元/月相差1253元,报告发布后,立马引起网友热议。

大部分民众对平均工资、平均年终奖、人均GDP是不买账的,为什么?这就是犯了统计上滥用平均值的错误。

01

滥用平均值

问题:

  • 对于偏态数据大多数样本达不到/或远超过平均值水平;

  • 平均值没有代表意义;只看平均值会忽略波动。

原因:

  • 平均值的信息量有限;不能告诉你分布形态和波动;

  • 平均值容易被极端值拉偏;

  • 不同性质的数据被放一起机械的被平均了(需要分层进行分析)。

应对策略:

  • 明确平均值使用的前提条件;正确的应用平均值;

  • 除了关注平均值外,还要搞清楚数据的分布形态;

  • 结合其它指标一起分析(如中位数,极差,标准差等)




滥用平均值的其他案例



1. 专家说,今年全国平均降雨量和去年同期相同,气候正常。(但专家不告诉你北方大旱南方大涝);
2. 武汉常年平均温度17.2°C,昆明常年平均温度17°C,所以武汉和昆明一样气候宜人;
3. A产品不良率为2%,B产品的不良率为0%;AB两个产品的平均不良率是1%?
4. 去年我们一共有50个客诉,平均结案时间是58天,公司规定的目标是60天内要结案;所以我们的结案很准时。


对于偏态分布,平均值不等于中位数

某产品寿命服从正态分布,平均值为10000小时,有50%的产品寿命会大于10000小时。

某产品寿命服从指数分布,平均值为10000小时,只有36.79%的产品寿命会大于10000小时。


计算平均值不要忽略权重

例:已知某产品每个季度的不良率,求全年度平均不良率。

错误答案1:(1.25%+1.14%+1.15%+1.05)/4
错误答案2:(1.25%*1.14%*1.15%*1.05%)^1/4
正确答案1:
(250+240+300+199)/(20000+21000+26000+19000)
正确答案2:
(1.25%*20000+1.14%*21000+1.15%*2
6000+1.05%*19000)/ (20000+210000+26000+19000)

02

接拿样本统计量代替总体参数

问题:

  • 直接拿样本统计量代替总体参数可能会得出错误结论。

分析:

  • 由于抽样误差存在,样本统计量和总体参数之间通常会存在差异;

  • 样本均值通常不会刚好等于总体均值,样本不良率通常不会刚好等于总体不良率

  • 样本标准差通常不会刚好等于总体标准差……

应对策略:

  • 根据样本来推断总体时通常需要用到置信区间或假设检验。



案例一





案例二



03

样本量不足

样本量较小时样本均值或比率波动较大

QE:你看,7号这天原材料不良率太高了,达到停线标准了!你必须把库存都退给供应商!

SQE:这几天使用的原材料都是同一供应商同一批次的,平均不良率为0.13%,质量没问题!




案例



现象:

  • 在美国,肾癌发生率最低的县往往位于中西部、南部和西部的农村地区;但肾癌发生率最高的县也往往位于中西部、南部和西部的农村地区。

真实原因:

  • 美国中西部、南部、西部的区域的县的人数很少,以县为单位统计肾癌发生率时样本量较小,发生率波动很大。
























如果想测试一下自己的统计分析能力,大家可以扫码CDA认证小程序,里面有很多统计学相关的实战测试题,解析很详细,了解自己是否会陷入统计学误区。






04

p>0.05就接受原假设



案例



20世纪70年代,美国为减少红灯时汽车在路口等待造成的汽油浪费,决定评估是否允许红灯时右转。弗吉尼亚公路与运输局研究后报告声称,允许红灯右转后事故发生率没有显著增加(p>0.05)。若干年后研究发现,允许红灯右转后汽车撞毁的频率比以前提高了20%,行人被撞的频率比以前提高了60%。

05

盲目套用正态分布

场景:

  • 我在进行正态性检验时发现我的数据不服从正态分布,怎么办?

  • 我的数据不服从正态分布,我用BOX-COX转换或用Johonson变换后还是不服从正态分布,怎么办?

  • 拿到数据就用正态分布来进行过程能力分析。

问题:

  • 并非所有数据都服从正态分布。

原因:

  • 有很多原因导致数据不服从正态分布;

  • 数据不正态不等于过程不受控;

  • 数据不正态不等于数据造假。

应对对策

  • 数据不服从正态分布时先要分析清楚不服从正态分布的原因,再采取合适对策;

  • 认识到除正态分布外,还有很多可能的分布。

►►►

数据不正态的常见原因


►►►

非正态分布数据过程能力分析


如果您也想做数据分析类的工作,可以测测自己的数据分析能力,做到心理有数。


06

错把相关当因果

相关不等于因果,但因果必相关;因果关系是相关关系的子集;相关关系可以为寻找因果关系提供指引和线索;采取改善措施要针对真正的原因来改善,而不是针对相关关系采取措施。

07

回归分析过度外推

错误案例

  • 刚出生的婴儿一个月可以长5cm;如果按这个速度预测,他30岁时可以长到多高?

  • 某公司前年销量增长了10%;去年增长了10%,今年也增长了10%;你能用这个增长速度去预测它20年后的销量吗?








CDA新年福利来了!

新年大抽奖,高达500元的课程优惠券,CDA一级、二级纸质教材,扫码免费开启抽奖