为什么要选用“中位数”,而不是选用“均价”?
是因为“均价容易被污染”
这里二小姐做个小科普
我们俗称的房屋均价
数学上称为“平均数”
平均数优点是通俗易懂,好记好算,是使误差平方和达到最小的统计量。但平均数的缺点是容易受极端数据的影响。
但中位数不需要计算
将一组数据按大小依次排列,把处在最中间位置的一个数取出来就是中位数。
每个城市都有顶尖豪宅和十八层地狱鬼房——
比如上海有34.49万/㎡的华侨城·苏河湾别墅;有40万/㎡的巨鹿路洋房,也有3800元/㎡的崇明长征农场、红星农场、新海农场、跃进农场的农场房(你不要喷血,上海真的还有3800的房子,二总监不诳人)
极大值和极小值会严重污染真实房价
最富有的那1%,能极大地改变平均数所处的位置,将平均数无端端拉高,但中位数的大小仅与数据的排列位置有关,不受偏大和偏小数的影响,不受最富有的1%影响,是刻画房屋均价、居民收入这些数据更合理的统计
量。
美国人口普查局长期使用中位数来衡量美国家庭年收入。他们不用均价的。
同时,中位数很难受到某个脏数据的影响。因为它只是排序,不参与加权计算,某一次数据污
染不会影响它。马云马化腾两个人的财富,投入到“均值
”
里,会极大拉高居民人均收入;但他们投入到“中位数”里,是脏数据,被无视了。
那么问题来了
既然中位数更合理更科学
为啥以前我们都用平均数?
因为以前中国穷啊!
没能力算出中位数!
从两种数值的计算方式来看,
很显然,只要有数据,你就能算出平均数,
无所谓你有没有拿到“全部数据”。
但你拿不到“全部数据”,你就没办法排序,你就没办法得到中位数。
以前国内大数据系统落后,不发达
只能拿着部分数据计算平均数
那就凑活算吧
现在我们进步了,统计局越来越能耐了
一旦能拿到“全部数据”的时候
显然使用“中位数”能更科学,更合理地反应这座城市的均价。
怎么?还是听不懂吗?
那二总监举个例子
你想知道全国的平均工资,
只要知道所有省的总工资和总工作人口就行了,少几个省份没上报数据影响也不大
但你想知道全国的工资中位数
23个省,5个自治区,4个直辖市,2个特别行政区——任何一个猪队友掉链子了没来得及上报数据,你这个中位数就排不出来!
你如果是统计局
会找更累更苦的活儿干吗?
当然是平均数直接上阵算了!
从平均数到中位数
是中国大数据系统的完善过程