(全距,迷你距,四分位数,标准差,标准分)
全距=max-min
全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。
全距的局限性
全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。
四分位数
所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。
Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
迷你距 也叫“四分位距”
迷你距。它是一组数据中较小四分位数与较大四分位数之差。
即:迷你距= 上四分位数 - 下四分位数
迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。
全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?
我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。
方差
方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。