专栏名称: 量化研究方法
以量化之思想认识世界,体会量化之美。
目录
相关文章推荐
三节课  ·  90%运营都想要的SOP,长啥样? ·  4 天前  
人人都是产品经理  ·  智能体大赛通道即将关闭,一次免费学习成为AI ... ·  4 天前  
人人都是产品经理  ·  AI 时代:产品经理不“AI”就出局? ·  5 天前  
人人都是产品经理  ·  小红书的社交野心 ·  1 周前  
51好读  ›  专栏  ›  量化研究方法

统计显著性、实际显著性及实际重要性

量化研究方法  · 公众号  ·  · 2017-05-05 23:16

正文

摘要

长期以来人们对于显著性的理解缺乏正确的认识,而且统计意义上的显著性对实际问题的解释还存在一个实际上是否显著的问题,即使存在上述的显著性,这种显著性其重要性如何也是一个值得研究的问题。本文针对以上问题通过具体示例做出了比较和说明,以便于给从事统计学理论研究者和经营管理的决策层提供一个参考。



01

引言


关于这个题目的选择是基于长期以来,人们对于显著性只是不间断的引用或利用各种统计分析软件在研究各类不同领域的实际问题,这些问题利用的不恰当会产生致命的后果(尤其在医学领域),而且不少文章都存在一些类似的问题。到底显著性问题能否作为可接受或者拒绝都没有一个准确的结论,在此我们试图给出了一次澄清。

02

统计意义上的显著性

 

我们知道两个总体之间的差异性是否具有显著性的最终影响因素是由总体的内在变异和总体之间的变异的大小关系决定的[1]。

 

所谓统计意义上的显著性是指在不同总体之间的差异比较研究中,由于各个总体存在内在的变异性,而只有在当两个总体之间的差异超过单个总体内部这类变异性时,它们间的差异才具有统计上的显著性。否则,当单个总体的内在变异性超过两个总体之间的差异性时,我们就称两个总体之间的差异不具有统计意义上的显著性。

 

当根据样本做出比较时,怎样适当的发挥统计方法的作用呢?其作用的发挥主要是通过指明什么时候被观察到的差异更可能是由总体本身的内在变异性所致或者更可能由超过内在变异性的两个总体之间的某种差异所致。这时我们就更有可能对所研究的样本比较问题做出准确的结论。我们试图通过下面的例子做出最佳的说明(为了便于处理和说明,我们这里有意给出一个样本容量很小的例子)。

 

假设某公司的人事部主管经理在招聘新员工时,要求按规定对本公司的未来雇员需要进行某种能力测试,随之产生的问题是对口专业人员的能力测试成绩是否高于相近专业人员。我们从每一次被测试对象中各随机抽取9个人的成绩做了如下记录,并从中发现9位对口专业人员的测试得分均值为86分,而9位相近专业人员的测试得分均值为82分。

 

那么我们该不该从上述测试结果中做出结论说,一般来讲每次测试中对口专业人员的成绩高于相近专业人员?比如说,你是否有把握做出这样的推断,即对对口专业的和相近专业的职业申请者的总体来说,所有对口专业人员的成绩均值将比所有相近专业人员申请者成绩更好?一个重要的问题就是从这个数据做出的任何推断必须考虑到测试成绩中的内在变异性。

 

下面我们给出可以得出不同结论的4次抽取样本的测试成绩:

 

(1)第一次样本数据

 

对口专业人员:87,85,86,87,86,85,87,85,86

 

其均值为86分;均值的标准误差0.28868;

 

内在变异标准差为0.86603。相近专业人员:81,82,83,83,81,82,82,81,83其均值为82分;均值的标准误差为0.28868;内在变异标准差为0.86603。

 

两个总体的均值为84;均值的标准误差为2.00;

 

总体间的变异标准差为2.82843。各总体的内在变异标准差均未超过这两个总体之间的变异标准差,按照上面的显著性含义,第一次样本数据可以得出对口专业人员的能力测试成绩显著的高于相近专业人员。第一次对口专业与相近专业能力测试成绩比较图[2],见图1。



 

(2)第二次样本数据

 

对口专业人员:76,94,81,91,76,96,80,94,86

 

其均值为86分;均值的标准误差为2.67187;内在变异标准差为8.01561。

 

相近专业人员:76,88,68,96,72,92,70,94,82其均值为82分;均值的标准误差为3.63624;内在变异标准差为10.90871。

 

两个总体的均值为84;均值的标准误差为2.00;总体间的变异标准差为2.82843。第二次对口专业与相近专业能力测试成绩比较图[2],见图2。



 

(3)第三次样本数据

 

对口专业人员:87,85,86,87,86,85,87,85,86其均值为86分;均值的标准误差为0.28868;内在变异标准差为0.86603。相近专业人员:76,88,68,96,72,92,70,94,82其均值为82分;均值的标准误差为3.63624;内在变异标准差为10.90871。

 

第三次对口专业与相近专业能力测试成绩比较图[2],见图3。



 

(4)第四次样本数据

 

对口专业人员:76,94,81,91,76,96,80,94,86其均值为86分;均值的标准误差为2.67187;内在变异标准差为8.01561。相近专业人员:81,82,83,83,81,82,82,81,83其均值为82分;均值的标准误差为0.28868;内在变异标准差为0.86603。第四次对口专业与相近专业能力测试成绩比较图[2],见图4。



 

首先需要注意的是尽管各组内部两样本数据对口专业人员和相近专业人员其均值在各次抽样数据中分别是相同的,但这各组数据给人们的印象却是不一样的。

 

下面我们来逐一加以分析和说明:在第一次数据中,对口专业人员的能力测试成绩都差不多,并且他们的成绩都高于相近专业人员。被观察到的两个样本其均值分别为86分和82分;均值的标准误差相等均为0.28868分;内在变异标准差相同也均为0.86603分。各个样本均值的代表性也是对口专业人员比相近专业人员要大。这显示了这一组两个样本间的差异“86分和82分”是“真”的———它表明了这样一个事实,即一般来说对口专业人员的成绩大约高出相近专业人员4分。即第一组数据中的两个样本数据在统计意义上具有显著的差异性,而且是真实的。

 

第二次数据则说明了不同的情况,对口专业人员的能力测试成绩其均值为86分;均值的标准误差为2.67187分;内在变异标准差为8.01561分。相近专业人员的能力测试成绩其均值为82分;均值的标准误差3.63624分;内在变异标准差为10.90871分。

 

在每一样本数据中都存在着如此大的变异性,以致于均值间的4分差异无法表明对口专业人员和相近专业人员之间有任何一般性的差异。这样我们就处在一种非常不可靠的位置来根据这些数据作出推断:

 

一般来说对口专业人员的成绩高于相近专业人员。这种显著性在实际上警示我们是不能作出上述结论的。也就是说这组数据所表达的结论是两个样本均值之间的差异在统计意义上不具有显著性。第三次数据给我们的印象是尽管相近专业人员的能力测试成绩均值较低,但是他们中的最高成绩要比对口专业人员的能力测试成绩高,而且有4个人的成绩比对口专业组的所有成员都高,5个人的成绩都比他们低;在这里要想得出对口专业组人员的能力测试成绩比相近专业人员的能力测试成绩高好像很难。也就是我们经常说的统计意义上的极不显著。事实上相近专业人员的能力测试成绩极具分散性,即差异性非常大,而对口专业人员的成绩则显得较为集中。第四次数据所产生的效果与第三组的情况正好相反,即对口专业人员的能力测试成绩差异很大,相近专业人员的成绩则显得较为集中。但是对口专业人员所取得测试成绩有5人都远远超过相近专业人的最高成绩线。

 

有4个人的成绩则稍低于相近专业人员的成绩,只有一个人差距较大。这个结论使我们也不能得出专业人员的成绩要比相近专业人更具显著意义上的高。当这些数据由正规统计检验来正式计算时,其结果如下:

 

第一次数据将得出在统计上有显著性差异的结论,而在第二次数据中,则没有统计上的显著性差异,在第三次数据中,则比第二次数据中的结论更甚,即极不具有显著性,在第四次的抽样数据中,则可以得出具有显著性的结论。

 

在这4个案例中,被观察的两个均值间的差异均为4分。然而统计上的计算考虑到了组内的内在变异性,并识别出这4个案例间的不同。当一个差异被称作统计上的显著时,那么就意味着这两个样本统计量的差异超过了这两个样本的内在变异性,它表明这两个样本的差异是足够大的,以便于使我们更加确信:如果打算同时调查这两个完整总体,那么就发现这两个比较的参数(本例中是指两个总体的均值)是不相等的。这个结果反映了这样一个事实,即我们在样本中发现的变异性越大,那么可能来自总体的变异性就越大———从而用样本对总体作出肯定推断就变得越发困难。


03

实际显著性

 

实际显著性是指在不同总体之间的差异比较研究中,由于各个总体存在内在的变异性,而只有在当两个总体之间的差异绝对超过总体内部这类变异性时,我们就称它们间的差异具有实际意义上的显著性。

 

在以上4个案例的结论中,我们实际上可以得出具有统计意义上显著性的有第一次、第四次抽取样本的比较结果,其中第一次则是我们这里认为的实际意义上的显著性,实际上是绝对显著的。我们必须指出实际意义上的显著性一定具有统计意义上的显著性,而具有统计意义上的显著性未必具有实际意义上的显著性。比如上述第四次抽样的结论。 




04

统计显著性与实际重要性

 

统计上的显著性与实际上的显著性是不一样的。同样,统计意义上的显著性甚至实际意义上的显著性在实践经营过程中的表现则极具戏剧性,即是说两个总体间的差异性可能具有统计上的显著性,但从经营角度的观点来看,实际上是微不足道的,对最终决策者来说可能不会产生什么后果。这主要依赖于决策人对这一问题认识的重要性及其个人偏好。当他确实认为这种显著性能帮助他取得较好效益时,他才可能采纳我们研究的显著性结果。但并不是说这种统计研究毫无意义,如果我们不做这种统计意义上显著性的研究,甚至我们连这种显著性是否发生都不知道,那对经营和决策者实际需要时可能就更加茫然。

 

统计分析报告通常说“显著性”,从而能够给人们产生一种发现了这种情况的印象。显然没有这种显著性研究的结论,也就无从得知发生了这种情况还是另外一种情况。

 

05

结束语

 

关于上述问题的研究,无论是对于统计理论研究者还是企业经营者而言都是必要的,这种研究的最终目的,至少能够给统计理论工作者的一种新的提示,即是说至少我们获得了对大家关心的问题给出了一种或者几种可能的解释,同时也给经营决策者做出了可能决策的警示,避免决策者的盲目性。


李武选,长安大学经济与管理学院

   来源:统计与决策 

2008(4)