专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
医学界  ·  世界第二大医院裁员,缩减行政人员 ·  昨天  
德大器械注册与临床  ·  注册人制度下异地受托方体系考核一般需要多久? ·  2 天前  
51好读  ›  专栏  ›  生信百科

你真的那么相信P-value?

生信百科  · 公众号  · 医学  · 2017-09-24 07:04

正文

0.P-value 真的是万能的吗?

话说曾经有一个实验,一帮内科医生去研究阿司匹林是否能够预防心肌梗塞(myocardial infarction, MI)。他们找了超过22 000个被试,通过5年的研究,表明阿司匹林能够显著的(P<0.00001)降低心肌梗塞的发生。于是这个研究得到了应用,很多人都被建议服用阿司匹林去预防MI。一段时间过后,人们发现这种做法并没有什么好处。明明是统计学意义上显著的结果,为啥会没有用呢?事实上,这个研究的效应值非常非常小只有0.77%,r²=0.001。因此,建议服用阿司匹林预防MI的事情在后来也就被取消了。


1.什么是effect size(效应值)

实际上,他是度量两组之间差异的统计量,一般我们可以认为效应值为均值之差。

举个栗子:

假如参加辅导班可以让小朋友在考试的时候平均多答对15道题(总共50道),那么参加辅导班这个处理的效应值就是15题,或者30分(百分制)。因为我们对考试相关的东西是非常熟悉的,直接将差值拿出来就可以理解,这样的效应值可称为绝对效应值。但并非所有的事物我们都很熟悉,比如

在一次训练中,居民的人均Likert-type 量表得分提高0.4分,量表的得分为1-5之间。在这个例子中,绝对效应值为0.4,但我们无法判断这个值到底显著不显著,不能理解其中的含义。此时,如果我们知道得分的变化是多少,例如知道标准差是多少,用绝对效应值除以标准差,就可以较为直观的理解效应值了。

一般可以这样理解:绝对效应值就是两组之间均值的差。相对效应值就是在这个基础上除以标准差。


2.那么为什么P值和效应值会得出完全不同的结论呢?

p值代表我们观测到的差异是有多大概率是错误的(即两个样本间原本无差异)。我们常取的P < 0.05 意味着我们有95%以上的机会是观测到了真实的差异。假设一个处理对两个实验组是有影响的,那么只要我们有足够大的样本量,一定是能得出P 值显著的结果,正如上面这个例子。也就是说,无论这个处理带来的差异有多小,即使只有0.0001%的差异,我们也能够通过增加样本量来获得P 值显著的结果。而效应值恰好可以用来解决这个尴尬的问题的。

总的说来,效应值代表处理的效应有多大,P值代表效应值有多可靠。


3.怎么计算效应值

依据研究内容的不同,效应值有多种计算方式。如果我们做的是组间差异研究,如高浓度盐水处理后的水稻产量,我们可以用差值来表示效应值;如果我们做的是关联分析,如利用GWAS 研究与身高关联的SNP,这里的效应值一般用回归的方法计算。下图总结了不同类型的效应值的计算方式和显著程度的描述方式。


图片来源于参考资料[1]

举个栗子吧:

还是那个小朋友参加辅导班的例子。话说有两组小朋友,其中一组小朋友参加了辅导班,考试平均分为90分;另外一组小朋友没有参加辅导班,考试平均分为60分。这些小朋友考试分数的标准差为20分,那么根据Cohen 的效应值计算公式,d = (90 - 60) / 20 = 1.5。再根据Cohen 效应值的限制性标准(small 0.2; medium 0.5; large 0.8; very large 1.3),这个辅导班的效应值非常大,一定要把小朋友送到这家辅导机构去。

Cohen效应值计算公式

一定会有人注意到,一开始举这个辅导班的例子的时候,我们并没有除以标准差。那为什么这里要除呢?


考虑两个学科的考试,A为语文考试,区分度不大,平均分在60分,90%人都在45到75分这个区间内;B为数学考试,区分度很大,平均分也在60分,但是分布的很散,50%的人在45-75分的区间内。假设小朋友参加补习班可以提高15分,在这两个学科上面的意义是不同的。因为平均而言,在语文考试(A)中,参加补习的小朋友可以超过45%的同学;但是在数学考试(B)中,却只能超过25%的人。假如我们要按照排名评单科优秀,在只能参加一个补习班的情况下,一定要参加A,而不是B。

除以标准差,就是把分布的离散程度考虑了进去,可以更加方便的下结论,而不用过分纠结于问题背景。


4.效应值还可以用来干嘛





请到「今天看啥」查看全文