正文
作者按
:
微信公众号
“文献自助餐”从2015年8月31号至今共推出了三篇关于
Guido W. Imbens和Donald B. Rubin二位大神的新书Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction的读书笔记,由于此前两篇在微信公众号发布时还未开通知乎专栏,所以此次将三篇文章同时在知乎发布。读书笔记是笔者在阅读Imbens & Rubin的过程中整理总结的内容,整本书在potential outcome的框架下讲述了不同条件下的因果推断问题,笔者在阅读过程中获益匪浅。笔者希望整理出一份读书笔记出来,
一来可以督促自己,二来让更多的朋友知道这本书。本次推送的三篇题目分别为“
Imbens & Rubin:因果分析的基本框架
”,
“
Imbens & Rubin:经典随机试验(上)
”,
“
Imbens & Rubin:经典随机试验(中)
”。
在应用统计中,人们感兴趣的问题不仅仅是描述性统计和相关关系,还包括因果关系。为了构建因果分析的框架,我们首先需要引入一些基础性的概念:潜在结果(potential outcomes)、个体处理稳定性假设(the stable unit treatment value assumption, SUTVA)、分配机制 (assignment mechanism)。
因果关系的分析一定要有行动施加于个体。给定个体和一个行动集,我们给每个行动和个体的搭配赋予一个变量,这个变量叫做潜在结果。事后来看,只有一种潜在结果可以被观察到。树林里分开两条路,我走大路或者小路,两条路的尽头都是我的潜在结果,但是如果我走了大路,那么我只能在大路的尽头畅想如果走了小路会有什么结局,但也只能是畅想,事实如何,没人知道。一种行动或者处理的因果效应可以通过比较潜在结果得到。举个例子,我头疼,可以吃阿斯匹林或者不吃阿斯匹林,只需比较我吃阿斯匹林和不吃阿斯匹林时头疼的程度,就能知道阿斯匹林对我头疼症的因果效应。问题是,吃阿斯匹林与不吃阿斯匹林的结果不能同时被观察到。
关于因果效应的定义有两点需要注意的地方。首先,这一定义依赖于潜在结果,但是不依赖于哪一个潜在结果最终实现,无论我有没有吃阿斯匹林,阿斯匹林对我头疼症的因果效应都应该是一样的。其次,因果效应来自于对事后同一时间同一个体潜在结果的比较。特别地,对同一个体事前事后的比较并不满足因果效应的定义。
与因果效应的定义不同,因果效应的估计必须依赖能够被观察到的潜在结果。定义因果效应,只需一个个体就够了,而由于一个个体只能带来一个可被观察到的结果,所以因果效应的估计需要多个个体,而且这些个体被施加的行动需要有所不同(不能所有人都吃阿斯匹林,或者所有人都不吃阿斯匹林)。要估计因果效应,我们还需要知道(或者假设)为什么是一些潜在结果实现而非其他的潜在结果。也就是说,我们需要知道或者假设,行动在个体之间的分配机制是什么。对分配机制的介绍放到最后,我们先来看个体处理稳定性假设。
个体处理稳定性假设(SUTVA)是指任意一个个体的潜在结果不随其他个体是否接受处理而改变,而且每个个体受到的处理和潜在结果之间是定义良好的函数。
SUTVA包括两个部分。第一个部分是说,不同个体间的潜在结果是相互独立的,我的头疼症只应该与我自己吃不吃阿斯匹林有关,别人吃不吃阿斯匹林不应该对我的头疼症产生任何影响。这当然只是一个假设,如果头疼可以传染,即使我吃了阿斯匹林,如果我室友不吃并一直头疼,那么室友的头疼是会传染给我的。假设阿斯匹林是有效的,在室友不吃药的情况下,我吃药与否的潜在结果都是继续头疼;而如果室友吃药的话,我吃药就不头疼,不吃药就会继续头疼。这时,SUTVA的第一部分就并未得到满足。
上面这个吃药不吃药的例子听起来有点人造,所以考虑一个更容易被接受的例子。你考虑参加一个大型职业培训项目,但是如果参加这个项目的人足够多,那么你接受培训后在收入上获得的好处可能会被更加激烈的竞争所抵消,这在经济学上被称为一般均衡效应。当存在个体之间的相互影响时,为了使SUTVA更加可信,我们可以赋予“个体”一个更宽泛的定义,比如研究教育问题时经常以学校为单位而非学生。SUTVA的第二部分是指,不同强度的处理都应该被清楚明白地表现出来。还是阿斯匹林的例子,如果我们把处理划为服用阿斯匹林和不服用阿斯匹林,那么这里的服用阿斯匹林就应该是指服用相同规格和药性的阿斯匹林,不能存在不同药性的阿斯匹林。如果有两种强度的阿斯匹林,那么对于处理的划分就应该改为服用强阿斯匹林、服用弱阿斯匹林和不服用阿斯匹林。
前面已经讲过,潜在结果不能全都被观察到,这是进行因果分析所面临的最根本的问题。 Rubin(1974)认为这一问题实质上就是一个缺失数据的问题。因此要进行因果分析,就需要把缺失的潜在结果填补上。一些个体的背景特征(协变量)往往能够帮助我们进行缺失潜在结果的预测。
不是所有变量都可以作为协变量,协变量必须满足一个条件:个体是否得到处理被先验地认为不会对协变量造成影响。个体永久性的特征,或者发生在处理之前的变量,都可以作为协变量,它们也被称为处理前变量。协变量的有用性体现在三个方面:使估计更加精确,提供特定族群的因果分析,非混淆性(unconfounded)。其中最重要的就是非混淆性,非混淆性是指分配机制不依赖于潜在结果。能力比较低的工人更可能接受职业培训,而能力比较低的工人工资也相应地较低,因此工资这一潜在结果与接受职业培训与否相关,这样就不满足非混淆性。直接比较参加培训工人的平均工资和不参加培训工人的平均工资就会低估培训的效果,但是如果比较各个方面特征比较相似的工人(比如性别一样,学历一样,经验一样)中参加培训工人的平均工资和不参加培训工人的平均工资,我们会更加愿意相信这两部分工人之间的工资差距来自于职业培训。
分配机制是决定哪些个体得到处理,从而哪些潜在结果可以被观察到的过程。正式地来说,分配机制是协变量、潜在结果和分配向量的函数,表示在特定协变量和潜在结果下,某一分配向量实现的概率。什么是分配向量呢?假设有两个人,分配向量就是表示两人是否得到处理的二元数对,如(培训,培训)、(培训,不培训)、(不培训,培训)、(不培训,不培训)。
对于分配机制有三个基本限制:
个体独立性(individualistic assignment):任意个体得到处理的概率不依赖于其他个体的协变量与潜在结果。
概率规范性(probabilistic assignment):个体得到处理的概率严格大于0,小于1。
非混淆性(unconfounded assignment):分配机制独立于潜在结果。
根据Cochran(1965),书中对试验和观测性研究进行了区分。对于试验,研究者完全了解并可以控制分配机制。对于观测性研究,研究者或者并不知道分配机制是怎样,或者无法对分配机制进行控制。
书中讨论了三种分配机制。第一种是随机试验(classical randomized experiments),随机试验的分配机制满足上面提到的三个限制,而且研究者对于分配机制完全了解并可以进行控制。第二种是正规分配机制(regular assignment mechanism),它依然满足三个限制,但是研究者对于分配机制并不了解或者没有控制能力。第三种分配机制本身也是正规的,但是个体被分配到的处理和个体实际接受的处理是不同的,这来自于个体实现效用最大化的主观能动性。此时,我们需要工具变量的方法。
本书接下来的部分分别在这三种分配机制下探讨因果关系的推断问题。
本书的第二部分以经典随机试验为分析对象。书中介绍了四种随机试验:伯努利试验,完全随机试验,分块随机试验,以及分块随机试验的极端形式—配对随机试验。上一篇介绍了经典随机试验的分配机制所必需满足的条件:个体独立性,概率规范性,非混淆性,分配机制可控性。虽然每个个体都以严格大于0,小于1的概率进入试验组(控制组),但是在不同的随机试验下,同样的分配向量可能具有不同的实现概率。这四种分配机制的不同主要就体现在正概率分配向量集合的不同。
假设有N个个体,那么在伯努利试验中,一共有2的N次方个分配向量,而且每一个分配向量出现的概率都严格大于0。这也就可能导致所有个体都进入试验组或者所有个体都进入对照组这类对于因果推断不能提供任何信息的情况的出现,这样会对分析的可靠性造成损害。而其它三种随机试验通过对于正概率分配向量集合不断增加限制来提高因果推断的精准度。
四种随机试验的定义如下:
伯努利试验:每个个体是否得到处理独立于其它个体是否得到处理。
完全随机试验:从N个个体中随机抽取一定数量的个体组成试验组,余下的作为对照组。
分块随机试验:把全体对象按照对潜在结果具有预测能力的协变量进行分块,使属于同一块的个体在这些协变量上具有较大的相似性,比如按照性别分块,学历分块等等。然后在每一块内部,进行完全随机试验,不同块的完全随机试验互相独立。
配对随机试验:分块随机试验的一种极端形式—每块恰好只有两个个体,通过抛掷一枚均匀的硬币来决定每一对里究竟哪个个体进入试验组。
对于上面的定义简单做两点解释:
在伯努利试验的定义里提到的“独立”和对随机试验的个体独立性要求是不同的,上一篇讲过,个体独立性是指任意个体得到处理的概率独立于其它个体的协变量和潜在结果。我们最熟悉的伯努利试验就是抛硬币,对于每个个体,我们都抛一次硬币,规定正面朝上就处理,我们很容易就能够验证对每个个体抛硬币都不依赖于对其它个体抛硬币的结果,并且伯努利试验满足个体独立性要求。但是,后面提到的三种试验中,可能出现某个个体是否得到处理依赖于其它个体是否得到处理的情况,但是它们依然满足个体独立性。
完全随机试验对应概率论里常见的不放回抽取。
从上面的定义可以看出,四种随机试验对正概率分配向量集合的限制在严格性上是递增的。这样做的理由在于排除那些“不太有用”的分配向量,“不太有用”是指它们不太可能有助于我们进行精确的因果推断。一个所有个体都进入试验组或者所有个体都进入对照组的分配向量能够为我们提供的信息少于一个更为平衡的分配向量(比如一半个体进入试验组,另一半个体进入对照组),这使得完全随机试验比伯努利试验更好。当分块的依据是对潜在结果具有预测力的协变量时,从完全随机试验转到分块随机试验和配对随机试验也具有类似的好处。然而,如果分块的依据与潜在结果并没有关系,那么完全随机试验和分块随机试验(配对随机试验)在因果推断的精度方面并没有显著不同的作用。
本书接下来分别介绍了四种处理随机试验的方法:Fisher的P值方法,Neyman的重复抽样法,回归方法,以模型为基础的推断方法。由于篇幅限制,本篇先介绍前两种方法,回归方法(我们的老朋友)和模型推断法放到下一篇再详细介绍。经济学的实证工作中因种种限制而较少进行经典随机试验,经济学者更多时候手头上只有观测性数据。那么,作者在这里介绍各种处理随机试验的方法对我们有什么帮助呢?我们都知道完全竞争市场这一假设和由它推出的一系列非常漂亮的结论都跟实际情况出入很大,但是我们把它当作一个benchmark。这一逻辑同样适用于本书对经典随机试验的讨论。对随机试验的分析可以为观测性数据的研究提供一个模版,我们在做实证工作的时候绞尽脑汁地使用诸如DID, PSM,IV,RD之类的手段,不就说为了使因果分析的可信度接近于随机试验吗?况且,现在已经还有不少学者通过做RCT(Random Controlled Trials)来研究经济学的问题呢,本书在讲Neyman的重复抽样法时就就以Duflo, Hanna, and Ryan(2012)中的随机试验数据为例。这一随机试验是在印度农村展开的,以金钱激励对教师表现的作用为研究对象。
现在来介绍Fisher的P值方法。给定来自于一个完全随机试验的数据,Fisher希望评估这样一个原假设:对于每一个个体,其两种潜在结果完全一样,处理没有任何效果。书中将这样的原假设称为sharp null hypothesis,我没有找到比较好的翻译方法,所以就姑且称之为Fisher原假设吧。Fisher建立了一套方法来计算P值,书中简写为 FEP(Fisher Exact P-values),当然我们现在对P值法的应用范围比Fisher最初提出时要广。题外话,对统计学的发展历史,尤其是Fisher,Neyman这些统计大神感兴趣的读者,可以参考The Lady Tasting Tea,豆瓣评分9.0。
在介绍Fisher的P值方法之前,还需要引进一个概念—统计量。统计量是分配向量,潜在结果的实现值,以及协变量的函数。在Fisher原假设下,我们可以确定统计量的分布。统计量的随机性完全来自于分配向量的随机性,潜在结果被看作是固定的。有了统计量的分布,我们可以知道实际观察到的统计量的取值在分布中的位置。如果观察到的统计量在原假设下非常不可能出现,这会被当作不利于原假设的证据。这样的逻辑本质上就是数学中常用的反证法的一个“随机”版本。我们观察到的统计量要“多不可能出现”才会让我们推翻原假设,这需要预先设定一个临界值。具体来说,我们可以计算原假设下统计量的分布,我们从该分布中抽取一个数,这个数大于等于我们观察到的统计量的数值的概率就是P值(也就是统计量分布的密度函数在观察到的统计量右边所覆盖的面积),如果P值小于我们选取的临界值,我们就会拒绝原假设。
FEP包括如下两步:
选取一个Fisher原假设,不一定只能是前面提到的每个个体的两种潜在结果完全相同的版本,只要可以使我们把所有没有实现的潜在结果(即缺失值)也推断出来即可。比如,每个个体的两种潜在结果之间相差一个常数,或者一个倍数都可以。
选取一个统计量。选取的统计量应该对原假设和研究人员关心的备择假设之间的差别具有敏感性。用专业的术语来讲,统计量应该具有较强的统计检验功效,即在原假设错误的情况下拒绝原假设的概率。
FEP是非参数方法,因为它并不依赖于一个由一系列未知参数确定的模型。特别地,FEP不对潜在结果的分布建模,潜在结果在这里被当作固定但是事前未知的量。被观察到的潜在结果以及统计量的随机性完全来自于分配机制,一个个体最终实现哪个潜在结果是由分配机制随机决定的。
原假设的选择不再需要细讲,唯一需要注意的是,Fisher原假设中强调对于每一个个体,处理都是没有作用的,这和处理在平均意义上没有作用是完全不同的,而处理在平均意义上的作用是Neyman所关心的。
书中花了比较大的篇幅介绍各种不同的统计量。最流行的统计量自然是分别计算试验组和对照组实现结果的均值,然后将二者相减再取绝对值。如果我们不是用均值,而改为用分位数,那么我们就得到了分位数统计量。我们还可以将结果取对数再求均值。此外,还有常见的t统计量,次序统计量,Kolmogorov-Smirnov统计量,以模型为基础的统计量等。有如此多不同的统计量,统计量的选择就需要认真考虑了。原则上,统计量的选择需要同时考虑比较可信的备择假设是什么,以及潜在结果在原假设和备择假设下分别服从什么分布。
假设我们怀疑实验组的潜在结果是对照组的潜在结果的倍数,而原假设是处理对每个个体都没有作用,那么将结果取对数后再分别求不同组的均值并相减再取绝对值(有点绕,但是在不写一个数学公式的情况下,这算是比较自然的描述了。。。)得到的统计量就是自然之选。因为当我们的怀疑正确时,这样的统计量对备择假设(实验组的潜在结果是对照组的潜在结果的倍数)会比不取对数直接计算均值得到的统计量更为敏感,也就是说前者比后者具有更强的检验功效。
如果观察到的潜在结果的经验分布有离群值,原假设依然是处理对每个个体都没有作用,而备择假设是每个个体潜在结果之间相差一个固定的常数,那么计算不同组的均值相减再取绝对值得到的统计量就只具有很低的统计检验功效。在这种情况下,用对极端的离群值不太敏感的统计量就更好,比如中位数,次序统计量,或者切尾平均值等。
作者进行了一个模拟,以研究不同的统计量在对结果的分布进行的不同设定下分别具有多大的统计检验功效。总的来看,次序统计量在一系列不同的设定下都有很好的表现,而其它统计量的检验功效在不同的设定下起伏很大。比如当生成的数据满足每个个体潜在结果之间相差一个固定的常数时,均值统计量的表现很好,但是一旦引入极端的离群值,均值统计量的检验功效就大打折扣,而次序统计量的效果依然稳健。
花了大量篇幅介绍Fisher的方法,接下来我们简要介绍一下Neyman的方法。差不多在Fisher建立FEP的同一时期,Neyman开始关注平均处理效应的估计和推断问题。Neyman对于从总体中重复抽样和随机分配机制下的统计方法及其特征感兴趣。Neyman关心的基本问题是,如果所有的个体都被放入试验组,平均结果是多少?如果把所有个体都放入控制组,平均的结果又是多少?更为重要的是,这两个平均结果之差上多少?这就是前面提到的平均处理效应。平均处理效应是无法被观察到的,因为它的计算需要知道所有的潜在结果,而其中一半都是无法被观察到的。在Neyman的分析中,我们不能依据一个假设把所有缺失的潜在结果推断出来。然而,我们仍然能够对潜在结果的一些特征进行估计,比如一阶矩和二阶矩。Neyman希望得到平均处理效应的无偏估计量,并且构造置信区间。无偏估计量是指估计量的期望等于我们希望估计的对象,这里的求期望也是针对分配机制的随机性进行的,潜在结果仍然被认为是固定的。置信区间是一个随机区间,该区间以一定的概率包含我们想要估计的值,这里的概率是一种频率意义上的解释,指我们做一百次这样的随机试验,大概有一定比例(常见的99%,95%,90%)的试验中,置信区间包含真值。在频率学派的语境下,置信区间的解释离不开重复抽样。
一个很自然的统计量就是实验组和对照组平均结果的差值,这一统计量是平均处理效应的无偏估计。有了统计量,接下来可以讨论置信区间。置信区间的构建分为三步:
推导这一统计量的抽样方差,具体的数学推导这里不展开。
估计上一步推导出的抽样方差。
利用中心极限定理以及第二步估计出的抽样方差构建置信区间。
有了统计量和抽样方差,也可以构建t统计量进行假设检验。但是Neyman框架下的假设检验跟Fisher的FEP有两点不同。首先是原假设的不同,Fisher的原假设是对任何个体进行处理都是没有作用的,而Neyman的原假设是平均处理效应为零。其次,Neyman的假设检验要依赖于大样本下的正态性质,而Fisher的P值法不需要依赖于大样本。
关于Neyman的方法有一点需要强调,在Neyman的框架下,潜在结果仍然是固定的,通过引入分配机制的随机性,我们给统计量赋予了一定的随机性,这点在Fisher和Neyman中都是一样的,我们刚才提到的Neyman的分析方法也可以只依赖于这一随机性。不同的是,Neyman还引入了一个“总体”的概念,我们前面分析用到的个体只是从拥有无数个体的总体中随机抽取出来的,通过引入从总体中抽样的随机性,Neyman的分析框架下随机性有两个来源。通过迭代,我们可以证明前面提出的统计量(实验组和对照组平均结果的差值)也是总体下平均处理效应的期望值的无偏估计量。
终于要开始介绍我们的老朋友——线性回归啦!线性回归可能是与我们见面频率最高的统计方法了,我们在经济社会数据的实证研究中最常用到它。然而,在完全随机试验中,我们有必要使用回归方法吗?如果我们关注的是平均处理效应,似乎直接计算实验组和对照组观测结果的均值之差就可以了,而上一篇介绍过的Fisher的P值法和Neyman的方法就足够帮助我们进行统计推断。那么,在完全随机试验中使用回归方法有什么理由吗?
在Fisher的P值法和Neyman的分析框架中,潜在结果(potential outcomes)被看作是固定的,随机性来自于将个体分配到试验组或是对照组的操作。而在回归分析中,潜在结果不再是固定的,它们是随机变量,是从无限的总体中抽取出来的。
作者在这里考虑的模型是关于我们观察到的潜在结果的模型,而非对潜在结果建模。模型关注的是观察到结果的条件期望,而非其实际分布。估计出来的回归系数是模型的参数。在完全随机试验下,无论模型是否为条件期望提供了精准的近似,都不会影响估计参数在样本量趋于无穷时向超总体下的平均处理效应收敛(average treatment effect in the super-population)。
先介绍几个重要的概念,这样在后面的讨论中会方便一些。
1、有限样本平均处理效应:
这是Neyman感兴趣的处理效应,但是我们知道这一效应是观察不到的,因为每个个体只能够被观察到一种潜在结果。因此,Neyman用接下来介绍的这个统计量来进行估计。
2、试验组对照组潜在结果均值之差:
可以证明,这一统计量是有限样本平均处理效应的无偏估计量。这里的随机性都是来自于完全随机试验下个体被分配到实验组或是对照组的随机性。在下面的概念中,我们再引入超总体。
3、超总体(super-population)下的平均处理效应:
此时,我们将潜在结果也看作是随机变量,它们是从无限大的超总体中抽取出来的。依然可以证明,试验组对照组潜在结果均值之差也是超总体(super-population)下的平均处理效应的无偏估计量。
接下来分别讨论三种线性回归模型:只包括指示变量的线性模型,加入其它协变量的线性模型,加入协变量和指示变量交叉项的线性模型。
(1)只包括指示变量的线性模型
在完全随机试验中,对于观察到的潜在结果建立如下线性模型:
Wi 是用来表示第i个个体是被分配到了实验组或是对照组的指示变量,当个体i进入实验组时指示变量等于1,进入对照组时等于0。通过最小二乘法可以求出τ的最小二乘估计值,通过简单的代数运算可以发现它刚好就等于试验组对照组潜在结果均值之差,而后者正是试验的因果性效果。于是,在完全随机试验下,通过最小二乘回归得到的指示变量系数估计值具有因果含义。
(2)加入其它协变量的线性模型
考虑如下模型:
我们依然利用最小二乘法进行估计:
但是,这里估计出的指示变量系数不再等于试验组对照组潜在结果均值之差。也就是说,在有限样本下,最小二乘估计不再具有无偏性。然而,在满足一些条件后,我们可以证明最小二乘估计量收敛到:
可以证明:
且有
因此,即使指示变量系数最小二乘估计值在有限样本下不再具有无偏性,但是其大样本性质依然保留:随着样本量趋于无穷大,它收敛于超总体(super-population)下的平均处理效应。而且,这一大样本性质并不以回归模型的设定是否正确为转移。这是因为,在完全随机试验下,指示变量和协变量在超总体中不相关。
加入协变量会使估计量丧失有限样本下的无偏性,那么我们这样做有没有什么好处呢?当协变量对潜在结果有较强的解释力,加入协变量会使估计量的抽样方差显著减少,可以使估计更加准确。
(3)加入协变量和指示变量交叉项的线性模型
如果我们预期协变量和结果之间的关系在对照组和实验组中有所不同,那么我们会加入协变量和指示变量的交叉项。这样做有两方面的好处:一是加入更多的控制变量可能带来估计值抽样方差的进一步减小;二是使模型更加稳健。模型如下:
可以证明,最小二乘法得到的指示变量系数也在样本量趋于无穷大时收敛到超总体(super-population)下的平均处理效应。
回归方法能够作为连接有限样本下统计推断和以模型为基础的方法二者的桥梁,可以使研究者比较自然地在估计中考虑其它的变量。在完全随机试验下,可以利用线性回归方法进行点估计并构建置信区间,这可以作为Neyman方法的一种很好的推广。而且,无论真实的条件期望模型是否是线性的,都不影响估计值的大样本性质。然而,在观测性数据的研究中,线性回归的结果对模型的设定是敏感的,此时使用线性回归需慎重。
结语:线性回归是最常见的统计模型,完全随机试验是因果推断最理想的条件。因此,将二者结合起来,会帮助我们更加清楚地理解接下来的内容。下一次推送“经典随机试验”的最后一部分,介绍完全随机试验下以模型为基础的方法(主要是贝叶斯方法)。