一、随机实地实验的实施步骤及其优势
随机实地实验的基本过程一般包括五个步骤。第一步,确定实验人群;第二步,进行随机分组,这是随机实地实验的关键环节。实验者需要将实验对象分成一个控制组以及一个或者多个干预组。随机分组的目的是通过消除实验前不同组别之间的系统性差异以实现可比性。第三步,进行实验干预。第四步,数据收集。这可以通过问卷、实地检测和经济学游戏等多种手段实现。第五步,也是最后一步,对数据进行处理和分析,并得出结论。
分组的随机性和干预措施的可设计性为随机实地实验带来两大优势。(1)可信性优势。经典的Rubin因果模型指出,潜在结果的概念对于探讨干预的因果效应非常重要;只有知道被干预个体如果不被干预时的表现,才能够准确地衡量干预的效果(Rubin,1974) 。但同一个体无法同时存在被干预和不被干预的两种状态,因而潜在结果必须通过其他具有可比性个体去获得。计量经济学虽然有各种方法解决可比性的问题,但各有其适用条件和局限。随机实地实验的随机分组使得控制组和干预组(处理组)在期望上都能代表整体,实现可比性。如果没有干预措施,控制组和干预组无论在过去还是在潜在的未来都是可比的,因而,在干预实施后控制组和干预组之间的差异都可以归因于干预措施。控制组和干预组安排的随机性,为实验结果的可信性提供了有力的保障。(2)创新性优势。有一些公众关心现实中还没有实施的政策,或者公众没有意识到、但从理论中可以推导出的有效措施,这些都无法通过观察性研究进行定量政策评估的,但这些情况都可以通过实地实验、即设计相关的干预措施进行探讨。此外,有一些在现实当中无法分解的机制,也可以在实验中设定相关的情境进行分解。干预措施的可设计性为实地实验提供了创新性的源泉。
二、随机实地实验设计的若干关键环节
1.确定研究主题
研究主题的类别直接影响到随机实地实验研究中干预措施的设计策略。随机实地实验的研究主题从功能上大致可以分成两类。一类侧重探讨新方法。扶贫、教育、健康干预等方面的大多数研究都属于这一类。这类实验的目的,是从实验当中发现一些有效的潜在干预措施,这些措施可以进行大规模的社会推广并提升社会福利。以此为出发点的随机实地实验对干预措施的有效性和可行性有着双重要求:一方面要求设计出的干预措施具有现实有效性,另一方面又要求这些干预措施在现实当中是潜在可推广的,否则实验也会丧失现实意义。另一类实地实验研究则侧重于识别现实状况。很多关于歧视和机制探讨的文章都属于这一类别。这类实验的第一要义是干预措施尽可能地模拟现实。
2.考察实地背景
实验人员一定要熟悉所研究的市场。考察实地背景,需要回答以下几个主要问题: 第一,实地是否存在所预想的待解决的问题,或者存在提升的空间? 第二,当前存在这个问题的原因大致是什么?第三,干预措施理论上能否解决这个问题? 如果能够解决,可能的机制大概是什么? 第四,这个实地背景是否允许干预措施有效地进行?尤
其是控制组和干预组之间能否有效隔离? 第五,能否进行有效的数据收集? 尤其如何进行长期的追踪?
3.选择随机方法
随机的好坏直接影响到研究的可信性,是实地实验的核心环节。在方法上,随机大致可以分为三种方法。(1)简单随机,不管样本特性如何,直接做随机分组。(2)分组随机,先根据个体的特征进行分组,然后在每一个小组的内部进行随机分组,把各小组的干预组合并起来就是总体的干预组。(3)匹配随机,在每两个个体中,随机获得一个干预组个体和一个控制组个体。匹配随机是分组随机的极致,对小样本的随机分组有重要的应用价值。另外,(4)交替分组,是按照列表顺序分组。若分两组按0/1/0/1顺序交替分组,若分多组则按1/2 /3 /4… /1 /2 /3 /4…分组。虽然经常被使用,但交替分组不是随机分组。在动态获得实验样本的时候,也常常采取交替分组。交替分组在有些时候可以实现各组之间可比性的目的,但也存在一定的风险。比如,如果样本列表本身是男/女/男/女交替顺序的,我们按0/1/0/1分组,将会得到所有的0是男生1是女生。更值得推荐的方法是,在有序名单的基础上嫁接匹配分组。比如,Miguel、Kremer( 2004) 在肯尼亚进行的疟疾除虫实验中,对学校基于特征分组之后,在每一小组中将学校名称按照字母排列,然后按照顺序把每三个学校作为一个小组,更优的做法是从每一个小组随机确定123,最后分组的结果可能是123,321,231,132…,这可以极大地降低风险。
4.确定样本量
一个好的实验设计要具有鉴别度。这涉及两方面的问题: 一是对实验措施的效果进行预估,二是对分析的误差进行预估。后者与样本量紧密相关。在一个干预组和一个控制组的简单对比分析中,干预措施的效果可以用Yi=α+βTi+εi中的β表示,在独立同方差性的假设下,β ̂的方差可以表示为: Var(β ̂)=
方差;二是确定合适的干预组占比(P);三是确定足够的样本量N。给定干预效果E,使用通常的0.05的显著性水平和80%的功效,拒绝E=0的虚拟假设要求:N≥(7.84×σ2)⁄E2×P(1-P)。这个公式中,干预效果E取决于对干预效果的预估,P根据实施成本设定,σ2的值则有一定的复杂性。如果有前期数据基础,σ2可以明确地计算出来。如果不知道σ,依据经验,干预效果的大小一般定义:小效果0.2σ、中效果0.5σ、大效果0.8σ。如果是在群体层面上进行随机分组,群体成员之间的相关性会使得σ迅速增加,对样本量会提出更高的要求。
5.安排干预措施
干预措施的随机安排可以在两个层次上进行:一是个体层次(比如家庭),另一个是群体层次(比如村庄)。如果想探讨农村医疗保险对村民医疗支出和健康的影响。究竟是以家庭为单位还是以村庄为单位做随机安排,需要进行至少四个方面的考察。第一,关于样本量的考察。如果以村庄为单位随机安排医保,需要很多的村庄实现随机分组的可比性,同时由于同一村庄内部家庭之间的相关性,也需要更多的村庄获得估计的精确性。第二,关于溢出效应的考虑。如果有医保的村民会代没有医保的村民开药,那么就会导致医保的溢出效应; 如果不同的家庭看同一医生,也会通过医生产生溢出效应。溢出效应会导致对比同一个村庄内部的村民无法准确地评估医保的效果。但如果村庄之间的溢出效应很小,应以村庄作为随机干预的单位。第三,关于干预措施实施的考虑。如果医保涉及到特殊药品的供应或者不同表格的填写,让基层医生在不同的药品或者表格单据上来回切换可能很麻烦。因而,在干预的实施中,可能以村庄为单位在操作上更容易。第四,关于控制组家庭合作的考虑。以家庭为单位,同一个村庄内的控制组家庭更可能知道实验,可能会对调研人员产生敌视,也不利于收集控制组的相关数据。
如果有多个干预措施,可以并列实施(表1)或交互实施(表2)。
其中,T1 /T2 为干预措施,N 和M 表示样本量。并列实施指的是各干预措施独立作用于样本,而交互实施指的是两个维度的干预措施交互作用于样本。交互实施有两个优点: 一是能够用来探讨不同干预措施之间的交互作用,二是可以样本共用,节约样本量。在探讨T1的影响时,控制组和干预组的样本量分别是M1+M2+M3和M4+M5+M6;同理,在探讨T2 的影响时,控制组以及干预组1 和2样本量分别是M1+M4,M2+M5和M3+M6。
6.收集实验数据
实验数据收集包括干预前数据收集和干预后数据收集。干预前数据的收集可以通过基线问卷调查进行,但做一轮基线问卷可能会极大地增加成本。通过后期问卷来回顾,可以用于对干预前的客观信息收集。此外,合作机构出于业务等需求收集的行政性数据也是干预前数据的重要来源。比如,陆方文等探讨学生座位干预对学习成绩的影响,基线成绩来自学校数据,而关于学生家庭的信息则来自后期问卷的回顾( Lu and Anderson,2015) 。
干预后数据收集方法日益多元化。问卷是最经常的方式,此外还有实地检测以及各种经济学游戏。在收集干预后数据过程中,控制组和干预组必须使用完全相同的数据收集方式。比如,Olken ( 2007) 在关于印度尼西亚修路的研究中,其中有一个维度的干预措施是预先告知加强审计。因为干预后数据也是从审计中得来,控制组的数据必须是在同种方式下收集。
7.实验中的道德问题
科学实验要遵守一定的伦理道德准则,实地实验也不例外。(1)不能给实验对象带来直接伤害;(2)避免给社会带来可能的伤害;(3)不可以欺骗,除了审计实验法有例外规定(陆方文,2014);(4)实验对象可以随时退出,不可以强制。
三、随机实地实验的局限和对策
第一,实验可能改变行为,从而直接影响实验结果的内部有效性。比如,“霍桑效应”。实验前的基线问卷调查有可能影响实验结果,因为基线问卷的调查人员通常会非常有礼貌地询问对方的问题并倾听回答,从而建立起信任,而信任会影响后续的行为(Zwane et al,2011)。对于这一问题,一方面要尽量地模拟现实当中操作的情况,另一方面可以设定干预措施去捕获这一效果(Lu et al,2016)。
第二,实地实验在探讨局部均衡效应上具有优势,但在捕捉一般均衡效应问题上有些捉襟见肘。随机实验通常是小规模实验,捕捉的往往是局部均衡效应(Angrist et al ,2002)。关于一般均衡的问题,并非实验方法所特有,很多实证分析都存在类似的问题(Finkelstein,2007)。实验能否探讨一般均衡效应,主要取决于实验措施的干预范围和结果变量的观测范围。Crepon等(2013) 探讨就业帮扶对就业的影响,为我们提供了一个探讨一般均衡的实验范例。
第三,实验结果的外部有效性问题。外部有效性问题,首先表现在实验结果有从一个人群推广到另一个人群的问题。克服此问题的一个方法是,尽可能在更大范围上更具代表性的人群中做实验。此外,收集可能影响实验效果的背景变量,做差异性分析,也能增强实验结果解释的广度。在小规模实验向大规模政府政策推广时,外部有效性问题还涉及研究人员实施和公职人员推广的差异问题(Olken,2007)。
总体上看,随机实地实验方法的这些局限很大程度上也是实验方法、甚至整个实证分析方法的局限。即便存在这些局限,相较其他的实证分析,随机实地实验具有可信性和创新性的双重优势,这也是其能够被越来越多的经济学家重视的缘故。
主要参考文献
1.陆方文,2014,《经济学中的审计实验法研究》,《教学与研究》第4 期。
2.罗俊等,2015,《走向真实世界的实验经济学——田野实验研究综述》,《经济学( 季刊) 》第2 期。
3.张生玲、周晔馨, 2012,《资源环境问题的实验经济学研究评述》,《经济学动态》第9 期。
4.Angrist,J.,E.et al, 2002.“Vouchers for Private Schooling in Colombia:Evidence from a R and omized Natural Experiment.”American Economic Review 92(5):1535-1558.
5.Atkin,D.,A.et al, 2017,“Exporting and Firm Performance: Evidence from a Randomized Experiment.”Quarterly Journal of Economics 132(2): 551-615.
6.Baird,S.,J.et al, 2016,“Wormsat Work: Long-run Impacts of a Child Health Investment.”Quarterly Journal of Economics 131(4):1637-1680.
7.Baird,S.,C. McInto,and B. Ozler. 2011.“Cashor Condition: Evidence from a Randomized Cash Transfer Program.”Quarterly Journal of Economics 126(4):1709-1753.
8.Lu,F.,and M.Anderson,2015,“Peer Effects in Microenvironments:The Benefits of Homogeneous Classroom Groups.”Journal of Labor Economics 33(1) : 91-122.
9.Lu,F.,J.Zhang, and J.Perloff.2016.“Generaland Specific Information in Deterring Traffic Violations: Evidence from a Randomized Experiment.”Journal of Economic Behavior & Organization123( 2) : 97-107.