本推文基于 Tymon Sloczynski 的研究,对当处理效应异质时,OLS 估计量的含义进行了提炼与分析。作者 Sloczynski 深入地解释了OLS 估计量实质上是两个参数的凸组合,这两个参数可以被解释为干预组的平均处理效应 (ATT) 与对照组的平均处理效应 (ATU)。在特定条件下,这两个参数的加权平均与每个组别的观测值在总体里的占比反向相关,导致用 OLS 估计量来解释 ATE 或 ATT 时产生偏误。此外,文中还探讨了异质性导致的偏误的来源,并进行了 Stata 实例分析。
OLS 估计量实质上是两个参数的凸组合,这两个参数可以被解释为干预组的平均处理效应 (ATT) 与对照组的平均处理效应 (ATU)。
在特定条件下,这两个参数的加权平均与每个组别的观测值在总体里的占比反向相关,导致用 OLS 估计量来解释 ATE 或 ATT 时产生偏误。
异质性导致的偏误来源于ATT与ATU的差异,以及它们在OLS估计中的权重与各自在总体中的占比反向相关。
通过 Stata 进行实例分析,展示了 OLS 估计量在异质性处理效应下的偏差,以及如何使用 hettreatreg 命令进行更为准确的估计。
Tymon Sloczynski 的研究为控制效应异质时的 OLS 估计量提供了新的解释,对实证分析有着重要的指导意义。
👇 连享会 · 推文导航 |
www.lianxh.cn
🍓 课程推荐:
连享会:2025 寒假班
嘉宾:连玉君(初级|高级);杨海生(前沿)
时间:2025 年 1 月 13-24 日
咨询:王老师 18903405450(微信)
作者
:林旭姿 (中山大学)
E-mail:
[email protected]
温馨提示:
文中链接在微信中无法生效。请点击底部
「阅读原文」
。或直接长按/扫描如下二维码,直达原文:
Source:
Słoczyński, Tymon. 2020. “Interpreting OLS Estimands When Treatment Effects Are Heterogeneous: Smaller Groups Get Larger Weights.” 2021 Stata Conference 11, Stata Users Group. The Review of Economics and Statistics, 1–27.
-PDF-
目录
1. 引言
2. 研究背景介绍
3. 理论部分
3.1 引例:NSW 项目对于收入的影响
3.2 OLS 加权平均数的说明
3.3 因果关系的说明
3.4 OLS 加权平均数的的推广
4. Stata 实例
4.1 hettreatreg 命令简介
4.2 结果复现
5. 结论
6. 参考文献
7. 相关推文
1. 引言
本推文基于 Tymon Sloczynski 于 2019 年发表的文章,对其进行了核心思想与研究方法的提炼与分析。作者 Sloczynski 深入地解释了当处理效应异质时,OLS 估计量
的含义,并得出了如下结论:
OLS 估计量
实质上是两个参数的凸组合 (convex combination) 。在特定条件下,这两个参数可以被解释为干预组的平均处理效应 (ATT) 与对照组的平均处理效应 (ATU) 。
是这两个参数的加权平均,其各自权重分别与每个组别的观测值在总体里的占比反向相关。即,当越多的个体被干预,ATT 系数的权重就越小。
2. 研究背景介绍
现有的研究主要是在保持控制变量 x 的向量不变的情况下,使用线性模型研究二元变量 (干预) 在结果的期望值上的效应。尽管存在着大量半参数或者非参数影响着平均处理效应,大量的研究人员还是坚持使用传统回归方法来进行分析。特别的,许多文献使用了最小二乘法 (OLS) 来估计
其中,
代表结果,
代表干预,
则为决策变量的行向量,即 (
) 。通常来说,
被解释为平均处理效应 (ATE) 。
然而,已有大量文献强调了处理效应异质时对于 OLS 估计的影响。由于在处理效应异质情况下,由 OLS 估计出的两个组别中的平均效应系数的权重是与每个组别中观测值在总体里的占比反向相关的。这时候,当越多的个体被干预时,相比于其观测值在总体中的占比,ATT 系数的权重就越小。
若干预组和对照组观测值的占比存在差异,两个组别中权重赋予的差异 (即各自赋予的权重并不等于两组观测值在总体中的占比) 则会使得 OLS 估计值
偏离 ATE 的估计。因此当处理效应异质时仍然坚持使用形如模型 (1) 的 OLS 估计是不合适的。换言之,只有在干预组和对照组的观测值占比相近时,才能利用 OLS 法给出 ATE 的近似估计。
3. 理论部分
3.1 引例:NSW 项目对于收入的影响
NSW 项目 (National Supported Work Demonstration) ,即美国国家支持工作示范项目,是一个暂时性的工作提供项目,旨在帮助缺乏基本工作技能的残疾人士进入劳动力市场,并且能够为残疾人士提供工作机会与庇护场所。与其他支持性项目不同的是,NSW 项目随机抽取申请者为其提供工作机会与培训,因此被选中的残疾人士(干预组)便能享受到 NSW 项目带来的全部福利,而那些未被选中的申请者 (对照组)只能自行谋生。
然而,在该项目中,其处理效应却存在着异质性:对于参与了 NSW 项目的劳工 (干预组) 来说,分配给他们的工作往往是不同的。例如,有的人被分配到了加油站工作,有的人被分配到了打印店工作。特别的,男性与女性被分配到的工作往往十分不同:女性往往被分配到服务业,而男性总是被分配到制造业。在由于分配导致的处理效应异质的情况下,本推文将在之后的小节利用 NSW-CPS 的数据,分析该项目对于劳工收入的影响。
3.2 OLS 加权平均数的说明
如果用
来
表
示
线
性
估
计
,
为
了
估
计
d
和
X$,我们可以得到:
并且,我们的关注点在于该式中的
。
我们令
以此来表示“控制”的非条件概率。然后再定义一个倾向得分:
该线性模型是真实倾向得分的最好的线性估计。
然而,由于模型 (2) 中可能包含幂次项或者交叉项,我们可以把模型 (2) 看作是部分线性的。
在定义了
后,考虑到干预组 (
) 和对照组 (
) 的的差别,分别定义
对于
的线性估计:
与
值得注意的是,模型 (4) (5) (6) 是被定义出来的,它们能够保证最终推导结果的存在性与唯一性。
为了进行进一步的推导,我们还需要进行如下假设:
假设 1.
假设 2.
与
非零。
其中,
为条件方差,与
有关。
假设 1 确保了模型 (2) 与 (4) 中线性估计的存在性与唯一性。相似的,假设 2 确保了模型 (5) 与 (6) 中线性估计的存在性与唯一性。
在以上假设的基础上,我们可以将
的平均部分线性效应定义为:
对于第
组 (
) 的
,我们同样可以定义其平均部分线性效应:
基于假设 1 和假设 2 而得出的以上估计量是具有“因果解释的”,我们将在下一节进行详细的论证。
在假设 1 与假设 2 的基础上,基于一系列的数学推导 (本推文省略了证明过程,有兴趣的读者可以下载作者原文深入学习) ,我们可以得出以下具有普遍性的结论:
结论 1.
(OLS 加权平均数的说明)
基于假设 1 与假设 2,
其中,
从结论 1 可以看出 OLS 估计量
是
和
的凸组合。通过对于
的定义,我们可以很容易的解出
:
第二步:对于干预组 (
) 与对照组 (
) ,通过模型 (8) ,分别获得
对于
的线性估计,由此得到
与
。
其中,
的权重,即
,随着
与
的增大而减小;
的权重,即
,随着
与
的增大而增大。本推文省略了其证明过程,感兴趣的读者可以下载原文自行学习。
与
间的权重关系揭示了这样一个结论:当第
组所包含的个体越多,赋予
(即该组的效应) 的权重就越少。很显然的,这个结果将导致 OLS 估计出的 APLE 存在偏差,因为
。
3.3 因果关系的说明
尽管结论 1 在假设 1 与假设 2 的条件下具有普遍性,我们仍然不能保证
与
能够解释因果关系。为解释因果关系,我们首先需要定义两个潜在结果,即
与
,在任意个体中只有一个结果能够被观测到。而 ATE,ATT 与 ATU 则分别被定义为
,
,
。为了解释因果关系,我们还需要如下假设:
假设 3.
假设 4.
假设 3 和假设 4 保证
能够解释因果关系。其中,假设 4 的充分非必要条件是,
的条件均值关于
应当是线性的,且
与
关于真实倾向得分
也应当是线性的。
因此,基于以上两个假设与结论 1,我们可以得到如下推论。
推论 1.
(OLS 因果关系的说明)
基于假设 1,2,3 和 4,有
这个推论是易于证明的。由于假设 3 表明
,假设 4 表明
,因此我们可以得出
。
推论 1 揭示了,在假设 1,2,3 和 4 的前提下,从结论 1 中得到的 OLS 权重
是能够适用于
与
的。因此,
是能够解释因果关系的。当被干预的个体在总体里的占比越多,
的 OLS 权重就越小。再次强调,这个结果将导致 OLS 估计出的 ATE 存在偏差,因为
。
回想我们最初使用模型 (1) 以及 OLS 的动机,是因为
对于
与
的线性估计是对于给定
和
的情况下对于
的最好的线性估计。然而,如果我们的目标是进行因果推断,那么我们就不应当出于这个动机而使用 OLS 估计,这并不是一个好办法。最小二乘法对于预测实际结果是十分“好”的,尽管如此,因果推断则是为了预测缺失的结果 (missing outcomes),其被定义为
。换句话说,OLS 权重对于预测“是什么”是最优的,而我们的关注点在于,当干预的分配存在差异时,将会“发生什么”。
直觉告诉我们,如果我们想在保证普遍性的情况下预测“是什么”,第 1 组
包括的个体数量就应当远大于第 0 组
,我们更乐意将较大的权重赋予给第 1 组的线性估计系数 (
和
) ,这是因为这些系数能够被用于预测该组的实际结果。实际上,结论 1 同样表明了
从上式可以得出,当第 1 组变“大”时,
的权重
也会相应变大。
然而,如果第 1 组变“大”了,而我们的目标是想要预测“未能观测到的结果”,我们就需要赋予
以及
更大的权重,这是因为这两个系数能够用于预测第 1 组的反事实的结果。当
和
的条件均值关于
是线性的时候,我们可以写出如下式子:
其中,
和
是分别在
和
情况下估计出来的
的系数。等式(9)(10)重申了推论 1 的观点,即
与
有着十分相似的结构,但他们存在实质上的不同:即参数权重的分配。实际上,当第 1 组变“大”时,
的权重
会变小。这与我们从 OLS 看到的结果是相反的。
3.4 OLS 加权平均数的的推广
在这一小节,我们将会把将
与
以及
与
间的差异分解为以下几个元素的估计:
在假设 3 与假设 4 的基础上,我们将在如下内容探讨异质性导致的偏误的来源。
推论 2.
在假设 1 与假设 2 的基础上,有
其中,
。同样,在假设 1,2,3 和 4 下,我们可以得到
推论 3.
在假设 1 与假设 2 的基础上,有
同样,在假设 1,2,3 和 4 下,我们可以得到
利用简单的代数学即可完成推论 2 与推论 3 的证明,感兴趣的读者可以自行推导。
以上两个推论表明,不管我们关注的是
还是
,异质性导致的偏误就相当于
与
间差异(即
)的衡量。不过,在假设 1 与假设 2 的基础上,
总为正,而
却有可能为负。尽管如此,
与
的绝对值却总是介于 0 与 1 之间。因此,
与
能够被用来解释异质性偏离 (即
) 的“程度”。这时候,在使用 OLS 估计模型 (1) 时,报告出
与
这两个参数对于分析便十分有帮助。
假设 5.
有了假设 5,
与
的计算便能大大被简化。若用
与
来表示
与
的值,我们可以写出
,
。因此,若想获得
与