专栏名称: 连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。

Stata：合成控制法的预测区间-scpi

连享会 · 公众号 · · 2025-01-19 22:00

正文

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata： Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题： SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果： DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：连享会：2025 寒假前沿班
嘉宾：杨海生，中山大学
时间：2025 年 1 月 13-24 日
咨询：王老师 18903405450（微信）

1. 简介
2. 理论背景

2.1 设定
2.2 一般框架
2.3 预测区间

3. Stata实操

3.1 准备工作
3.2 命令介绍
3.3 具体应用

4. 总结
5. 相关推文

1. 简介

合成控制法 (Synthetic Control Methods，SCM) 是一种使用未受干预个体 (控制组) 的加权平均值，来近似在没有干预的情况下受干预个体 (处理组) 的反事实替身，以此来估计处理效应。合成控制法的实现通常涉及两个主要的估计步骤：

首先，通过回归方法 (通常是有约束的)，仅使用干预前数据将 treated unit(s) 与 control units 匹配；
其次，通过将干预前的匹配权重与干预后的 control units 相结合，获得 treated unit(s) 的反事实结果的预测。

因此，合成控制法提供了干预政策实施后，treated unit(s) (因果) 处理效应的预测或点估计。本文拓展了合成控制法的不确定性量化，提出了 SC 框架下的条件预测区间：将潜在的结果变量作为随机变量，并采用有限样本概率集中的方法，为 treated unit(s) 在干预后的反事实结果制定预测区间，从而提供了一种评估统计不确定性的 (有条件的) 替代推断方法。

2. 理论背景

本文提出的方法是通过 (有条件的) 预测区间来量化不确定性，因为在 SC 框架中，处理效应估计量基于干预前数据构建的 SC 估计权重，是从样本外预测问题中出现的随机变量。该方法推断出的不是通常意义上的置信区间 (即为感兴趣的非随机参数在参数空间中给出一个区域)，而是一个描述在随机变量的支持下可能观察到的新实现的区域的区间。

SC 预测的统计不确定性由两个不同的随机性来源控制：一个是样本内不确定性——由于干预前期 SC 权重的构造 (可能被错误指定)；另一个是样本外不确定性——由于干预后对处理效应分析时不可观测的随机误差。

因此，本文建议的预测区间是在考虑两个随机性来源的情况下构建的：

对于不确定性的第一个来源，提出了一种基于模拟的方法，该方法通过非渐近概率集中来证明其合理性，从而享有概率保证。该方法考虑了 SC 权重的具体构造。
对于第二个不确定性来源，即由于干预后的不可观测误差而导致的样本外预测，讨论了几种基于非参数概率近似和参数概率近似的方法作为原则灵敏度分析的框架。第二个不确定性源较难以非参数方式处理，因此应谨慎考虑其对总体预测区间的影响，文中的方法是采用不可知性敏感性分析。

2.1 设定

考虑具有单个 treated unit 和多个 control units 的标准合成控制框架，允许平稳和非平稳数据。数据可能只包括感兴趣的结果变量，或者包括感兴趣的结果变量加上其他变量。研究观测的是时期内 ( ) 个个体 ( )。

在前时期内，所有的个体都没有接受干预。从期开始，个体 1 ( ) 接受干预而其他个体仍然保持不接受干预，此后个体是否接受干预状态保持不变，直到观测期结束。

每一个个体在时期都有两种潜在的结果：接受干预的结果和未接受干预的结果。即，设定包含两个隐形假设：无溢出 (个体的潜在结果只取决于其是否接受干预) 和无预期 ( 时期的潜在结果只取决于同时期是否接受干预)。我们关注的处理效应是接受干预的个体的结果与在不接受干预的情况下该个体应该出现的结果之间的差异，即：

根据所考虑的框架，可以是随机或非随机的。在本文中，将视为随机变量。对于每个个体，我们只能观测到与实际干预状态相对应的潜在结果，定义为实际观测到的结果：

这意味着在中，treated unit 的潜在结果对于所有的是无法观测到的。合成控制法的思想是将控制组干预后观察结果进行适当组合，以接近处理组的反事实干预后结果：。

在 SC 框架中，选择一组权重使给定的损失函数在约束条件下最小化。给定一组估计权重，在时，处理组的反事实预测结果为。加权平均为被处理个体的合成控制，因为它代表了如何将未干预的个体组合起来，为干预后的个体提供最佳的反事实。

当数据只包含与感兴趣结果有关的信息时，选择使未干预个体结果的加权平均值与干预前一段时间内 treated unit 的结果轨迹很接近。也就是说，权重的选择满足：

其中，符号的含义因所考虑的具体框架而异。一个主要例子的约束权重为非负且和为 1，并通过约束最小二乘估计：

其中表示截距，和表示相应的约束集 (或可行性集)。

然而，SC 方法的这种只考虑结果的方式，不能保证所得到的合成控制个体将在除 (干预前) 结果之外的任何特征上与 treated unit 相似。在实证中往往还会获得其他特征，因此我们还希望确保合成控制在这些其他特征方面与 treated unit 接近。

SC 框架可以通过为这些额外的特性包含额外的方程来处理这种情况，并将综合损失最小化。在这种情况下，让定义为将被匹配产生权重的变量下标，上述最小化问题可推广为：

其中和是正常数，反映了不同方程和周期的相对重要性。

2.2 一般框架

现在讨论一个包含上述两个特殊例子的一般框架，并允许以统一的方式进行协变量调整和非平稳数据。

考虑为 treated unit 的 M 个特征同时构造的合成控制权重，用表示，其中。对于每一个特征，都存在个变量，可以用来预测或匹配维向量。这些个变量被分为两组，分别为和。

更准确的说，对于每一个，对应于在干预前期间内观测到的第个个体的第个特征；对于每一个，是另一个控制变量向量，也可能用于预测同一干预前时间跨度内的。为了方便，设。

合成控制法的目标是在 M 个特征上搜寻一个公共权重向量和一个系数向量，使得和的线性组合在所有的情况下尽可能匹配，设目标通常通过以下优化问题来实现：

其中，

可行性集和捕捉了施加的限制。该框架包含了文献中多种先前的合成控制的形式，它们的不同之处在于是否包含额外的协变量，是否假设数据是平稳的，以及使用的约束集和的特定选择，以及其他可能性。

为了进一步理解本文的推断方法，定义相对于一个域的伪真值和：

因此，

其中，是相对于域的伪真值残差。也就是说，和是与条件下 (可能受约束的) 最佳线性预测系数和相关的均方误差估计。

给定估计权重和系数， treated unit 干预后反事实结果为：

其中，是在时间上观察到的 control units 的预测因子向量，是在时间上观测到的另一组用户指定的预测因子。包含在和中的变量不需要与和中的变量相同，但必须是域上的一部分。分解 treated unit 的潜在结果：

其中由结构定义。本文假设和可能是和分别集中在概率周围的随机元素，所以称它们为伪真值。处理组的估计处理效应与目标群体的距离为：

在合成控制框架内，将感兴趣的变量视为一个随机变量，不称其为“参数”，称为的预测，而不是其“估计量”，并着重建立预测区间而不是置信区间，以此表征的不确定性。

2.3 预测区间

其中，是由于错误设定以及干预后阶段 ( ) 中出现的任何额外噪声造成的样本外误差，是来自合成控制权重估计的样本内误差。本文的目标是分别找到这两项的概率边界，从而给出不确定性量化。

本文使用以下引理来构造有效的条件预测区间。假设存在和，可能取决于和条件域，使得满足以下条件：

那么，

该引理提供了一种简单的方法来构造具有有效的条件预测区间，且：

一旦为构建了条件下有效的预测区间，treated unit 在干预后时期的反事实结果的类似预测区间