专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

面向因果效应估计的耦合生成对抗模型

数据派THU · 公众号 · 大数据 · 2024-10-01 17:00

正文

请到「今天看啥」查看全文

本文约4000字，建议阅读9分钟
本文聚焦因果推断领域中尚处于早期研究阶段的选择偏差问题。

1. 背景

营销的价值一直是一个困扰广告主的问题：广告费到底花的值不值？如果不投广告，我的店铺生意会有什么样的变化？在淘系场景中广告流量与自然流量共存的场景下，广告是否会挤占自然流量？这些问题归根结底是，广告主无法有效验证平行宇宙中的另一种对照行为。在淘系竞争的场景下，该问题归结为因果推断中的干预价值问题，主要体现为以下两点：

如果竞得了本次曝光机会，是否有增量价值，引导消费者来店成交
如果放弃参竞本次曝光机会，是否有减量价值，导致消费者去竞店成交，而损失生意机会

以上两个问题都是电商场景中直接影响广告主生意增长的核心，但是在目前广告领域普遍采用last-click归因的逻辑下，很难刻画非末次曝光/点击的价值，可能导致广告主预算的浪费，损害广告主的生意，给平台的流量分配效率也带来很大折损。因此我们希望 通过因果推断技术刻画广告投放带来的店铺增量价值 ，并以此作为营销费用分配的核心锚点，实现广告主生意的良性增长以及平台生态的共赢。

在应用过程中，我们利用因果推断技术估计广告曝光对不同人群的条件因果效应，然后根据估计的条件因果效应进行广告投放策略的制定。通常，我们使用广告投放的效果数据作为观测数据对因果效应进行估计。然而，使用观测数据会受到 选择偏差 的影响，即个体是否在观测数据中出现并非随机，而是受到各种变量（如广告引擎中的排序机制）的影响。选择偏差会给因果效应估计带来如下危害：

分布偏移问题： 观测样本分布并不具备对目标人群的潜在数据分布的代表性，导致利用观测数据估计得到的因果效应不能泛化到目标人群上。
不可识别问题： 选择偏差引入了额外的虚假相关性，导致因果推断的可识别性条件不能满足，无法识别未观测数据的因果效应。

在现实场景中，我们可以通过诸如在感兴趣的目标人群上进行 强制干预广告 是否曝光 等方式获取目标人群的代表性 试验数据 ，这部分数据能够反映真实的目标人群分布，是不存在选择偏差的。然而，由于这样的数据收集方式成本较高，导致其样本量相比大规模的 观测数据 来说非常稀少，直接使用这样小批量的试验数据进行因果效应估计往往会遭遇过拟合等问题，导致估计结果并不鲁棒。 为了有效利用大规模具有选择偏差的观测数据集和小规模的无偏试验数据集，实现间距无偏性和鲁棒性的因果效应估计 ，在本文中，我们从分布外泛化（Out-of-Distribution，简称OOD）的视角重新审视选择偏差问题，并提出了一种结合试验数据和观测数据的耦合生成对抗模型。

论文：ICML'24 | A Generative Approach for Treatment Effect Estimation under Collider Bias: From an Out-of-Distribution Perspective

作者：Baohong Li, Haoxuan Li, Anpeng Wu, Minqin Zhu, Shiyuan Peng, Qingyu Cao, Kun Kuang

下载：https://openreview.net/pdf?id=kUj9b2CezT

2. 从OOD视角看待选择偏差问题

在本文中，我们将选择偏差重新审视为一个OOD问题：将整个目标人群的潜在数据空间视为由和两个不同的环境组成，其中从目标人群中非随机选取的观测数据都来自可见的环境，而没有被选取的未观测数据来自不可见的环境。基于上述OOD角度，小批量试验数据可以被视为来自整体数据空间，但是由于试验数据中都是受到干预后的结果，无法知道在不干预的情况下样本属于哪个空间， 因此这部分数据作为缺失了环境标签 的辅助数据集，如下图所示。

在OOD视角下，我们的目标是估计出整个目标人群的数据分布，而目前已有的两个数据集，与目标人群数据分布相比，分别存在以下问题：

观测数据集：数据的样本缺失。
试验数据集：环境标签缺失。

因此，我们提出了一种结合了试验数据和观测数据的耦合生成对抗模型。该模型由两个生成器和两个判别器构成，其中两个生成器分别用于生成观测数据中缺失的样本和试验数据中缺失的标签，两个判别器则分别用于判别真实的数据分布和打上了标签的数据分布、打上了标签的数据分布和生成的样本之间的差异。

通过上述生成对抗模型设计，同时增加对两组数据集分布距离的约束训练生成对抗模型。模型生成的未观测样本与原本的观察数据结合起来，就能构成没有选择偏差的无偏数据集。基于该无偏数据集，我们就可以用已有的因果推断算法实现无偏的因果效应估计。

3. 结合试验数据和观测数据的耦合生成对抗模型

在本节中，我们将详细介绍结合试验数据和观测数据的耦合生成对抗模型的实现方式。

3.1 基础框架

的基本设计思想来自生成对抗模型架构[1]。主要由如下两个部分构成：

两个生成器： 样本生成器和标签生成器
两个判别器： 数据判别器和数据判别器

3.2 判别器优化

基于生成对抗模型的思想，为了优化上述两组生成器和判别器，我们需要最大化生成器生成的数据“欺骗”判别器的能力，即优化两组生成器参数，使得两组判别器的判别误差最大化；同时我们还要最大化判别器正确分辨数据来源的能力以确保其对生成器的约束足够强，即优化两组判别器参数，使得两组判别器的判别误差最小化：

在训练过程中，我们同时优化上述两组生成器和判别器。具体来说，我们首先固定生成器的参数，优化两个判别器，损失函数为：

其中，是用于优化数据判别器的损失函数，是用于优化数据判别器的损失函数，表示期望；分别表示协变量、处理变量、结果变量和随机噪声；表示该期望计算时所用来自于观测数据集, 表示该期望计算时所用来自于目标人群数据集，表示该期望计算时所用从标准高斯分布中随机生成。然后，我们固定判别器的参数，优化两个生成器，损失函数为：

其中，是用于优化样本生成器的损失函数，是用于优化标签生成器的损失函数。

为了保证由样本生成器生成的样本和原本的观察数据集样本的并集的的边缘分布与目标人群数据中一致，我们要求，其中是样本生成器生成的样本个数，是观察数据集中的样本个数，是试验数据集中被标签生成器打上标签的样本个数，是试验数据集中被标签生成器打上标签的样本个数。为了进一步约束上述并集的联合概率分布符合目标人群数据的联合概率分布，我们在优化过程中还引入一个衡量该并集和试验数据集之间的分布差异的积分概率度量的约束项。

在优化好后，我们就可以生成大量的无偏样本，使用已有的因果推断方法，实现无偏鲁棒的因果效应估计。

4. 实验结果

为了评估使用生成的无偏样本进行因果推断的表现，我们在因果推断领域的三个常用公开数据集上，将应用于三个常用的因果推断方法[2,3,4]，与仅使用了观察数据集或试验数据集进行因果效应估计的结果进行比较。为了衡量因果效应估计结果的准确性，我们采用因果推断中常用的误差指标——异质因果效应估计准确度量PEHE来进行度量，其计算方式如下：

其中表示处理变量取值为时因果推断模型估计结果值，表示处理变量取值为时的真实结果值。具体结果如下表所示。

可以看到，使用了生成样本进行因果推断的结果相比仅使用观察数据集或试验数据集的结果的偏差值要显著下降，证明了我们所提方法的有效性。

我们还输出了生成数据、实验数据和观察数据的可视化分布图，如下图所示。

‍

可以看到，原始的观察数据集分布（绿色散点表示）相比试验数据集分布（蓝色散点表示）明显向图中上方偏移，而在与生成数据（黄色散点表示）结合后，两者的数据分布于实验数据集分布基本一致，证明了我们生成数据和观测数据结合确实能够得到符合目标人群分布的无偏数据。

5. 结论与展望

本文聚焦因果推断领域中尚处于早期研究阶段的选择偏差问题。我们从分布外泛化的角度出发，提出了将无偏的试验数据和有偏的观察数据相结合的耦合生成对抗模型。该模型基于生成对抗的思想，通过组合优化两个生成器和两个判别器，实现了大量无偏样本的高效生成。将模型生成的样本与观测数据相结合，我们可以将其作为无偏训练数据集来训练任意已有的增量价值估计器，实现无偏、稳定的增量价值估计。在应用方面，我们基于阿里妈妈广告系统搭建了完善的面向广告增量价值的投放链路，正在进行大规模的实验。

▐ 引用

[1] Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. C., and Bengio, Y. Generative adversarial nets. Advances in Neural Information Processing Systems, pp. 2672-2680, 2014.

[2] Johansson, F., Shalit, U., and Sontag, D. Learning representations for counterfactual inference. In International Conference on Machine Learning, volume 48, pp. 3020–3029. PMLR, 2016.

[3] Shalit, U., Johansson, F. D., and Sontag, D. Estimating individual treatment effect: generalization bounds and algorithms. In International Conference on Machine Learning, volume 70, pp. 3076–3085. PMLR, 2017.

[4] Hassanpour, N. and Greiner, R. Learning disentangled representations for counterfactual regression. In International Conference on Learning Representations, 2020.

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号： 数据派THU

今日头条： 数据派THU