温馨提示:
文中链接在微信中无法生效。请点击底部
「阅读原文」
。或直接长按/扫描如下二维码,直达原文:
作者:
肖志文 (北京大学)
邮箱:
[email protected]
Source:
Breen, R., Karlson, K. B., & Holm, A. (2018). Interpreting and Understanding Logits, Probits, and Other Nonlinear Probability Models. Annual Review of Sociology, 44(1), 39–54.
Link
,
PDF
,
Google
.
1. 引言:非线性概率模型有哪些问题?
经典的计量教材通常建议我们在遇到结果变量为二值变量时使用 Logit 或 Probit 模型,在结果变量为定序变量时使用有序 Logit 或有序 Probit 模型,在结果变量为多分类变量时使用多分类 Logit 模型。但是,在过去 30 年里,大量研究指出了这些非线性概率模型 (nonlinear probability models,以下简称 NLPM) 存在的问题,而其中最大的困难就是如何理解、比较这些模型的参数。因此,本文将结合具体的研究情境梳理 NLPM 的主要问题,并给出一些解决方法。
产生这些问题的根源就在于,非线性概率模型无法分别对因变量均值和方差进行识别;而在线性模型当中,两者可以很清楚的区分开来。而在实证研究中,这会导致两个问题:
第一,社会科学通常关注
异质性
,例如效应量在男性和女性、城市和乡村、国有企业和非国有企业之间的区别;然而,由于非线性模型的系数同时包括了因变量均值和方差的信息,在分组回归时,
不同组别的效应量是不可以直接进行比较的
。
第二,在
探究因果效应或进行稳健性检验
时,一个常用的做法是不断加入合理的控制变量,观测回归系数是否在数值、方向和显著性上发生明显的变化;在分析
中介效应
时,一个常见的做法也是在基准回归模型中加入中介变量,观察直接效应是否发生显著变化。然而,出于同样的原因,
在同一样本中不断加入变量、改换模型时,不同 (嵌套) 非线性模型的系数也是不可以直接进行比较的
。
2. NLPM 简介
为了进一步厘清这些问题的含义,我们首先对 NLPM 作简要的介绍:NLPM 通常适用于离散的因变量,最常见的包括 Logit 模型和 Probit 模型。理解 NLPMs 有两种视角:
其一,转化视角
:结果变量是离散、分类的,此时观测值发生的概率就可以被表达为一组自变量的非线性方程,这种视角也被称之为转化视角(transformational approach,
Powers and Xie 2008
)。
其二,潜变量视角
:貌似分散的结果变量背后,有着一个潜在的、未能被我们观测的连续变量,我们观测到的只是潜在变量在现实生活中的部分类别。
例如,如果因变量是
是否上大学
。转化视角就会把一个人是否上大学看做一个完全离散的事件;而潜变量视角则会预设每个个体都有上大学的倾向,当倾向超过某一界限时,我们才能观测到这个个体确实上了大学。
接下来,我们先通过潜变量视角来理解 NLPMs 存在的主要问题。在此,我们主要以二值变量回归为例,下文的分析对定序变量和多分类变量同样适用。
2.1 潜变量视角
是连续的潜在结果变量,
是一系列的预测指标。对式 (1) 进行 OLS 回归可以得到
和
;然而,当我们回到现实,我们无法观测到
,只能观测到当
是否超过了某个界限。超过时,
;未超过时,
。
接下来,我们会选择 Logit 或 Probit 模型来拟合
和
之间的关系,当使用 Logit 模型时,我们假设
服从正态分布;而使用 Probit 模型时,我们假设
服从逻辑斯蒂分布。式 (2) 就是我们拟合的方程,
代表 Probit 转化或 Logit 转化。
其中,LPM (linear probability model) 与 NLPM 系数的关系是:
。
这里的
是一个比例因子 (scale factor) ,
。其中,
是潜在线性模型误差项的标准差,无法被观测到;
则是假定分布的标准差 (正态分布为 1;逻辑斯蒂分布为
)。显而易见,在 NLPM 中,回归系数
和残差项方差
不是分开估计的,而是混淆在一起的。因此,在同一个分析样本中不断加入自变量时,由于解释力逐渐增强,误差项方差就会降低,干扰我们对系数的直接比较;在不同样本中使用同一个模型进行分析时,其误差项也是不同的,不便于系数的比较。
2.2 转化视角 (真实的二分视角)
如果我们将因变量看做是离散的,此时并没有明确的误差项,因此我们将误差项的变动看做是遗漏变量带来的影响,用
来表示 (
与
独立) 。
式 (3) 是数据生成过程 (DGP) ;但因为我们无法观测
,所以实际上我们估计的是式 (4) :
在 Probit 模型中,我们可以得到真实效应
和估计系数
的关系是 (Zeger et al. 1988):
在 Logit 模型中也类似:
因此,这两个模型对真实效应
通常有所低估 (分母>1),也就是所谓的
衰减偏差
(attenuation bias),而低估的幅度取决于遗漏变量
的方差及其与
的相关性。换言之,尽管
与
无关,遗漏它们也会导致估计的偏误。而在线性回归中,只有当遗漏与
相关 (且与
相关) 的变量时,才会导致偏误。这也意味着 NLPM 的系数出现了更严重的问题。
而以上的讨论和问题也同样出现在有序 Logit 、有序 Probit 和多分类 Logit 模型当中,
Breen et al. (2014)
and
Breen and Karlson (2013)
给出了详细的介绍。
3. 核心问题:系数之间无法直接比较
3.1 同一样本嵌套模型的系数比较
许多研究都会给出一张“嵌套模型表”。在基准回归中不断加入混淆因素、固定效应、中介变量等等,通过观察回归系数变化的幅度,来判断因果效应是否稳健,或中介效应是否存在。这在线性回归中是非常方便简单的,但在 NLPM 中,这是不可行的。
无论我们采用潜在变量法还是转换法,通常而言 (在新变量有解释力且与已有预测变量相关的情况下),向模型中添加变量会产生两种影响:(1) 残差方差减小;(2) 结果变量与预测变量之间的关系
也会发生变化。在线性模型中,我们可以单独观察到这两种变化;但在 NLPM 中,这两种效应会被混为一谈,我们只能观察到
发生了变化。
例如,我们将是否考上大学 (
college
) 这一二值变量与父母平均教育程度 (
paredu
) 进行 Logit 回归,加入控制变量会减少残差方差,进而降低
,使
paredu
系数变大。即使加入的控制变量与
paredu
无关,也会出现这种情况。而在教育研究中,一个著名的遗漏变量是能力 (
ability
)。假设我们可以观测到个人能力,并将其加入回归方程,可以预期
ability
的加入会降低
paredu
的系数;两者会产生相反的影响。因此,我们观察到的可能不是
paredu
系数的下降,而是没有变化,甚至有所上升。
因此,当引入控制变量时,表面上看,
不会发生太多变化,因果效应貌似非常稳健;但实际上,控制变量的加入本应导致系数下降。这会导致在 NLPM 中
虚假的稳健
。类似的,还可能导致我们
错过真实的中介效应
。
3.2 分组回归中的系数比较
此时会出现同样的不可比问题。例如,当我们研究家庭收入 (
famecon
) 对是否考上大学 (
college
) 的影响时,我们好奇:收入对教育成就的影响,在白人和亚裔之间是否有明显的不同?一般认为,由于受到东亚儒家文化的影响,和相对公平和标准化的高考选拔制度,东亚社会,尤其是中国社会中家庭经济因素对子女学业成就的影响要比美国更弱一些。家庭的文化因素 (寒门家庭也有较高的教育期望) 、来自学校的影响发挥了一定的补充作用。而在比较两组因果效应时,最简单的方法就是比较在
famecon
变化一个单位的情况下,每组学生的学业成就会变化多少,即比较
和
。
然而,我们观察到的任何差异都可能来自于真实的因果效应
的差异或比例因子
的差异。而两组之间的
可能存在很大差距,这种差距是我们无法观测到的。
4. 解决方案
4.1 系数的衰减偏差
在解读 NLPM 系数时,为避免衰减偏误的影响,我们可以采用如下两种方法:
4.1.1
标准化
NLPM 模型中
标准化与 OLS 回归中
标准化方式类似,标准化后的 NLPM 系数将不再受误差项方差的影响,因而避免了如上所述的许多问题。标准化的方式是:
其中,
而我们知道
,
,因此,
的方差是:
因此,分子分母可以同时消除比例因子
:
可以发现,标准化的 NLPM 系数只会受到可估计变量或已知值的影响,不会受到误差项方差的影响,因此可以直接比较。它的解读方式也很简单:当
变化一个单位后,
变化
个标准差。
4.1.2 边际效应
边际效应也可以解决 NLPM 面临的许多问题,且其解释相对直接、简洁。边际效应指的是当
变化一个单位时,
的变化量。在 Logit 模型中,个体边际效应为: