专栏名称: 计量经济圈

记录一个我们生活在其中的时代社会，囊括的主题如下：经济、社会、世界和计量工具。

调节变量, 交互, 中间机制变量和控制变量啥区别与联系? 说清楚它

计量经济圈 · 公众号 · · 2024-05-09 23:58

正文

凡是搞计量经济的，都关注这个号了

邮箱： [email protected]

所有计量经济圈方法论 丛的code程序 , 宏微观 数据库和各种软 件都放在社群里.欢迎到计量经济圈社群交流访问 .

在撰写具有深度的文章时，机制分析是不可或缺的工具。它不仅帮助我们回答了“为什么”（Why?）的问题，还让我们理解了现象背后的深层原因。这种“知其然，知其所以然”的探究方式，能够显著提升文章的分析深度。

    
     然而，要想有效地开展机制分析，首先需要清晰地理解中介变量（Mediator）、调节变量（Moderator）以及协变量（Covariates）等概念及其逻辑关系。这些是进行机制分析的理论基石。

    
     对于那些对图论感兴趣的研究者，我们推荐阅读《
    
       用"因果关系图"来进行因果推断的新技能
      
     》。这篇文章介绍了如何利用因果关系图来进行因果推断，这是一项新兴的技能，对于深入理解复杂因果关系特别有帮助。

    
     此外，如果想要更全面地掌握机制分析，包括中介渠道检验和调节效应分析，我建议深入阅读《
    
       机制分析，中介渠道，调节效应必读系列合集
      
     》。这份合集整理了一系列关于机制分析的重要文章，它们不仅提供了实证研究中常用的方法解决路径，还涵盖了从基础到高级的多个层面。

    
     通过这些资料的学习，研究者可以更好地挖掘变量间的相互影响路径，理解它们之间的关系，从而提升研究的质量和深度。

    
     *当然，要进一步学习，可以到计量社群交流讨论前沿计量方法。

    
       需要提醒的是
      
      ，经济学中可能很少直接说中介效应，而是强调影响机制，但实际上都是在验证X通过什么路径影响Y的，只不过用的验证方法在不同学科存在差异。

控制变量 Covariate

可以看看“ 什么是不好的控制变量, 什么又是好的控制变量? ”

控制变量：这些会影响因变量的因素是研究者不愿意看到的，它们的存在会干扰研究者分析自变量对因变量的影响。控制变量又称为“额外变量”，是必须被想办法施加控制或采用统计方法排除干扰的因素。

如果感觉上面那段话太抽象，我下面说个具体的例子解释一下。就像昨天那出戏，我们想知道年轻人生活地点的差异会不会影响结婚年龄，但千人千面，漂亮的讨人喜欢，丑了自然在婚恋市场上行情堪忧。因此将长相列为控制变量，就是排除这各因素的影响，让我们能够聚焦于地点差异对结婚年龄的影响。

科学研究中，我们通常不可能保证控制变量全部相同，而是采取统计方法排除其对因变量的影响。然而在现实生活中，我们很难做到这种“统计排除”。所以，理解控制变量实际上就是让我们分析因果（自变量影响因变量）关系时，留意是否有需要控制的因素没有被控制，如果没有控制，那我们就有理由怀疑这种因果关系。

值得强调的是，并不是除了自变量外所有能影响因变量都是控制变量，中介变量和调节变量都能影响因变量。因此控制变量是一个相对的概念，主要看我们的研究目的或要弄清的问题。比如讲生活地点对结婚年龄的影响，就要控制长相因素，如果我们研究长相对结婚年龄的影响，那长相就是自变量了。

调节变量(moderator)和中介变量(mediator)是两个重要的统计概念,它们都与回归分析有关。相对于人们关注的自变量和因变量而言,调节变量和中介变量都是第三者,经常被人混淆。从文献上看,存在的问题主要有如下几种: (1)术语混用或换用,两个概念不加区分。例如,在描述同一个过程时,既使用调节过程的术语又使用中介过程的术语(2)术语和概念不一致。如研究的是调节过程,却使用中介的术语。(3)术语和统计分析不一致。如使用了中介变量的术语,却没有做相应的统计分析。出现前面的任何一个问题都会使统计结果解释含糊不清,往往导致错误结论。

调节变量

可以看看“ 计量经济学中"交互项"相关的5个问题和回应 ”

如果变量Y与变量X的关系是变量M 的函数,称M 为调节变量。就是说, Y与X 的关系受到第三个变量M 的影响。调节变量可以是定性的(如性别、种族、学校类型等) ,也可以是定量的(如年龄、受教育年限、刺激次数等) ,它影响因变量和自变量之间关系的方向(正或负)和强弱. 例如,学生的学习效果和指导方案的关系,往往受到学生个性的影响:一种指导方案对某类学生很有效,对另一类学生却没有效,从而学生个性是调节变量。又如,学生一般自我概念与某项自我概念(如外貌、体能等)的关系,受到学生对该项自我概念重视程度的影响:很重视外貌的人,长相不好会大大降低其一般自我概念;不重视外貌的人,长相不好对其一般自我概念影响不大,从而对该项自我概念的重视程度是调节变量。

在做调节效应分析时,通常要将自变量和调节变量做中心化变换(即变量减去其均值）。

最简单常用的调节模型,即假设Y与X 有如下关系

Y = aX + bM + cXM + e (1)

可以把上式重新写成

Y = bM + ( a + cM ) X + e

对于固定的M ,这是Y对X 的直线回归。Y与X 的关系由回归系数a + cM 来刻画,它是M 的线性函数, c衡量了调节效应(moderating effect)的大小。

调节效应与交互效应

对模型中调节效应的分析主要是估计和检验c。如果c显著(即H0∶c = 0的假设被拒绝) ,说明M 的调节效应显著。熟悉交互效应( interactioneffect)的读者可以从模型看出, c其实代表了X与M 的交互效应,所以这里的调节效应就是交互效应。这样,调节效应与交互效应从统计分析的角度看可以说是一样的。

然而,调节效应和交互效应这两个概念不完全一样。在交互效应分析中,两个自变量的地位可以是对称的,其中任何一个都可以解释为调节变量;也可以是不对称的,只要其中有一个起到了调节变量的作用,交互效应就存在。这一点从有关讨论交互效应的专著中可以看出(例如,显变量之间的交互效应,潜变量之间的交互效应。但在调节效应中,哪个是自变量,哪个是调节变量,是很明确的,在一个确定的模型中两者不能互换。

例如,要研究数学能力的性别差异,将年级作为调节变量,这个问题关注的是性别差异,以及性别差异是否会随年级而变化。如果从小学一年级到高中三年级都获得了各年级学生有代表性的样本,每个年级各用一份测试题,所得的数据就可以进行上述分析。但同样的数据却不能用于做年级为自变量、数学能力为因变量、性别为调节变量的分析,因为各年级的测试题目不同,得分没有可比性,因而按调节效应的分析方法 ,分别不同性别做数学能力对年级的回归没有意义。要做数学能力对年级的回归,应当用同一份试题测试所有年级的学生。

调节效应分析方法

调节效应分析和交互效应分析大同小异。这里分两大类进行讨论。一类是所涉及的变量(因变量、自变量和调节变量)都是可以直接观测的显变量(observable variable) ,另一类是所涉及的变量中至少有一个是潜变量( latent variable) 。

显变量的调节效应分析方法　调节效应分析方法根据自变量和调节变量的测量级别而定。变量可分为两类, 一类是类别变量( categoricalvariable) ,包括定类和定序变量,另一类是连续变量( continuous variable) ,包括定距和定比变量。定序变量的取值比较多且间隔比较均匀时,也可以近似作为连续变量处理。表1分类列出了显变量调节效应分析方法。

当自变量和调节变量都是类别变量时做方差分析。当自变量和调节变量都是连续变量时,用带有乘积项的回归模型,做层次回归分析: ( 1)做Y对X和M 的回归,得测定系数R21。( 2)做Y对X、M 和XM 的回归得R22 ,若R22 显著高于R21 ,则调节效应显著;或者,做XM 的偏回归系数检验,若显著,则调节效应显著。

当调节变量是类别变量、自变量是连续变量时,做分组回归分析。但当自变量是类别变量、调节变量是连续变量时,不能做分组回归,而是将自变量重新编码成为伪变量( dummy variable) ,用带有乘积项的回归模型,做层次回归分析。

中介变量的定义

可以看看“ 中介效应分析的方法和模型, 一篇听说必须看的文献 ”

考虑自变量X 对因变量Y的影响,如果X 通过影响变量M 来影响Y,则称M 为中介变量。例如,上司的归因研究:下属的表现———上司对下属表现的归因———上司对下属表现的反应,其中的“上司对下属表现的归因”为中介变量。

注意：下面图片及论证的中介效应主要应用于社会学、管理学和心理学等社会科学，但在经济学研究中因经常受到质疑而不被看好。 如果要研究经济学中的机制分析问题，请参看 ： TOP5刊上5种常用机制检验方法及对应文献: 更新

如果一个变量与自变量或因变量相关不大,它不可能成为中介变量,但有可能成为调节变量。理想的调节变量是与自变量和因变量的相关都不大。有的变量,如性别、年龄等,由于不受自变量的影响,自然不能成为中介变量,但许多时候都可以考虑为调节变量。对于给定的自变量和因变量,有的变量做调节变量和中介变量都是合适的,从理论上都可以做出合理的解释。

一般说来，简单的分析该变量是否是中介变量可以用线性回归，但要更严谨的话，就要采用结构方程（结构方程正在学习中，所以我一定要好好学，高人也只是告诉我如何用线性回归来分析数据来证明该变量是否是中介变量）一般分为三步，首先是分别检验每一个变量（包括自变量和第三变量）的主效应是否显著；第二步是将自变量放入回归方程中，检验自变量的效应；第三步，将第三变量也移入回归方程中，检验自变量的效应，若自变量的效应与之前相比大大减少甚至变为零，那么该变量的确就起到了中介的作用。值得注意的一点就是，变量的中介作用必须建立在理论和现实的基础上，正如前所述，自变量必须在现实或理论上可以影响第三变量的变化，否则，即使数据支持该变量有中介效应，该结果也是无效的。

    
      中介变量与调节变量的区分

    
     理解中介变量和调节变量的概念至关重要。

    
      调节变量
     
     ：调节变量是指影响自变量（预测变量）与因变量（准则变量）之间关系方向和/或强度的变量。它可以是定性的（如性别、种族、阶级）或定量的（如奖励水平）。在相关分析中，调节变量改变两个其他变量的零阶相关性。在方差分析（ANOVA）的框架下，调节效应可以表现为焦点自变量与另一个因素之间的交互作用。

    
      中介变量
     
     ：中介变量则是用来解释预测变量与准则变量之间关系的变量。它揭示了外部事件如何具有内在的心理意义。与调节变量不同，中介变量阐明了效应发生的机制或原因。中介效应的检验通常包括三个步骤：首先，检验预测变量与准则变量之间的关系；其次，检验预测变量与中介变量之间的关系；最后，检验中介变量与准则变量之间的关系。在所有这些关系都显著的情况下，当控制了中介变量后，预测变量与准则变量之间的关系应当减弱或消失（在完全中介的情况下）。

    
     以社会阶层（SES）与胸部自我检查（BSE）频率的关系为例，年龄可能作为一个调节变量，因为它可能会增强或减弱SES与BSE频率之间的关系。而教育水平可能作为一个中介变量，解释了为什么SES与BSE频率之间存在联系。一旦考虑了教育的影响，SES与BSE之间的关系可能会显著减弱或消失。

    
     统计学中，调节效应的理解往往比预期更为复杂。为了简化这一过程，以下是三个实用的建议：

1. 理解调节效应与交互作用的关系

    
     在与众多研究者交流的过程中，我发现他们常常对“调节”这一概念感到新奇。他们惊讶地发现，调节实际上只是交互作用的另一种表述。

    
     这种惊讶可能源于调节效应经常在中介效应的讨论中出现，或者因为人们习惯于将交互作用视为方差分析的组成部分，而非回归分析的一部分。

    
     然而，无论是称为交互作用还是调节效应，其核心含义是相同的：即某一预测变量对响应变量的影响会随着第二个预测变量的不同取值而变化。

    
     当我们讨论调节效应时，通常将第一个预测变量称为自变量，而将第二个称为调节变量。换言之，我们关注的焦点是自变量对因变量的影响，这种影响在调节变量的不同取值下会有所不同。而调节变量对因变量的影响并不是我们关注的重点。

    
     在讨论交互作用时，我们通常不会区分哪个是自变量，哪个是调节变量。任何一个预测变量都可以被视为对另一个变量影响的“调节”。

    
     从数学角度来看，两者并无本质区别。你不必强制将一个变量定义为自变量，另一个为调节变量。但这种区分有助于我们更好地理解和解释现象。

2. 利用图形展示均值或预测值

    
     没有图形辅助，调节效应的解释会变得非常困难。直观地观察自变量在调节变量不同取值下的影响，有助于深入理解调节效应的本质。

    
     如果自变量是分类变量，我们通常通过均值的差异来衡量其影响，而这些差异通过图形展示最为直观。

    
     调节效应表明，这些均值差异在调节变量的不同取值下是不一致的。如果不通过图形观察这些差异的模式，就很难理解它们之间的不同。

    
     例如，随着调节变量的增加，均值差异可能会逐渐增大，或者甚至改变其符号。

    
     如果自变量是连续变量，我们则通过回归线的斜率来衡量其影响，因此需要绘制这些回归线的预测值。调节效应意味着回归线的斜率在调节变量的不同取值下也会有所不同。（确实，那个回归方程实际上代表了多条不同的直线，每一条都对应着调节变量的一个特定取值）。

    
     同样，正斜率可能会随着调节变量的增加而增大或减小，或者也可能改变符号，从正值变为负值。

    
     然而，如果没有图形的帮助，这些细微的变化很难被察觉。

    
     如果调节变量本身是连续的，理论上可以选择无数个值来绘制自变量的影响，这不仅耗时，而且会导致图表混乱，难以辨识任何模式。

    
     幸运的是，通常只需选择调节变量的几个代表性值来绘制自变量的影响，就足以揭示其中的模式。

3. 精心选择连续调节变量的取值

    
     在绘制预测值时，有一些通用的规则可以帮助我们确定调节变量的最佳取值。然而，这些规则并非在所有情况下都适用。

    
     例如，科恩和科恩提出了一种广泛采用的方法，即选择三个特定的调节变量值：均值、均值加一个标准差以及均值减一个标准差。这种方法由艾肯和韦斯特进一步推广。

    
     在大多数情况下，遵循这一规则是有益的，并且能够取得良好的效果。

    
     但是，如果调节变量呈现正偏态分布，这种方法可能就不再适用。在这种情况下，均值减去一个标准差可能会得到一个超出数据范围的值。因此，选择数据集中的最小值或其他较小的调节变量值可能更为合适。

    
     同样，有时调节变量的特定取值具有特殊的意义。以教育年限为例，12年和16年通常分别代表完成了高中和大学教育。

    
     如果教育年限是作为调节变量，那么即使均值为12.57年，选择教育年限等于12年时来绘制自变量的影响也是非常有意义的。

这并不是说直接使用12.57年作为调节变量的取值是错误的。但是，花一些时间来思考和选择一个更具有实际意义的值，可以帮助我们更准确地解释数据，从而更有效地向受众传达我们的研究结果。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

7年，计量经济圈近2000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题 ,

Econometrics Circle

调节变量, 交互, 中间机制变量和控制变量啥区别与联系? 说清楚它

正文

1. 理解调节效应与交互作用的关系

2. 利用图形展示均值或预测值

3. 精心选择连续调节变量的取值

请到「今天看啥」查看全文