专栏名称: 社会学研究杂志

《社会学研究》官方帐号。本刊系中国社会科学院社会学研究所主办的一级专业学术期刊，在中国四家期刊评价机构的学科排名中均名列第一，被誉为“权威核心期刊”，并于2012——2016年连续五年获评“中国最具国际影响力学术期刊”称号。

结构流动：基于调整—分解的分析策略

社会学研究杂志 · 公众号 · 科研 · 2025-01-04 18:00

正文

胡安宁

复旦大学

社会发展与公共政策学院

社会学系特聘教授

结构流动：基于调整—分解的分析策略

来源 | 《社会学研究》2024年第6期

作者 | 胡安宁

责任编辑 |胡含之

本文系统梳理了结构流动研究在理论支撑、混淆因素控制、概念化、统计模型复杂度以及统计推断等方面的局限，并提出了调整—分解的分析策略。通过综合采用德明—斯蒂芬算法和流动表的三元分解法，这一分析策略直接针对流动表的边际分布构建“反事实”流动表，并以非建模对比的方式呈现结构流动、交换流动以及二者的交互作用。除此之外，潜在的混淆因素可以通过调整的方法予以控制，相关的统计推断可以通过参数分布建模或者自助法来实现。本文通过两个经验示例对这一分析策略进行了呈现。

一、引言

社会流动过程中个体境遇的改变既是因为行动者个人的努力和选择，又与宏观社会环境的变化息息相关。例如，伴随着产业升级和大规模城市化的进程，大量的“农家子弟”成为城市白领，实现代际间的职业阶层跃迁（Bearman & Deane，1992）。同理，高等教育扩招也会给大量家庭带来“第一位大学生”，从而实现代际之间向上的教育流动（Breen，2010）。将社会流动过程中的结构性因素抽离出来单独进行考察的研究需求催生了社会流动研究中的“结构流动—交换流动（structural mobility-exchange mobility）”分析框架（Breen，1985;Cobalti，1988）。基于这一分析框架，一个社会的总体流动情况可以进一步细分为结构流动和交换流动两种类型，前者可以定义为由不同阶层群体的宏观“分布”差异带来的流动，后者则是指在总体流动中“扣除了”结构流动之后所剩余的不同社会阶层位置之间的交换（Sobel et al.，1985）。

“结构流动—交换流动”的二分框架是“二战”以后直至20世纪70年代社会流动问题研究的主流分析框架。但是，自20世纪70年代末以来，社会流动研究的理论兴趣逐渐发生转移，从探究结构流动转向考察以发生比（odds ratio）为测量指标的相对流动（relative mobility）及其变化模式（Breen，1985）。此时，体现结构流动的边际分布只是在考察绝对流动（absolute mobility）时使用。结构流动这一概念逐渐淡出了学者们的视野。

但是，结构流动反映了形塑个体生活境遇变化和流动过程的一个不可忽视的社会性力量，对其进行考察仍然具有重要的理论和现实意义。就学术价值而言，与一般的量化社会学研究类似，当下社会流动研究往往呈现陈云松（2022）所指出的“微观旨趣”的路径依赖，对于结构性的、宏观性的影响因素关注不足。一个具体的表现是，虽然几乎没有学者会否认结构变迁对于社会流动模式的影响，但是鲜有研究在经验层面上具体呈现结构流动的影响力。随着高质量个体数据的不断积累，学者们实际上获得了丰富的信息资源，可以使用多种策略来探究结构流动。在这个意义上，在社会流动研究中使用新的经验分析策略、恢复对结构流动—交换流动的考察是重拾社会学传统的“宏观观照”，对当下的社会流动研究有所补益。就现实价值而言，在转型期的中国社会中，个体先赋地位和自致地位之间的变化体现了诸如“改革红利”“人口红利”等社会宏观结构性变迁（干春晖、郑若谷，2009；魏杰、汪浩，2016；蔡昉，2020）。因此，结构流动研究可以联结宏观社会层面的转型和微观个体资源获取模式的变迁，反映宏观“全局性”政策调整可能达成的社会效果，为理解转型时期中国社会结构变迁的影响提供一个独特的评估路径。因此，如果说相对流动呈现的是针对特定行业或者领域的流动藩篱（高勇，2009），结构流动揭示的则是更为宏大的结构性藩篱（或者机会）。可见，结构流动仍是社会学研究中应当着力考察的一个重要议题。

综上所述，社会流动研究在借鉴国际优秀成果的同时，不应急切地抛弃结构流动的相关议题。然而，既有结构流动的经验分析策略在理论支撑、混淆因素控制、概念化、模型设定以及统计推断等多个方面都存在局限性。因此，为了更好地研究结构流动，本文在系统梳理既有结构流动分析方法的基础上，提出一个调整—分解的分析策略，并通过具体经验示例来展现其价值。

二、结构流动：一个应该被“放弃”的概念？

如前文所述，有关结构流动以及结构流动和交换流动的区分框架经历了一个逐渐式微的过程。在1983年的一篇论文中，社会学者索贝尔（Michael E. Sobel）甚至建议“研究者需要放弃‘结构vs.流动’的分析框架”(Sobel，1983: 722)。结构流动研究式微的原因可以归结为以下三方面：首先，从概念设定上讲，索贝尔以及之前的很多学者所谈及的结构流动，指的是单一流动表的行边际分布和列边际分布之间的差异。研究者之所以关注单一流动表，在一定程度上是因为早期社会流动研究所用分析资料多是官方统计资料，故而研究人员所能确定的信息往往只有在特定的时点上根据两代人的职业特征或者教育水平所构建的列联表。与之伴随的是，很多与社会流动相关的测量指标也是针对单一流动表设计的（Blau & Duncan，1967）。其次，从测量工具上讲，基于单一流动表来估计结构流动的方法有其局限性。索贝尔就对霍普（Keith Hope）的中途模型（Hope，1982）（具体技术细节，参见下一节）提出了尖锐的批评（Sobel,1983）。尽管针对索贝尔的批评也有一系列的反驳声音，但是经历了这些批评之后，加之基于发生比的对数线性模型逐渐兴起（Breen，1985），学者们逐渐把注意力从“结构流动—交换流动”的分析框架转向适配对数线性模型的“相对流动—绝对流动”的分析框架。最后，从社会现实上讲，结构流动所代表的宏观社会变迁在发生后的一段时间内基本会维持在一个比较稳定的状态。与之相比，由于涉及社会阶层之间壁垒的微观变化，在给定结构特征后，基于发生比的相对流动会持续变化。因此，对于社会科学研究者而言，对结构流动的探究在一段时间之内有可能“毕其功于一役”。尤其是在既有研究关注较多的欧美国家中，随着社会职业与教育结构日趋稳定，结构流动逐渐成为一个“常量”。

由于上述多重原因，结构流动概念及其研究方法的影响力逐渐弱化。但是，这并不意味着结构流动本身是一个应该被放弃的学术概念（Slomczynski & Krauze，1984）。我们针对上述三重式微原因，同样可以发现一系列“复兴”结构流动概念的有利条件。首先，从概念界定上来讲，由于大规模调查资料的不断累积，我们现在完全可以将传统单一流动表的行—列差异分析拓展到多个流动表的对比分析，同时借助个体数据来完成统计推断的工作。在这方面，一些早期的研究可资借鉴（Hazelrigg，1974；Hazelrigg & Garnier，1976）。其次，与上面提到的多流动表拓展相呼应，研究人员也有可能超越既有方法策略，寻求和开发更为直观便捷的分析工具。这正是本文的研究主题，下面会展开讨论。最后，就社会现实而言，处于转型期的中国社会充分体现了社会结构转型如何形塑社会流动状态。正如白尔曼（Peter S. Bearman）和迪恩（Glenn Deane）所言，“将流动机制中的结构性和交换性成分区分开来，是理解流动在其历史背景下的社会和政治后果的基本前提”（Bearman & Deane，1992:31)。这一判断与关于中国社会转型的社会学研究既有结论一致（例如Whyte，2010; Wu，2011；Xie，2016）。因此，无论是更好地理解当下中国社会的整体流动状态，还是进一步通过改革来提升社会整体的开放和包容程度，都离不开对结构流动的分析与考察。

三、结构流动的研究方法梳理

在现有文献中，针对结构流动的经验分析策略大致可以分为三类。为了便于讨论，我们将其分别命名为指数法、模型参数法和计算法。在这一部分的讨论中，我们将梳理这三类分析策略中具有代表性的方法。

（一）指数法

指数法是指通过建构一个特定的指数来衡量结构流动。由于对于单一流动表而言，结构流动即行边际分布和列边际分布的差异，因此一个非常直观的测量指数便是差异指数（index of dissimilarity）（Cobalti，1988）。以教育流动为例，假设某一流动表可以表示为一个 k×k 的矩阵（ k 为教育类别）。样本总量为 n.. ，针对某一特定教育水平 i 的行加总表示为 n _i. ，列加总为 n _.i 。差异指数就是每一个教育水平i的行—列边际差异 n _i. － n _.i 的绝对值加总后除以两倍的总样本量。用Δ来表示差异指数，我们可得。差异指数的计算过程虽然简单直观，但是从总流动人口中减去因为边际分布差异带来的流动人口数的操作却掩盖了因为结构流动所带来的交换流动。换言之，受结构流动影响的那部分交换流动在差异指数的计算和使用过程中被归为结构流动，因此无形中会低估交换流动而高估结构流动（Cobalti，1988）。

除了差异指数，另外一个常用的指数是流动比率（mobility ratio）。这一统计量常被用于衡量剥离了结构流动效应之后的交换流动水平，因此也间接与结构流动的测量相关。具体而言，对于流动表第i行第j列的个体而言，其流动比率是假设行与列之间彼此独立（或者称为完全流动［perfect mobility］）的情况下个体期望的频次数 f _ij 。显然，既然行与列之间彼此独立，那么个体出现在第 i 行第 j 列的概率等于其出现在第 i 行的概率乘以其出现在第 j 行的概率。前者可以表示为 n _i. / n.. ，后者可以表示为 n _.j / n.. 。因此个体出现在第 i-j 单元格的概率就是二者的乘积，其期望频次就是。流动比率就可以表示为 f _ij = n _i. × n _.j / n.. 。如果说流动比率代表剔除了结构流动效应后的交换流动效应，而观测到的流动表背后既有结构流动也有交换流动的效应，那么结构流动就可以用二者之间的差异来表示。如果我们用 x _ij 来表示流动表的第 i 行第 j 列的某一观测值，那么对于第i-j单元格而言，其结构流动就可以表示为。

流动比率自提出之后就受到多方面的批评。例如，布劳（Peter M. Blau）和邓肯（Otis Dudley Duncan）指出，流动比率并没有把流动表的边际差异完全剔除（Blau ＆ Duncan,1967）。这是因为其计算过程本身涉及边际分布的频数。也正如豪特（Michael Hout）所言，流动比率作为一个统计指标，既反映了边际分布的规模，也反映了行与列之间的关联性(Hout,1983)。因此，流动比率并不是单纯反映交换流动，而是混合了结构流动和交换流动。

有必要指出的是，除了差异指数和流动比率之外，还有一些在其基础上开发的修正指标，例如由两种交换流动的比率构成的Yasuda指数（Yasuda,1964），具体表示为。其中，Yasuda指数的分子是观测到的流动表中去除结构流动后的交换流动，而分母是在完全流动（假设行与列彼此独立）的情况下去除结构流动后的交换流动。但由于其构成要素本身结合了差异指数和流动比率，后两者的局限性自然会体现在Yasuda指数之中。

（二）模型参数法

模型参数法是指通过拟合特定的统计模型，以模型的参数作为结构流动或者交换流动的测量。比较有代表性的是霍普的中途模型（halfway model）（Hope，1982）以及索贝尔等人提出的拟对称模型（quasi-symmetry model）（Sobel et al.，1985）。

霍普所提出的中途模型立足于对流动表第 i-j 单元格预期频次的特殊参数化。具体而言，中途模型以完全流动模型（perfect mobility model）为基础进行参数变换。如上文所言，完全流动模型是指第 i-j 单元格的预期频次仅取决于行效应 a _i 和列效应 b _j ，但是不取决于行与列之间的交互效应。之所以称其为完全流动，是因为在此模型设定下，先赋地位（行变量）不影响自致地位（列变量），故而个体流动到哪一个自致地位类别都有可能。在这一模型设定中，预期频次 f _ij 可以表示为 f _ij = a _i b _j 。基于此，霍普对完全流动模型进行了再参数化，即 f _ij = a _i b _j = a _i a _j b _j /a _j 。在这个参数设定下，所谓的中途模型指前半部分（H表示halfway）。中途模型提出了一个独特的构建预期频次的方法。如上文所示，传统的流动比率通过假设行与列相互独立来建构预期频次，即。但是中途模型的计算为。两相对比，基于中途模型构建出的流动模式，其行与列的边际分布一致，且生成的流动表内部频次分布对称。同时，中途模型不涉及行与列之间的交互，也没有包含行与列之间的关联。基于这些原因，霍普认为，以中途模型构建的流动表代表了去除结构因素的交换流动。与此同时，完全流动模型在去除中途模型之后剩余的部分被称为差异模型（difference model），表示为。显然，差异模型代表了列效应与行效应之间的比值差异，因此被用以指代结构流动。

霍普的中途模型将完全流动模型分解为结构流动和交换流动两个部分，具有创新性。但是，该模型自提出之后也被多方质疑。其中比较有代表性的便是上文提到的索贝尔的研究（Sobel,1983）。他指出，中途模型能够用来指代交换流动的前提是完全流动模型可以很好地拟合数据，但是这一点并不必然能够被保证，甚至在大多数社会学研究中根本无法保证。豪特也从模型拟合的角度对中途模型进行了批评。他认为，如果行与列之间确实存在某种关联，完全流动模型的拟合度就会很差，此时采用中途模型就会低估结构流动（Hout,1989:89）。除此之外，针对中途模型的另一批评是，在以完全流动模型减去中途模型所剩余的差异模型中，其构建的流动表并不对应于观测到的行与列的边际分布差异。因此，差异模型的效度也受到质疑（Marks et al.，1996）。

当然，对于索贝尔和豪特基于模型拟合度对中途模型提出的批评也存在不同的意见。例如，琼斯（Frank L. Jones）认为，中途模型将完全流动模型作为基准并不是因为完全流动模型是一个统计模型，能够以数据拟合优劣予以评判，而是因为完全流动模型作为一种理论模型代表了“机会公平”这一理论上的“基准状态”。因此，在经验研究中，完全流动模型是一个很好的理论参照模型（Jones,1985）。除此之外，斯洛姆钦斯基（Kazimierz M. Slomczynski）和克劳兹（Tadeusz Krauze）认为索贝尔的批评有失偏颇。一则，索贝尔主要批评的对象是霍普的中途模型，但是不能因为一个方法存在局限就否定其他所有关于结构流动的经验分析方法。再则，即使当时开发出的所有方法都有问题，也不意味着“结构流动—交换流动”的这个分析框架就应该被放弃(Slomczynski ＆ Krauze,1984)。斯洛姆钦斯基和克劳兹的批评对于本文颇有启示意义。

虽然索贝尔在1983年的论文中主张放弃“结构流动—交换流动”的这个分析框架，但是索贝尔本人并没有放弃探究结构流动。模型参数法中的另外一个模型正是索贝尔及其同事提出的拟对称模型。具体而言，拟对称模型预设了一种边际分布不对称但内部频次分布对称的流动表结构。索贝尔等人提出，为了描述这种流动模式，流动表中第 i 行第 j 列的预期频次可以写成 f _ij = α _j β _i β _j γ _ij δ _ij （Sobel et al.,1985）。在这个设定中， α _j 是指造成列边际分布与行边际分布差异的非对称结构效应，其无差别地作用于行变量的不同取值水平之上，因此其区分仅在于列变量的不同取值水平 j 。在拟对称模型中，对于 α _j 的限制条件是。此外， β _i 与 β _j 被称为对称结构效应，其本质上就是霍普中途模型的设定（Ultee & Luijkx，1986）。显然，如果 i = j ，那么我们有 β _i = β _j 。因此， β _i β _j 体现出的是对称的结构效应。除了这些参数之外， γ _ij 为非对称的行—列关联效应， δ _ij 为对称的行—列关联效应。 γ _ij 和 δ _ij 的区别在于，后者在非对角线元素上是对称的。如果拟对称模型可以很好地拟合数据，那么我们便有理由认为该流动表除了边际分布不对称之外，其内部应当是对称的，故而 γ _ij =1。此时，这一流动表背后的结构流动效应可以表示为 α _j ，而交换流动则表示为 β _i β _j δ _ij 。

拟对称模型自提出之后，在很多社会流动议题中得到了应用（例如Bearman & Deane,1992;Hu & Leamaster，2015）。但是这个模型比一般意义上的关联模型要复杂很多，且其模型设定也往往缺乏具有说服力的经验或者理论依据。例如，通常而言，交换流动被定义为剔除结构流动后的剩余流动部分，但是拟对称模型所估计出的交换流动要求 i-j 单元格和 j-i 单元格之间存在等量流动。在操作层面，交换流动也不仅仅通过给定边际分布下行与列之间的相关关系来体现，而是包含了对称化的边际分布βiβj。换言之，交换流动是对称关联效应 δ _ij 和对称边际效应 β _i β _j 的交互项。这些设定背后的实质性理由并不是很清晰。与上文讨论的通过边际分布差异来理解结构流动的分析视角不同，拟对称模型主张结构流动由边际分布差异αj和行与列之间非对称相关关系 γ _ij 组成。但是，我们并不是很清楚非对称相关关系 γ _ij 为何会影响结构差异。此外，正如索贝尔在对霍普中途模型的批评中所指出的那样，在拟对称模型的设定下，为了将 α _j 理解为结构分布的测量，拟对称模型必须很好地拟合数据以保证 γ _ij =1。但是，这同样是一个经验问题，并不能预先确定。最后，对于结构流动的参数 α _j ，设置限制条件的现实依据也不清晰。这使得拟对称模型分析结果的可解释性较差。学者们不得不采用一些替代手段对结果进行诠释（例如，计算不同列变量取值水平下 α _j 的比值，参见Bearman & Deane，1992； Hu & Leamaster，2015）。

（三）计算法

如果说20世纪50—70年代见证了结构流动研究中指数法逐渐向模型参数法的过渡，那么这部分要介绍的计算法在这一时期可谓是独树一帜。虽然后续采用这种方法的研究很少，但该方法体现了不同于上述两种分析路径的独特思路。具体而言，所谓的计算法是指基于一定的前提假设，通过“计算”手段来建构结构流动和交换流动的矩阵。这方面的代表性研究来自克劳泽和斯洛姆琴斯基（Krauze ＆ Slomczynski,1986）。假设一个特定的流动表矩阵 N ，其第 i 行第 j 列的构成元素表示为 n _ij 。那么，计算法设定了 N 由三部分构成：对角线元素所构成的不流动矩阵 I 、结构流动矩阵 S 和交换流动矩阵 C 。显然，如果我们有一个指示变量 δ _ij ，其对于对角线单元而言取值为1，非对角线单元取值为0，则可以得出 I = δ _ij × n _ij 。

为了求得结构流动矩阵 S ，克劳泽与斯洛姆琴斯基设定了两个基本限制条件：（1）如果结构流动矩阵存在，那么结构流动矩阵的边际分布变化与实际观测到的流动表的边际分布变化相等，即；（2）由于实际观测到的流动表是结构流动和交换流动共同作用的结果，因此对于特定的 i-j 单元而言，结构流动矩阵的元素 s _ij 取值应当大于或等于0，但小于实际观测到的元素 n _ij 的取值，即0≤ s _ij ≤ n _ij 。基于这两个限制条件，结构流动可以表示为结构流动矩阵的元素之和，用表示，即。求解 s _ij 可以通过线性规划算法完成，即在给定的条件下，最小化（Slomczynski & Krauze,1984）。这种基于线性规划算法的分析，也是我们将其称为计算法的原因。对于交换流动矩阵 C 的构成元素 c _ij ，可以同样采用线性规划的方法完成计算。具体而言，交换流动矩阵 C 的对角线元素为0，非对角线元素应当小于其所对应位置的观测矩阵元素 n _ij 。这一要求可以表示为0≤ c _ij ≤ n _ij (1－ δ _ij )（Slomczynski & Krauze,1984）。此外，克劳泽与斯洛姆琴斯基设定，交换流动矩阵C的流出和流入应当保持平衡，即。在以上限制条件下，通过最大化交换流动矩阵元素之和，我们可以获得 c _ij 的计算结果（Slomczynski & Krauze,1984）。

针对计算法，索贝尔等人主要提出了三点批评：第一，由于计算法直接通过线性规划的手段生成相应的结构流动矩阵和交换流动矩阵，因此其生成过程主要依赖于计算手段，相应的计算过程所设定的条件也是为了满足实现最优化计算的目标，其理论意义不是很明确；第二，将结构流动和交换流动各自界定为一个矩阵的做法和社会流动相关理论不是很匹配，且以矩阵来衡量结构与交换流动在操作上缺乏便利性；第三，由于计算过程直接以既有数据作为计算的基础，直接生成的结构流动与交换流动矩阵没有考虑到抽样过程所带来的统计误差（Sobel et al.,1986）。

综上所述，在分析结构流动问题的现有文献中，社会学者或通过建构一种全局性的指标，或通过拟合结构模型，或通过计算法来达成对结构流动以及交换流动的经验测量。但是正如表1所示，无论哪一种方法都存在一系列的局限性。因此，为了更好地分析结构流动，我们需要有针对性地对已有方法的局限提出应对策略。

四、调整—分解的分析策略

（一）结构流动分析需要解决的方法问题

综合上文的方法梳理，在研究结构流动时，我们需要面对和解决以下五个方面的问题。

第一个问题是理论支撑问题。所谓理论支撑是指用以测量结构流动的指标是否和通行的理论主张相一致。现有研究的一个基本共识是流动研究中的结构流动需围绕流动表的边际分布展开。因此，在建构结构流动的测量指标时，一个基本要求是该指标能够体现流动表的边际分布变化。但无论是中途模型还是拟对称模型，其复杂的参数设定都不能直观地满足这一要求，因而在方法上存在共同的局限。

第二个问题是混淆因素问题。传统社会流动研究更多是一种描述性探索，虽然隐含了先赋性因素对自致性因素的因果性推论，但对于这种因果性并没有严格的经验识别。但是，随着过去几十年社会科学因果推断方法的推广，流动分析中先赋性因素对自致性因素的因果效应越发得到学界的关注（例如Hu & Wu 2021）。为此，研究者在考察流动表行变量对列变量的影响的同时，越发需要控制潜在的混淆因素。正如戈德索普（John H. Goldthorpe）等人所言：“我们并不能够假定那些影响职业结构变迁的因素……与影响交换流动模式的因素互不相关”（Goldthorpe et al.,1978:64）。因此，在分析结构流动问题时，一些混淆因素需要予以控制，但前文所提及的方法均没有考虑这一问题。

第三个问题是概念化问题。无论是指数法还是中途模型，一个共有的方法局限在于无法在完全剔除交换流动的前提下考察结构流动。这一方法局限的根源之一或许在于结构流动的概念化局限。在传统的结构流动分析中，结构流动、交换流动和不流动三者形塑了特定的流动表。按照这种概念化路径，交换流动和结构流动之间泾渭分明，各自代表了一类流动的主效应。此时，结构流动和交换流动之间的互相影响被忽略了。实际上，那些可以在交换流动中占据优势地位的群体本身也有可能在结构变迁过程中占据优势地位。这些群体的存在会让整体的社会流动过程背后包含结构流动和交换流动的交互作用（Breen，1985）。显然，对结构流动的概念化并没有考虑两种流动类型的交互作用。

第四个问题是统计模型的限制。虽然索贝尔等人偏向于通过结构模型来探究结构流动，但正如上文所述，过于复杂的结构模型本身反而会给实际研究带来多重限制。例如，当模型设定复杂时，其解释度就会比较差，而以结构模型来分析流动问题本身也可能会遇到模型的拟合度差的问题。此外，和其他基于结构模型的量化研究类似，结构模型作为一种统计模型，本身会遇到模型的不确定性问题，即同一个流动表数据有可能存在多个拟合度好的结构模型（胡安宁，2017）。由于这些模型的参数设定不同，它们所呈现的实质性信息可能彼此矛盾，但这种矛盾性并不能通过比较模型的拟合度高低来解决。

最后一个问题是统计推论上的局限。正如索贝尔等人对计算法的批评所言，在当下的流动表分析中，一个流动表中的相关信息往往来自抽样数据，因此自然会受到抽样误差的影响。换言之，我们不能够将其中的数字看成是固定的值，而应看作一个包含抽样不确定性的值。但是计算法和指数法均没有很好地考虑这种随机抽样带来的误差，因此在分析的完备性上存在缺陷。

综上所述，我们在研究结构流动时，需要对理论支撑、混淆因素控制、概念界定、模型设定和统计推论这五个方面的局限性进行处理。如表2所示，由于理论支撑问题涉及的是结构流动测量和边际分布的对应关系，因此一个解决思路是在构建结构流动测量的时候“直接”针对边际分布进行处理。混淆因素问题则要求在进行流动表的比较过程中，除了控制行变量和列变量的边际分布特征之外，还需要对其他潜在的混淆因素进行统计控制。围绕概念界定，我们需要在考察结构流动和交换流动的主效应时引入二者的交互效应，而这一过程需要尽量避免结构模型带来的诸多复杂限制。概念界定和模型设定上的限制可以通过分解的方法解决。最后，统计推断问题可以通过设定流动表中相关频次的统计分布或者自助法（bootstrap）来解决（DiCiccio & Efron，1996）。下面我们就详细介绍调整和分解的策略。

（二）调整的策略

严格来讲，调整并非指某种单一的统计方法，而是包含满足某一特定要求的多种方法的统称（Christiansen et al.，2021; Keele et al.，2023; Lu et al.，2023）。具体而言，调整的目的是希望通过统计分析手段，在给定的限制条件下，将特定变量分布下的某一统计值转化为另外一个变量分布下的统计值。这里我们可以举一个简单的例子。假设在甲群体中，收入变量 X 的累积概率分布为 P(x) ，在特定 X 取值为 x 的情况下的幸福感的取值为 τ （例如，给定收入水平 x 下的平均幸福感得分）。那么，在甲数据中，幸福感的期望值就是 φ=∫τdP(x) 。但如果我们想知道在给定收入—幸福感联结模式的情况下，在乙群体中人们的幸福感得分，那么，我们可以收集收入变量 X 在乙群体中的累积概率分布 P′(x) ，并求得 φ′=∫τdP′(x) 。这便是基于乙群体的边际分布情况来对甲群体得出的结论进行调整。显然，从 φ 到 φ′ 的调整过程取决于 P(x) 到 P′(x) 的差异大小。而为了表达从 P(x) 到 P′(x) 的差异，我们可以通过权重矩阵 M ，利用最优化算法，求得 M 的估计值，以保证和P′(x)之间的距离度量最小化。这里的权重矩阵 M 反映了如何进行调整可以让 P(x) 和P′(x)之间的“距离”最短。当然，衡量距离的度量有很多，比如欧氏距离（Euclidean Distance）、马哈拉诺比斯（Mahalanobis）距离或者Kullback-Leibler散度。在量化研究中，调整的策略经常被用来探究某一研究结论在应用于不同群体时的外部效度（Pearl & Bareinboim，2014）。对于社会流动研究而言，一个最常见的调整算法是德明—斯蒂芬算法（D-S算法）（Deming & Stephan，1940）。这一算法通过迭代的方式，在给定一个流动边际分布的前提下计算流动表内各单元的具体人数。限于篇幅，具体的计算过程可以联系作者获取。

在社会流动研究中，通过D-S算法探究结构流动并非没有先例。实际上，早在20世纪70年代，黑泽里格（Lawrence Hazelrigg）便已经采用了D-S算法试图把结构流动和交换流动区分开（Hazelrigg，1974；Hazelrigg & Garnier，1976）。但是黑泽里格的分析思路如“昙花一现”，并没有得到学界太多的呼应。此外，如果回到上文论及的方法局限，黑泽里格的分析也没有考虑到结构流动和交换流动的交互效应以及抽样误差。从这个意义上讲，本文的分析是对黑泽里格研究思路的一种继承和发展。

具体而言，以D-S算法为基础的调整策略，可以帮助我们更好地探究结构流动。假设我们希望对比两个流动表 X 和 Y （例如，不同出生世代个体的先赋地位和自致地位所构成的流动表）。显然， X 和 Y 有不同的边际分布特征和发生比取值。此时，我们可以采用D-S算法基于 X 流动表的边际分布来将 Y 流动表调整为 Y ′ 。 Y ′ 所表现的是，当 Y 流动表的边际分布不是其观测值，而是 X 流动表的边际分布取值时的流动状态。因此，我们可以称之为反事实流动表。同理，我们也可以基于 Y 流动表的边际分布将 X 调整为 X ′ ，以此建构另外一个反事实流动表。对比这些矩阵， X 与 Y ′ 之间以及 Y 与 X ′ 之间的边际分布各自保持一致。由于D-S算法保留了发生比的取值，我们对比 X 和 X ′ 就会发现，二者的发生比是一样的，区别只在于边际分布。换言之，两个流动表中的行变量和列变量之间的关联度不变，而边际分布在变化，故而两相对比展现出的是结构流动的效力。另一方面，对比 X 和 Y ′ ，二者的边际分布完全一样，因此流动模式的差异可以归因于交换流动。

调整的分析策略有助于解决上文提出的理论支撑问题和混淆因素问题。对于前者而言，D-S算法在探究结构流动的时候直接针对流动表的边际分布进行调整，因此符合理论上的共识，即边际分布体现结构流动。对于后者而言，虽然上面的经验示例仅仅对行变量和列变量进行调整，但是D-S算法调整的对象并不仅局限于这两个变量。除此之外，如果我们可以获得个体层面其他变量的观测数据，D-S算法完全可以对这些潜在混淆变量“同时”进行调整，以保证在对比流动表的时候被调整的这些其他变量的边际分布保持恒定。更进一步的是，我们也可以调整其他变量与行变量或者列变量之间的联合分布，这一特点对于控制潜在混淆因素而言尤为重要。

但是，仅使用调整的策略无法解决结构流动和交换流动的交互作用问题。这是因为，通过对比观测流动表和反事实流动表，我们所能够获知的要么是结构流动的效应，要么是交换流动的效应，二者如何互相影响并没有直接体现，而这则需要使用下述分解的策略来解决。

（三）分解的策略

对于量化社会学研究者而言，分解的分析策略并不陌生。例如，研究种族歧视问题时很常见的布林德—瓦哈卡分解（the Blinder-Oaxaca decomposition）将白人和黑人的组间收入差异分解为属性（例如教育水平）差异和属性回报率（例如教育回报率）差异。类似的分解策略也可以用来进行社会流动研究。假设流动模式是结构流动 S 和交换流动 C 的函数 f ，那么仿照布林德—瓦哈卡分解，我们可以对 t ₀ 和 t ₁ 两个时点（或者出生世代）的流动表之间的差异作类似的分解： f(S _t1 ,C _t1 )－f(S _t0 ,C _t0 ) = f(S _t1 ,C _t0 )－f(S _t0 ,C _t0 ) + f(S _t1 ,C _t1 )－f(S _t1 ,C _t0 ) 。显然，结构流动部分可以表示为 f(S _t1 ,C _t0 )－f(S _t0 ,C _t0 ) ，而交换流动部分则表示为 f(S _t1 ,C _t1 )－f(S _t1 ,C _t0 ) 。

但是，虽然回应了既有方法的局限，以上的分解策略仍然没有考虑结构流动和交换流动之间的交互关系。因此，为了将交互作用引入进来，我们基于别文（Martin Biewen）提出的分解策略（Biewen，2014），对两个流动表之间的差异作三元分解，得到 f ( S _t1 ,C _t1 ) － f ( S _t0 ,C _t0 ) =［ f ( S _t1 ,C _t0 ) －f ( S _t0 ,C _t0 ) ］+［ f ( S _t0 ,C _t1 ) －f ( S _t0 ,C _t0 ) ］+［ f ( S _t1 , C _t1 ) －f ( S _t1 , C _t0 ) －f ( S _t0 ,C _t1 ) + f ( S _t0 ,C _t0 ) ］。

在这一个拓展之后的分解策略下，结构流动和交换流动仍然可以分别表示为 f ( S _t1 , C _t0 ) －f ( S _t0 ,C _t0 ) 和 f ( S _t0 ,C _t1 ) －f ( S _t0 ,C _t0 ) 。但除此之外，我们可以通过 f ( S _t1 ,C _t1 ) －f ( S _t1 ,C _t0 ) －f ( S _t0 ,C _t1 ) + f ( S _t0 ,C _t0 ) 来探究二者如何相互作用。这里我们可以对这一表达式作如下简单的数学变换： f ( S _t1 ,C _t1 ) －f ( S _t1 ,

结构流动：基于调整—分解的分析策略

正文

请到「今天看啥」查看全文