大学是如何改变寒门学子命运的？

量化研究方法 · 公众号 · · 2017-07-02 23:12

正文

前言

今天给大家介绍的数据库是由中国人民大学中国调查与数据中心资助并组织实施的 “首都大学生成长追踪调查项目（Beijing College Student Panel Survey, BCSPS）” （官网：http://www.cnsda.org/index.php?r=projects/view&id= 93659073）。该项目2009年和2010年的调查得到了吴晓刚教授和冯仕政教授的资助和指导。 这是一个对北京15所高校五千多名大学生进行的为期五轮的追踪调查。 调查采用了多阶段分层抽样方法（大学为首要抽样单位，专业为第二抽样单位），在2009年从北京市54所公立大学当时的大一（2008级）和大三（2006级）学生中分别抽取了两千人左右的代表样本，并在之后的5年进行了一年一度的追踪访问。尽管不是一个全国性的样本，但北京作为中国首都，是一个高等教育非常发达的城市，不同层次和类型的高校林立，吸引的学生也来自全国各地，因而该调查的样本可以说是中国当代大学生群体的一个缩影。这一数据提供了关于大学生家庭背景，在校表现，个人能力，和劳动力市场参与等非常详实的信息，更难得的是五轮调查维持了很高水平的追访成功率，可以说是目前中国最为成功的教育追踪调查之一。目前，针对BCSPS数据，中国人民大学出版社已经出版了两本描述性的数据报告，《社会》杂志也在2016年第3期发表了一个专刊共四篇文章，大家有兴趣的可以进一步了解。

BCSPS数据实例

Brand& Xie (2010)提出了“负向选择假设”，即家庭背景越差，实际越不可能上大学的人，越有可能从上大学的行为中获益。然而，事与愿违的是，随着近十几年来大学学费的大幅上涨，以及次级劳动力市场就业机会的不断增加，对于那些经济并不宽裕的家庭，大学对他们正逐渐失去吸引力。有调查估计，中国农村学生在整个中学阶段的累计辍学率高达63%。舆论甚至不断出现“读书无用”或“寒门不能出贵子”的悲观论调。我博士论文的其中一章，From Poverty to Prosperity: College Education, Non-cognitive Abilities, and Earnings，关注的就是“大学是如何改变寒门学子命运”这一问题。

图1.中国普通高校大学生上学费用增长历史变化（1997年=100）

数据来源：《中国教育统计年鉴》、《中国统计年鉴》。

社会分层和流动研究发现，在受过大学教育的人群中，社会经济地位的代际相关性降低甚至消失了。这一发现被作为大学教育促进社会流动的有力证据。然而，其作用机制往往被简单地归因于学生的高度选择性，或者是劳动力市场中大学文凭的符号效应， 而大学本身作为一个重要的教育过程，对学生人力资本积累的影响却甚少被提及或证实。 其中一个重要原因是由于数据的限制：在以往很多的横截面调查中，我们只能观察到个人从大学毕业后的结果，而不可能知道他刚上大学时，或即将毕业前的能力和表现，也就无从判断大学四年间，他们的能力是否有实质性的提高。 而得益于BCSPS的五轮的追踪数据，我们就可以对大学生在校期间的成长经历和从学校走向社会的转变过程进行动态的观测。

越来越多的研究证据表明，在现代社会中，个人的非认知能力对于其在劳动力市场的表现有显著的影响。 而这篇文章的分析结果也证实，即便在同质性较高的大学生群体中，非认知能力的差异也超越了家庭背景，成为了对收入最为重要和稳定的影响因素之一。因此，考察来自不同社会阶层的人在非认知能力上的差距，以及这一差距在大学期间的变化趋势，对于帮助我们理解高等教育对于收入不平等的作用就变得非常必要。

利用BCSPS的五期数据和个人增长曲线模型， 这项研究发现，大学四年的教育过程逐步缩小了贫困大学生与其他普通大学生之间在非认知能力上的差距。 这一平等化的过程使贫困大学生与普通大学生的初职收入差距缩小了一个百分点。虽然这一效应从绝对数值来看并不大，然而，由于会影响工作收入的先赋性因素（比如说家庭出身）本身无法改变，且这一筛选过程早在进入大学前就业已完成， 因此大学教育在短短四年中对于关键人力资本的提升作用可以被看作是高等教育能“改变命运”的直接证据。 与我们的想象不同的是，在大学期间，贫困大学生在学业成绩，荣誉获得，社团活动参与，入党，实习兼职等方面的在校表现都要比非贫困大学生更为优秀，而由于这些活动均与非认知能力的增长有很强的相关性，这有可能提供了一个有效地机制来帮助他们克服家庭出身方面的劣势，并最终消除他们与其他家庭出身较好的大学生在个人能力，以及在之后的劳动力市场表现上的差距。简而言之， 这个研究的发现驳斥了所谓的“读书无用论”，证明了上大学依然是寒门学子改变命运，实现向上流动的重要途径。

图2. 模型估计出的大学生在校期间自我效能感的变化趋势，按是否贫困划分

增长曲线模型方法实例

在上文中，我使用了增长曲线模型（Growth Curve Model）来跟踪个人在四年大学期间非认知能力的发展变化情况。这一模型的优势在于，可以使研究者进一步观测到两个组别的人之间在结果变量上发展轨迹（trajectory）的不同，而不仅仅是在最终结果上的差异。简单来说，我们可以把GCM看作是一种特殊的多层次线性模型（HLM）或是前面提到过的结构方程模型（SEM）。其中，人-时为第一层次，反映的是个人内部随时间的变异（within-person variance），个人为第二层次，反映的是个人之间的变异（between-person variance），而第一层次和第二层次的跨层交互项则可以反映不同个人之间增长模式的不同。

以上文为例，下面的方程（1）描述了第一层次，即人-时层次模型，估计的是大学生i在第t年的大学教育阶段所具有的非认知能力，用Yti表示。其中，β0i代表的是大学生的增长曲线的截距项，即刚入校时非认知能力的初始值。β1i代表的是大学生i的增长曲线的斜率项，即在t年间非认知能力的增长率。eti表示的则是未被解释的残差项。

在模型的第二层次，即个人层次，我们进一步允许每个人的增长曲线的截距项和斜率项随观测变量而发生变化。在这些观测变量中，P _t 是这篇文章重点关注的贫困虚拟变量， X _t 则是一系列的控制变量。方程（2）中， γ ₀₀ 代表的是非认知能力截距的固定效应，这一效应对任何个人在任何时间点都是固定不变的。 γ ₀₁ 代表的是贫困大学生和非贫困大学生在刚入校园时在非认知能力上的差异。 γ’ ₀₂ 代表的是其他观测变量对非认知能力的初始值的一系列影响。 u ₀₁ 代表的是未被解释的截距的随机效应。类似的，方程（3）中， γ ₁₀ 代表的是非认知能力斜率（或者说增长速度）的固定效应。 γ ₁₁ 代表的是贫困大学生和非贫困大学生在非认知能力增长率上的差异。 γ’ ₁₂ 代表的是其他观测变量对非认知能力增长率的一系列影响。 u _1i 代表的是未被解释的斜率的随机效应。此外，我们还可以允许两个随机效应项 u _0i 和 u _1i 相关，因为在现实中有可能初始水平高的人，增长速度慢。

当然，这只是增长曲线模型一个非常非常简单的例子，因为只涉及到两层、四期的数据，且假定个人的“成长”是线性的。实际上，增长曲线模型的运用是很灵活的。相关的教科书有很多（而且通常都很厚），这里给大家推荐一篇文章：Twelve Frequently Asked Questions about Growth CurveModeling。对于已经对HLM和SEM有一定了解的同学来说，该文相当于快速了解GCM的“入门手册”。

此外，关于这一方法的实际运用，强烈推荐纽约大学的程思薇老师2014年发表于AJS上的一篇关于代内收入不平等的文章：A life CourseTrajectory Framework for Understanding the Intracohort Pattern of WageInequality。之所以说这篇文章对GCM的运用堪称经典，是因为作者在一个长期追踪数据（NLSY79）的基础上，最大化地发挥了这一方法的优势，回答了一个很重要但又被忽视了的研究问题。此外，在分析这一数据的过程中，作者也充分向我们展示了面对追踪数据本身各种各样可能实际存在的“缺陷”（信息缺失，样本流失，追踪时间限制等），研究者应该如何在GCM的框架下来回应和解决这些问题。篇幅所限，这里就不详细介绍了，但对于想要自己试着运用增长曲线模型做研究的朋友，可将这篇文章作为范本来学习。

大学是如何改变寒门学子命运的？

正文

请到「今天看啥」查看全文