专栏名称: 社会CJS
编辑部和作者、读者沟通交流,查阅稿件,发布相关信息。
目录
相关文章推荐
新华社  ·  新纪录!90.2亿人次! ·  8 小时前  
半岛晨报  ·  密密麻麻!大连一海滨出现大量… ·  11 小时前  
51好读  ›  专栏  ›  社会CJS

“教育与社会”专题 |【句国栋、陈云松】中国教育回报的结构与变迁(2003—2021):层级差异、时间趋势和社会结构因素

社会CJS  · 公众号  ·  · 2024-11-05 18:00

正文

“教育与社会”专题


中国教育回报的结构与变迁(2003—2021): 层级差异、时间趋势和社会结构因素


(照片由作者本人提供)

句国栋

伦敦政治经济学院社会政策系

(照片由作者本人提供)

陈云松

南京大学社会学系


原文刊于《社会》2024年第5期


摘 要 本文使用中国社会综合调查(CGSS)2003—2021 年共12 期的合并数据,分析中国多年来不同教育层级的经济回报变化趋势,并探讨高等教育的经济回报是否有明显下降。 本研究首先测量了不同教育层级的收入回报差异并展示其变迁趋势,随后采用因素分解法,评估市场岗位环境等五个维度的社会结构因素的变化对不同教育层级经济回报的影响。 结果显示,不同教育层级的经济回报在近20 年整体维持在比较稳定的范围; 社会结构的变化一方面增加了高等教育群体相对于高中学历群体的经济回报,另一方面又缩小了其他教育层级群体之间的收入差距; 从出生队列来看,20 世纪70年代到90年代出生群体的高等教育经济回报未发生明显变化; 市场岗位增加等结构因素的变动有助于维持高等教育回报的相对稳定。


引言


近年来,伴随着中高考学生升学压力的加大、考研人数的逐年增加、毕业生就业竞争的加剧,社会对教育回报的关注热度居高不下, “学历贬值”等话题也经常见诸于媒体报道和社交平台的讨论。这些话题既真实反映了社会大众的关切与期待,也不断放大着人们对于教育问题的焦虑。目前学术界与社会大众对教育回报的关注点主要在高等教育,职业教育、初高中教育等被相对忽视,而后者所在的教育层级群体恰恰又占据了中国社会的主体,相关研究的缺失可能会导致“沉默的大多数”的出现。事实上,教育回报一向是社会科学界深切关注的议题之一,很多研究均为教育回报的讨论提供了宝贵的知识积累,促进了对中国教育回报状况的理解。但现有研究多采用个体的生命历程视角,在呈现长时段变迁趋势方面尚有不足。一些研究尽管使用了多期调查数据来探索趋势,却又受困于不同年份之间收入数值不能直接比较、纵向社会结构因素变迁导致宏观社会环境存在差异等问题。因此,本文尝试采用有别于微观因果分析的历史趋势追踪的宏观视角,呈现各教育层级平均收入差异在近20年的变动趋势,回应高等教育经济回报是否下降的问题,并探索社会结构变迁对教育回报的影响。

为了解答这些问题,我们合并了2003—2021年12期中国综合社会调查( CGSS )的数据,采用相对收入的比值衡量不同教育层级群体相对收入的变化。因为各个教育水平群体的收入分布均为一个区间而非特定点位,所以,我们将使用双组T检验来计算不同教育层级群体之间的相对差值和置信区间。考虑到随着中国社会经济的高速发展,一些社会结构特征在近20年发生了显著变化,也会影响不同教育层级群体的经济回报,因此,我们采用迪纳多( DiNardo,1996 )与帕罗林等( Parolin and Gornick,2021;Parolin,et al.,2023 )的因素分解框架,构建了反事实情境测量五个维度的社会结构特征变化,以展现它们对教育回报的影响程度。通过梳理和反思前人研究,运用新方法分析不同教育层级的回报趋势,我们希望为相关政策的制定提供有力的实证支持,以应对社会对教育回报的广泛关注和民众潜在的教育焦虑问题。


文献综述


(一) 教育的经济回报来源
教育,尤其是高等教育,如何影响个体的收入水平?已有研究从三个视角提供了解读。第一,劳动经济学强调了教育对个体人力资本的提升作用。教育会通过提高专业能力的方式助力个体更好地满足相关职业的需求,所以,教育水平更高的人在劳动力市场中会占据更为有利的位置,并得到更为丰厚的经济回报( Mincer,1974;Harmon,et al., 2003;Becker,2009 )。按照这个逻辑,获得更好的教育就会被看作一个消除贫困、增长收入的主要途径( 张文宏,2023 )。此外,已有研究指出,教育对个体人力资本的提升并不局限于特定的职业技能,还包括社交能力、自尊感等非认知能力( 许多多,2017 ),因此,与职业教育相比,高等教育对个体收入的提升作用也更为显著。因为在不同的市场状态下,劳动力的选拔机制也不同,充分发展的劳动力市场更侧重“量才取用”而非基于社会关系的“任人唯亲”,所以,在传统社会主义体制的国家向市场体制转型的过程中,教育带来的经济回报也会更加显著( Nee,198 9 )。

第二,布迪厄( Bourdieu,1998 )的文化资本视角则强调了家庭背景等先赋因素在相当程度上左右着个体接受教育的机会和获得教育回报的程度。更高阶层的群体不仅能通过投入更多的经济文化资源来助推子女获得更高、更优质的教育,还能把接受高等教育和获得相关文凭制度化为一种文化资本代际再生产的途径( Blau and Duncan,1967 )和一套传递文化符号、获取阶层认同、巩固现有秩序的社会仪式( Nash,1990 )。因此,接受高等教育的人更容易被更高阶层接纳,并在权力与资本的分配过程中占据有利的位置。

第三,一些研究从样本选择的角度对教育回报进行了内生性解释,即强调具有高等教育水平的人拥有更优的条件和能力,这些资源使得他们在市场竞争中天然地占据优势地位,并获得更为丰厚的经济回报( Kenny,et al., 1979;Heckman and Li,2004;Gunderson and Oreopolous, 2020 )。也就是说,一些难以度量的个体条件( 如智商 )充当了教育水平和经济收入之间的混淆变量,使两者表现出统计学意义上的(伪)相关( 句国栋、陈云松,2022 )。而个体的教育水平本身只是作为这些能力与资源的代理变量,与经济收入并不具有强因果关系。


以上三种视角并不互相排斥,可能只是以不同的程度和形式同时产生作用,比如,经济学的“信号理论”强调学历和文凭在市场上被视为更强能力的信号佐证,从而能获得更多的经济回报( Riley,1979;李锋亮等,2008 ),这一视角实际上结合了文化资本与样本选择两种机制。
(二) 对中国教育回报趋势的讨论
基于以上理论回顾,我们不难理解为什么因果推断在有关教育回报的研究中占据极为关键的位置。根据方法取向,我们将现有的教育回报研究分为四类。第一,教育回报研究领域最为经典的设定是明瑟收入方程( Mincer,1974 ),一般以个体收入( 对数 )值为被解释变量,主要解释变量包括个人的教育水平和工作年限及其平方。现有研究多是在明瑟收入方程的基础上增加了性别、城乡、就业单位、相对教育位置等变量,并展示了教育回报与这些因素的相关性和交互作用( 李春玲,2003;李锋亮等,2008 )。第二,不少研究使用断点回归、倾向值匹配、工具变量等准实验设定来寻找教育回报的因果证据,即回答教育层级与收入水平的正向相关究竟是接受教育带来的回报,还是因为获得更高水平教育的人本身能力突出造成的伪相关。比如,已有研究基于1986年义务教育法的实施和1999年大学扩招等外生性政策的变动,使用断点回归等准实验方法来检验两种教育层级对个体的经济回报( 许玲丽等,2012;刘生龙等,2016;刘生龙、胡鞍钢,2018 )。第三,一些研究关注个体的不同属性对教育回报的异质性影响,比如,通过控制个体能力代理变量来区分出生地与就业类型对教育经济回报的影响( 李雪松、赫克曼,2004 ),或者使用倾向值匹配等方法来控制样本偏差,从而对比高中—大学、城乡出生群体的经济回报差异( 简必希、宁光杰,2013 )。第四,也有研究通过合并多期调查数据的方式来关注教育回报的纵向变迁趋势。与前三类研究相比,关注教育回报长时段趋势研究的数量相对有限,但由于教育回报趋势是本文的核心关注点,因此,我们聚焦这一议题,并分高等教育与其他教育两部分详细讨论这些研究。

1. 高等教育

与西方国家相比,中国高等教育的扩张出现得更晚。在1977年恢复高考后,具有高等教育水平的人的数量开始稳定增长, 1999年开始的大学扩招( 刘生龙、胡鞍钢,2018 )使得接受高等教育的人的数量和比例迅速增长。与此相应的是,改革开放初期,中国的教育回报曾经相对很低( Johnson and Chow,1997 ),在80年代甚至出现了“脑体倒挂”现象( 李春玲,2003 )。而在90年代和21世纪初期,这一趋势发生了改变,中国的教育回报在相当一段时间内维持了稳定且显著的增长。

李实和丁赛( 2003 )通过分析1995年、1999年两期入户调查数据后,发现20世纪90年代中国城镇居民的教育收益率不断增长,尤其是高等教育与其他教育层级相比相对回报率有更大的提升,而同一时期,小学及以下的教育层级的收入增长近乎停滞。从1991年到2006年6期的中国健康与营养调查( CHNS )数据显示,尽管在90年代初期的确出现了“脑体倒挂”现象,但这个趋势随后迅速逆转,并呈现学历越高收入越高的特征,而高等教育的回报率在经历了90年代的快速增长后, 2004—2006年出现停滞状态( 何亦名,2009 )。刘泽云( 2015 )对横跨1988年到2007年的4期中国城镇居民收入调查的数据研究后同样发现,高等教育的回报率自2002年以后涨幅明显变小,但在把个体配偶的教育水平作为工具变量后,又发现这一时段回报率的涨幅其实是能够与前期相匹配的,而在线性回归中观察到的2002年的高等教育回报率涨幅停滞趋势主要来自女性与年轻群体。

胡安宁和希贝尔( Hu and Hibel,2014 )基于CGSS 2003年和2010年2期数据的研究发现,大学学历的经济回报在该时间窗口呈增长趋势,且出生于不同社会背景的个体在接受高等教育后获得的经济回报具有同质性;袁媛和张文宏( 2023 )通过合并2005年到2021年10期的CGSS数据后分析发现,与20世纪六七十年代出生并接受过高等教育的群体相比,“80后”“90后”的收入回报有明显降低,高等教育获得者的收入回报整体呈现V型趋势,2013年前后经济回报最低;王骏( 2016 )对CHNS 1989年到2011年的9期合并数据分析后发现,高等教育回报率在该时段整体呈现波动上升的趋势。此外,郭冉和周皓( 2020 )对CGSS 2003年到2015的9期数据分析后发现,在控制个体接受高等教育的概率变量后,伴随着大学的扩招,高等教育的回报由偏向中低阶层群体转为只对中产阶层显著的倒U型模式。

2. 其他教育层级

与高等教育层级相比,有关其他教育层级经济回报的研究明显更少。现有案例显示,与普通大学本科相比,成人教育本科的经济回报率显著更低,二者的经济回报率未表现出显著差异。同时,高等教育的收入回报又都显著高于高中教育( 许玲丽等,2008 )。就职业教育与普通高中教育的经济回报差异而言,尽管接受职业教育的群体与具有高中学历的群体相比整体上拥有更高的收入水平,但随着职业教育文凭价值的降低,这种相对优势在1990年后接受职业教育的群体( 从出生队列看为1975年后或1980年后出生的人 )中已不复存在( 陈伟、乌尼日其其格,2016 )。已有研究显示,高中教育的回报率曾经长时间保持增速,但在2009年后有大幅度降低( 王骏,2016 );刘生龙等( 2016 )通过将义务教育法的实施时间设置为断点,使用自然实验设计的方法确认了完成义务教育者的教育回报率相较于未完成义务教育的个体有显著的增长;曹黎娟和颜孝坤( 2016 )使用2011年CHNS横截面数据的研究,通过对比不同教育层级的经济回报差异,发现教育收益率随着教育阶段的提升而不断增长,这个规律在城市和乡村的群体中均适用。
(三)群体层面的趋势追踪:研究教育回报的另一种视角
综观以上有关教育回报趋势的研究,大多存在时间窗口较短、相邻调查间距较大、未能涵盖最新近的信息等不足。而最近的一些研究,受益于CGSS、CHNS等系列调查的长期积累,得以呈现更丰富的细节( 王骏,2016;郭冉、周皓,2020;袁媛、张文宏,2023 )。已有研究的另一个缺憾在于主要关注高等教育的回报,而对其他教育层级的关注相对较少。此外,现有相关研究通常沿用明瑟方程来比较特定教育层级对应的回归系数在不同年份的差异,但以个体收入( 对数 )为因变量的明瑟收入方程更适用于即时的横截面数据,当该方程应用于多期横截面组成的长时段数据时,就需要考虑货币购买力的纵向变化。尤其是中国近20年来,个体的绝对收入水平经历了显著的非线性增长,已不适用于在同一模型中直接计算并比较不同年份对应系数的做法,很多关注教育回报长时段趋势的研究因此都选择将不同年份的样本数据分别纳入独立模型,然后再对比不同模型对应回归系数的变化( 何亦名,2009;简必希、宁光杰,2013;刘泽云,2015;王骏,2016;郭冉、周皓,2020 ),这也使得相关研究的模型限制更多,解读起来更加复杂。

此外,明瑟方程在设定上更关注于微观个体的生命历程,而这一视角与追踪长时段趋势的目的有所不同。比如,经典明瑟方程假设市场环境是完全竞争的,即同等人力资本的回报率在不同岗位、地区和环境都相同,但这与现实情境并不相符,因此,研究者往往选择在模型中增加个体行业、岗位、地区等控制变量,以求从教育的“毛收益”中解析出“纯收益”( 李实、丁赛,2003 )。但个体从事的行业和岗位等变量同样受教育的影响,控制这些特征相当于控制了教育到收入的中介变量,又会导致对教育回报的低估( 刘泽云,2015 )。事实上,与自然实验设定相比,单纯的明瑟方程并不能胜任剥离出代表着因果关系的“纯收益”的任务,而这种设定的不确定性也会传导到对教育回报趋势的测量中。

考虑到上述问题,本文将采用一种有别于微观个体生命历程的宏观趋势追踪视角。两者的区别在于,基于微观个体生命历程的研究需要在模型中控制其他变量的影响,并从教育的毛收益中分解出纯收益;宏观趋势追踪则把教育层级作为群体划分的唯一标度,关注不同群体之间的宏观差异,因此会聚焦于教育在群体中的毛收益而非对个体的纯收益。需要说明的是,本文所说的“宏观”,指的是全景式的宏观历史变动视野,而不是在省份、城市等层面的区域性宏观测量。事实上,作为个体收入最重要的影响因素,教育层级天然具有划分群体的功能。已有研究指出,在获得高等教育后,家庭出身对个体获得的经济回报的影响大大降低( Hout,2012 )。也就是说,优势地位家庭影响子女在劳动力市场中表现的主要途径是增加其获得更高教育层级的机会,而来自劣势地位家庭的子女接受优质教育后获得的相对教育回报会更高( Brand and Xie,2010 )。在一定程度上,接受相同的教育抹平了个体间的先赋差异,使他们在劳动力市场上获得了相似的起点。因此,教育水平无论在多大程度上代表个体能力的高低或文化资本的多少,学历或教育层级本身作为一种既有符号都已经将社会成员划分为不同的群体,并与这些群体在劳动力市场上的差异化回报密切关联。由此可见,从宏观上度量来自不同教育层级群体的市场表现本身就具有重要意义。


仍然需要说明的是,本文选择从群体层面聚焦教育层级与经济收入的直接关联,暂时不关注个体的因果,但这并不意味着忽略了各教育层级群体的内部异质性,而是强调他们在教育层级这一个决定收入水平的核心特征上有相同的标签,并能够作为同一个群体加以考量。本研究同样强调对趋势背后机制的探索,只是更聚焦于宏观层面社会结构因素的纵向变迁带来的影响,而不是微观上基于个体经历的因果关联。

(四)社会结构变迁的影响

与横截面或短窗口的研究相比,探讨教育回报长时段趋势的研究需要格外关注诸如教育层级分布、市场岗位类型等社会结构因素的影响,这是因为,这些因素在短期内一般不会有剧烈变动,但在较长的历史跨度里会出现明显变化。举例来说,通过20年高等教育的人才积累,具有高等教育水平的人的社会占比会更高,更充足的市场供给可能会降低高等教育水平群体的市场价格。同时,经过近20年的发展,社会需求获得了更充分的释放,高端岗位被不断创造出来,也为高等教育水平群体提供了更丰厚的经济回报。这些社会结构的变化共同影响着不同教育层级的经济回报。

因此,我们强调,在基于横截面或短窗口的研究中,宏观社会结构因素的变迁对教育回报的影响固然可以被相对忽略,它对于意图理解长时段教育回报趋势的研究却非常关键。近20年来,中国社会的一些结构特征已经发生明显改变,并在宏观层面上作用于教育层级和收入分配。比如,周翔( Zhou,2014 )通过比较高等教育扩张、国有部门就业占比下降、农村到城市的人口迁移等三种社会结构因素变化对城镇收入差距的作用,发现前两种社会结构因素对收入差距的扩大有显著影响。同样是探讨城镇工资不平等的来源,艾普尔顿等( Appleton,et al.,2014 )基于3期家庭收入调查数据的研究则强调了性别、职业、所有制形式及地区间的结构因素变化的作用。此外,一些研究着重强调了劳动力市场环境与提供的岗位变化对教育回报的影响,比如:王骏( 2016 )认为,高等教育回报的变动主要是由市场对相关人才需求的变化引起的,同时,高等教育发展带来的人才供给变化也有辅助效果;1993年国有部门劳动工资制度改革对教育收益率有明显提升作用( 齐良书,2005 )。其他一些研究则涉及教育扩张( 常进雄、项俊夫,2013;张超等,2015;郭冉、周皓,2020 )、体制内外收入模式差异( 李春玲,2003 )等社会结构因素的影响。此外,不同维度的社会结构因素可能存在交互作用,比如,大学扩招使得接受高等教育的群体不断增长,而他们将来更可能留在城市并从事非体力劳动( 张超等,2015 )。于潇和陈世坤( 2019 )使用广义分位数回归区分教育水平与不同人口流动模式间的交互效应后发现,城乡流动对不同教育水平的回报有差异性影响,且这些分布特征的变化也影响不同教育层级群体之间经济回报的差异。本文尝试采用因素分解的方法来探讨社会结构因素给不同层级教育回报带来的影响。


数据与方法


(一) 数据
本文的分析数据来源于由中国人民大学及其中国调查与数据中心主持的12期中国综合社会调查(CGSS)( 2003、2005、2006、2008、2010、2011、2012、2013、2015、2017、2018、2021 )。CGSS采用分层抽样设计,覆盖社区、家庭与个人等多个层面,各期样本在全国范围内拥有良好的代表性,是中国现有质量最高的连续性综合调查数据之一。通过对各期数据的选定变量进行统一标准的清洗整理,我们将12期数据合并为统一的数据集加以分析,并以年份虚拟变量标识各期的调查时间。因为本文聚焦的是不同教育层级相对经济回报的变迁,所以参考已有研究操作,去除在调查期间处于失业或在校状态的样本后,最终获得有效样本90216个。

需要注意的是,CGSS在不同年份的抽样策略有一些差异,比如,2003年的调查仅在城镇地区抽样,2021年的调查样本未覆盖上海、云南等13个省份,为此,我们也尝试仅选取城镇样本、选取来自所有调查时期均覆盖的省份的样本等设定,以确保分析结果的稳健性。此外,在一些早期年份的调查样本中,研究生及以上学历较少( 如2003期、2005期分别只有30位、22位 ),在结果中体现为该组趋势线的置信区间更宽,波动更剧烈,本研究在解读相应结果时会予以考量。

(二) 变量

1. 被解释变量

本文的被解释变量是“个体收入水平”。我们将包括工资与其他收入在内的个体年度总收入处理为个体月平均收入。由于收入分布多呈现长尾分布,在描述收入变量统计特征时会因为少量离群值而出现较大偏差,所以已有研究多采用将收入数值取对数或删截处理( cut-off )的做法( Engzell and Mood, 2023 )。为了避免改变变量分布,本文采用第二种处理方式,对各期数据分别以平均数加和标准差的5倍作为上界,删去个体月收入超过此界的样本。因为这里的5倍标准差为主观选定的界限,所以我们也尝试使用4倍或6倍标准差,以及使用封顶处理( top-code )的方式,将超出收入上界的样本统一赋值为该上界而非删除等做法作为稳健性检验,所得结果均保持一致。

2. 解释变量

本文把“教育层级”作为关键解释变量。与受教育年限相比,本文更关注作为类别变量的不同教育层级之间的回报差异。已有研究显示,按照不同教育层级计算的年平均教育回报率存在明显差异( 李实、丁赛,2003;李峰亮等,2008;何亦名,2009;简必希、宁光杰,2013 )。参考已有研究设定( 李实、丁赛,2003 ),本文将中专、中等技术学校及职业高中合并为“职高/中专/技校”以代表中等职业教育。为保证每个类型都包含较充分的样本自由度,我们将高等教育区分为“大学专科”“大学本科”“硕士及以上”,但在本科/专科学历中不再区分全日制和成人教育,这样的做法与已有处理方式一致( 李雪松、赫克曼;2004 )。许玲丽等( 2008 )发现,尽管成人教育本科的经济回报率低于普通大学本科,但其相对差异远小于与其他教育层级之间的差别,且成人教育专科与普通大学专科之间的经济回报率没有统计学差异,也佐证了这种分类的合理性。其他教育层级包括“不识字”“小学”“初中”与“(普通)高中”。少量样本的教育水平是“私塾教育”,在分析中统一归入小学层级。

图1以描述性统计方式展示了不同年份各教育层级群体的月收入均值,纵坐标的个人月收入水平采用了对数化处理。图1显示,在过去的20年,中国民众的月平均收入呈现显著的增长趋势,且这种趋势在不同教育层级的群体中普遍发生;不同教育层级的群体在平均收入上存在稳定的分层现象,即各教育层级对应的收入序列在不同年份保持稳定。具体而言,大学及以上学历的群体始终处于收入的最高位置,其次为职业高中与高中学历群体,而初中、小学学历及不识字的群体月平均收入始终居于最低端,这种平均收入的排序与日常大众社会认知中的“教育层级”完全对应,反映了教育水平与收入的正相关关系。值得注意的是, 因为2003年的数据只包含来自城镇地区的低学历样本,而之后各期调查数据均包含了来自农村地区的低学历样本,而城镇地区的较低学历群体平均收入水平明显高于农村地区的较低学历群体( 任强等,2008 ),所以,这种样本选择偏差导致了2003年的数据中初中及以下学历群体的平均收入水平高于之后数期数据。



伴随着近20年中国经济的迅猛发展与社会的急剧变化,不同年份的工资数值在购买力等方面存在很大差异。因此,更为合理的比较方式是构建一种基于各年份情况的弹性指标,即先计算同一时期组间相对差异,再对比差值在不同时期的变化趋势。这种做法近年来在收入不平等研究领域比较流行,比如:维默等( Wimer,et al.,2020 )利用处在10%—50%收入分位的美国家庭的收入比值( p50/p10 )变化来呈现近50年美国家庭收入分布的不平等趋势;帕罗林等( Parolin,et al.,2023 )聚焦美国低收入群体,通过计算处于5%—15%收入分位的美国家庭的收入比值来揭示福利制度如何加剧了低收入群体内部的分化;宋曦等( Song,et al.,2020 )使用基于同一时期各类职业从业者的教育程度排名来计算相对职业声望的“rank-rank”法测量美国社会150年的代际流动趋势。此外,尽管现有教育回报研究大多遵循明瑟方程的设定,纵向对比相邻时段同一教育层级的对数收入差别,但一些研究也选择报告横向对比的不同教育层级间收入差异及其变化趋势( 李实、丁赛,2003;何亦名,2009 )。以上案例都佐证了本文研究策略的合理性。

不过,上述研究都存在作为“锚定点”的固定的位置指标,如收入分布的特定百分位、职业的相对声望排名等。但是,不同教育层级的群体收入均为非固定的分布区间,无法直接比较差值。为此,我们采用组间T检验的方式检验两组分布是否存在统计学意义上的显著不同,并构建不同教育层级间收入差异的相对比值和置信区间,两项指标的公式表达如下:

其中,r代表作为参照组的教育层级。本文统一选取“高中”为参照组,是因为接受高中教育的样本比较多,且高中教育水平群体的收入水平变化相对稳健,取对数后为近似直线的幂率分布( 见图1 )。此外,高中教育位于基础教育和高等教育之间,虽然具有高中学历的人在传统认知中属于“知识分子”,但又不能在工作分配、城镇落户、学历门槛等方面享受优待,从而使得高中教育成为一种“中间层级”的教育类型,已有研究也多使用高中教育水平与其他教育水平作对比( 何亦名,2009;简必希、宁光杰,2013 )。 指教育层级为l的群体收入均值 与高中教育层级r收入均值 的差除以 基底后得出的相对比值,代表了该教育层级群体的收入相对于高中教育层级群体收入的差异。比如:如果某期数据 为0.5,则意味着教育层级为l的群体平均收入是高中教育层级群体平均收入的1.5倍;假设某期小学教育层级群体的 值为-0.5,则代表当期小学教育层级群体的平均收入仅为高中教育层级群体的一半。所以,我们让不同时期高中教育层级群体的 始终等于0,这样,具有高中学历的人就可以充当在不同调查时期之间锚定的参照物。置信区间的上下界则由相对收入差值加减0.05的统计水平的T检验置信区间( 1.96倍标准误 )后除以 基底得到。

3. 社会结构变量

参考已有研究,本文主要关注包括群体人口学特征、原生家庭背景、教育层级分布、家庭结构变迁、市场岗位环境这五个社会结构维度的14个变量。近20年来,中国社会结构在这些层面上均有一定程度的变化,并进一步影响了不同教育层级群体的收入水平。比如,劳动力市场上高等教育水平群体比例上升可能使得对口岗位竞争更加激烈,群体平均教育回报相对降低。市场的扩大、高端岗位的增加,以及对口人才面临更丰厚的机会和待遇,又可能会提高特定教育层级的经济回报。其中,人口学特征维度包括样本性别分布、是否少数民族和受调查时的年龄区间;原生家庭背景维度包括样本14岁时的户口分布、父母的教育层级和父母是否至少有一人为党员;教育层级维度包括各期数据中不同教育层级群体的分布;家庭结构维度包括婚姻状态与子女数量分布;市场岗位环境维度包括样本户口分布、是否为党员的分布、工作状态和所在单位性质。表1展示了相关变量在合并数据中的分布。这些变量在不同调查年份有明显变化,使用卡方检验均呈现高度的统计学显著性。进一步提示长时段的社会结构变化在本研究不可忽略。表1也展示了有效样本的出生队列( cohort )分布,处在同一队列中的个体有相近的生命历程,会面对相同的时代与社会环境,因而在分析中作为与调查年份平行的另一种纵贯度量方式。

(三)反事实的分解框架

为了解决因购买力变化和异质性等因素带来的不同年份工资不可比的问题,本文比较的是同期教育回报相对比值的变化趋势,而不是直接对比收入( 对数 )数值。然而,如果不控制社会结构特征的差异,而是只关注不同年份相对比值的对比,将难以区分不同年份之间的差异究竟是来自教育回报的直接变化还是社会环境的变迁。换言之,不妨将社会结构的变迁视为导致教育回报“上升或下降”趋势的部分原因,分析这些社会结构因素在什么程度上决定了教育回报的走向是机制探索中的关键环节。因此,本文选择采用帕罗林等( Parolin and Gornick,2021;Parolin,et al.,2023 )基于迪纳多等( DiNardo,et al.,1996 )的研究方法发展出来的分解框架,通过对不同调查年份样本构建反事实情境的方式,揭示社会结构因素对不同教育层级经济回报差异的影响。

自从Blinder-Oaxaca分解方法( 简称“BO分解框架” )将工资分解为个体特征与结构变化两项( Jane,2008 )之后,经济学领域已开发出很多因素分解方法( Fortin,et al.,2011 ),并被广泛应用。比如,司秋利和张涛( 2021 )结合分位数回归与BO分解发现,当前高等教育回报兼具偏好中高收入群体的“马太效应”与缩减城乡收入差距的“公平效应”两种特性。布朗分解则在BO分解框架的基础上增加了职业类别维度,比如,陈伟和乌尼日其其格( 2016 )使用布朗分解后发现,接受职业教育与普通高中教育的群体之间的收入差异,主要是接受职业教育者更倾向于从事专业技术类职业所致。还有研究对比了城镇人口在1996年和2010年的收入差距,并使用方差回归( Western and Bloome,2009 )分解收入差距扩大的趋势,将其归因为教育回报提升与劳动力市场结构变化的共同作用( Zhou,2014 )。


考虑到基于均值的分解方法无法区分工资分布的整体差异( 卢晶亮,2018 ),迪纳多等( DiNardo,et al.,1996 )提出了通过对样本重置权重的方式来构建反事实情境的“权重重构法”( reweighting approach )。这种方法是基于指定基准样本分布对目标样本重置权重,使得目标样本的选定特征能够与基准样本相匹配,从而使得不同时期样本的社会结构因素具有可比性,也可以理解为通过计算倾向值得分来加权匹配样本的操作( 胡安宁,2012 )。如果目标样本中特定个体的特征与基准样本比较接近,则所赋予的权重更大;反之,如果一些样本的特征与基准样本相差很大,则会被赋予更小的权重。通过这一操作,指定样本就被重构为一种和基准样本特征类似的“反事实情境”。基于这一思路,已有研究使用以权重重构为基础的再中心化方法( Firpo,et al.,2018 )构建反事实情境,并结合分位数回归,报告了城市劳动群体收入不平等上升的影响因素主要是国有单位就业占比下降与非正规就业比重的上升( 卢晶亮,2018 )。帕罗林等( Parolin and Gornick,2021;Parolin,et al.,2023 )的因素分解框架也是采用迪纳多等( DiNardo,et al.,1996 )的“权重重构法”构建控制社会结构特征后的反事实情境,并将不同层级教育回报的相对比值变动分解为社会结构变化所导致的变动和剩余变动两部分。在构造权重时,我们通常以是否来自基准样本为依据构建二值变量,并使用Logit或Probit模型拟合和计算特定个体属于基准样本的概率。为便于解读,基准样本一般选取首尾时期的数据。随着CGSS的调查方法的不断完善和样本规模的扩大,新近的调查表现出更优的数据质量,本文因此统一选取2021年的调查样本作为基准样本。基于2021年调查的结构变量分布,其他调查年份的各个样本被赋予不同的权重,权重公式为:

其中,x代表指定的结构变量, Pr( t x |x) 为控制结构变量分布后样本来自 t x 期的概率期望; Pr( t x 则是不控制任何变量时任一样本来自于 t x 期的统计概率; ta 代表除了作为基准的2021年之外的任一调查年份。通过将来自 ta 年份的样本重新赋予计算所得权重,从而获得一种能够与2021年调查数据的社会结构特征类似并可以比较的反事实状态。

基于这种构造的反事实情境,我们将不同年份给定层级教育回报的相对比值变动,分解为因为指定社会结构特征变化导致的差异与剩余变动两部分。分解过程表达式如下:

其中, 为之前构造的调查年份教育层级l与作为参照组的高中教育水平群体r之间的平均收入相对比值, 则是以控制社会结构因素为2021年水平构造出的反事实ta调查年份状态重新计算教育层级l与高中教育水平群体r之间的相对收入比值,即经过权重重构后得到的反事实情境下的相对比值。通过引入反事实的ta调查年份的情境,我们将特定教育层级群体l在ta年与2021年相对收入的差值分解为两个部分:右式第一部分为真实的收入相对比值与同一年份反事实情境下相对比值的差异,代表可以由该年社会结构因素与2021年不同而解释的部分;第二部分是该年反事实情境的相对比值减去2021年的教育回报比值,在控制社会结构因素的情况下,这部分代表了从ta年到2021年社会结构因素变化不能解释的剩余变化。在结果展示中,考虑到不同教育层级间相对比值存在明显差异,我们将真实值与反事实值间的差值除以作为参照组的2021年对应的教育层级相对比值的绝对值,即在将社会环境特征与2021年匹配后,ta年真实与反事实情境间的差异相当于2021年水平的百分比,具体指标构造公式如下:


为了进一步探讨各维度的社会结构变化对教育回报的相对比值有怎样的影响,我们通过不断变动匹配过程中控制的社会环境变量来细化分解框架,以将不同维度社会结构因素的混合影响分解开来。在构建反事实情境时,选取的变量决定了目标样本和基准样本在哪些维度上进行匹配:当某一维度的变量信息被纳入匹配过程时,就意味着构建权重时包含了基准样本在这一维度上的特征;如果这些变量未被纳入匹配,则构建出的反事实情境在该维度上就不会与基准样本匹配。因此,通过不断改变用于匹配的变量,构建并比较不同的反事实情境效果,我们就可以估计出特定维度的信息对各教育层级的相对收入有怎样的影响。因素细分框架的公式表达如下:

其中, 指B维度的结构性因素对ta年教育回报相对比值的影响, 的涵义是控制除B维度外的其他结构性因素到2021年的水平。整式即由前式第一部分代表的结构性因素影响减去不考虑维度的结构性因素影响,从而获得单纯因B维度因素影响带来的比值变化。

为了控制不同社会结构维度之间可能存在的交互效应的干扰( Parolin and Gornick,2021 ),我们按照各社会结构因素在个体生命历程中的一般发生次序,设计了一种“层层剥笋”式的策略。如表2所示,权重5包括了所有社会结构特征的14个变量,也就是在分析整体社会结构因素变迁影响时基于的反事实情境 。从权重4到权重1,依次剥离市场岗位环境、家庭结构、教育层级、原生家庭背景等变量,直到只控制最基础的人口学特征变量。由此,本文对于除了作为基准项的2021年之外的各年份的调查数据,分别构建出5套反事实情境,从而分别获得各维度社会结构特征对教育相对回报的影响。本文实证部分基于R语言实现。


(四)稳健性检验

为了确保本文结果的稳健性,我们在各分析环节尝试了诸多不同的设置,包括修改删截处理的上界为平均值加上4倍或6倍标准差;使用封顶处理( top-code )将过高收入样本统一赋值为平均值加上5倍、4倍或6倍标准差;控制样本年龄为25—60岁或55岁;扩大样本到包含全体报告有效个人收入的样本;选取在调查期间居住在城镇地区的人作为样本;选取来自各年调查均覆盖的省份的人构造样本;替换基准年份为2003年或2012年;替换参照组为初中或大学本科群体;在计算反事实权重时乘上CGSS提供的各期样本权重等。最终的检验结果显示,变更这些设置对不同教育层级相对经济回报的主要趋势影响有限,本文的主要结果仍然成立。


实证分析结果


我们将分三部分呈现实证结果:首先展示不同教育层级经济回报差异的变化趋势;其次,对比真实趋势与反事实趋势间的差异,并测量结构化因素对不同教育层级经济回报的影响;最后,逐次拆分不同维度的社会结构因素变化,探讨这些因素对教育回报的作用方向和影响程度。此外,由于不同出生队列的人往往经历了不同的社会环境,而同一出生队列的人的生命历程更为相似( Fosse and  Winship, 2019 ),因此,我们也以5年为期划分队列,并把出生队列作为纵向时间维度,来呈现不同教育层级的经济回报按出生队列的变化趋势。

(一) 不同教育层级经济回报的差异趋势

图2展示了不同教育层级的平均收入与高中教育水平群体的相对比值随调查时间的变化趋势。图中各点如显示对应的置信区间,则表示该教育层级与高中教育水平群体之间的T检验结果具有高度统计显著性。再有,图中横轴坐标对应的是各调查年份,因而是非连续的变量,相邻调查时段的最大间隔为3年( 后面各图均同 )。


与图1相比,尽管近20年来民众的收入水平呈非线性增长,但各教育水平群体收入的相对比值稳定在相对固定的范围( 见图2 )。比如,与高中教育水平群体相比,大学本科教育水平群体收入的平均相对比值为0.97,意味着大学本科教育水平群体的收入均值比高中教育水平群体高出近1倍。这一数值在各调查年份保持相对稳定,最大值出现在2010年和2021年,都为1.29,而最小值是2006年的0.69。再比如,职高/中专/技校教育水平群体的收入比高中教育水平群体平均高出15%,两群体收入相对差距的最小值为2006年的6.7%,最大值为2021年的24%。此外,不识字群体、小学与初中教育水平群体的平均收入分别比高中教育水平群体低69%、53%和26%,而大专教育水平群体的收入比高中教育水平群体平均高51%,在各年份均大致稳定。但硕士及以上教育水平群体例外于此规律,他们的收入平均比高中教育水平群体高2.1倍,但在不同年份存在明显波动,最小值为2012年的1.14,最大值是2021年的3.55,意味着对应年份硕士及以上教育水平群体的平均工资分别大约是高中教育水平群体的2.14倍和4.5倍。同时,硕士及以上教育水平置信区间范围也明显大于其他教育水平群体,出现这一现象的可能原因,除了该群体组内收入差异更大外,更主要是由于具有硕士及以上教育水平群体的样本量在各期调查中都比较有限。

就图2呈现的整体趋势来看,不同教育层级收入的相对比值在近20年均有波动,而不是单调的增减。从2010年之后看,大学本科和硕士及以上教育水平群体的相对收入整体呈现上升趋势,不识字群体的相对收入也有增长,而其他教育层级群体的相对收入基本上仍是小范围波动。

出生队列为相对收入的变动趋势提供了另一种观测维度。图3以个体样本的5年期出生队列为横坐标,描绘了不同教育层级相对收入按照出生队列次序的变动趋势。由于样本对应的教育时期与样本量限制,我们仅关注1950s—1995s这10个5年期出生队列。由于同辈群体往往有类似的生命历程,面临相同的社会环境,并参与劳动力市场的同期竞争,使得队列内部可能呈现不同于当期社会整体的特征性趋势。图3显示,1970年以后的出生群体与20世纪五六十年代的出生群体在教育回报模式上存在明显差异。五六十年代的出生群体接受职高/中专/技校及以上教育后获得的相对经济回报显著高于“70后”,也高于“80后”和“90后”。在1970年以后出生的群体中,职高/中专/技校教育层级的收入回报与普通高中层级相比已不再占有优势,这与陈伟和乌尼日其其格( 2016 )研究的结论一致。一种可能的解释是,对于五六十年代的出生群体,中专曾是仅次于大学的高筛选教育,而在七八十年代以后,职业教育的筛选功能和声望均有所降低。再比如,在五六十年代的出生群体中,大学本科教育水平群体的平均收入要比高中教育水平群体高160%,而在“70后”中为99%, 在“80后”和“90后”中则只高出57%。所以,从出生队列维度来看,确实存在一种出生时间越晚,高等教育水平群体的相对经济收入越低的趋势。但是,就硕士及以上教育层级来看,虽然在“60后”和“70后”中的相对教育回报有明显降低,但在1970年以后的出生群体中,除“95后”外,相对教育回报都保持在一个较为平稳的水平( 高出高中教育层级平均收入217% )。



值得注意的是,与其他出生群体相比,“95后”的高等教育水平群体的相对回报呈明显降低趋势,这主要是调查时点的制约所致( 方长春、风笑天,2018 ), 而不是因为“95后”的高等教育回报出现了明显下降。以1995年出生的样本为例,如果按年龄估算,研究生25岁毕业,本科生22岁毕业,高中生18岁工作,在2021年受访时,该年出生的研究生刚参与工作1年,本科生仅有4年经验,而高中生已经工作8年了。也就是说,“95后”的高等教育水平群体参与工作的时间远短于同出生队列其他教育水平群体的工作时间,从而导致工作年限带来的薪资差异在短期内掩盖了不同教育水平带来的收入差距。另外,在“50后”中,硕士及以上教育水平群体的相对教育回报低于“60后”,这可能是该区间样本数量过少所致。
(二) 反事实年份趋势对比
本节呈现的是在以2021年的社会结构特征为基准构建的反事实情境下,各年份不同教育层级的相对教育回报,并与上面一节展示的真实状态进行对比。图4展示的是在控制社会结构特征为2021年的水平后,反事实情境下各教育层级的回报趋势。与真实情境相比,反事实情境下职高/中专/技校教育水平群体和2011年以前的大学本/专科教育水平群体的相对回报有更明显的波动;不识字群体在反事实情境下则呈现一种单调微升的趋势。为凸显真实值与反事实值之间的相对差异,即社会结构因素变化对相对教育回报的影响,我们在图5展示了以2021年水平为基准的各教育层级真实值与反事实值间相对差值的变化趋势。







请到「今天看啥」查看全文