专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信菜鸟团  ·  代码公开简单易实现,新发Nat.Cancer ... ·  3 天前  
生信菜鸟团  ·  前瞻 | ... ·  3 天前  
生信菜鸟团  ·  SCENIC+效果不好?新的GRN算法 ... ·  3 天前  
生信宝典  ·  iMeta | ... ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

Nature: 评估普遍性和对指标痴迷常以牺牲明智的判断为代价,学术界也不例外

生信菜鸟团  · 公众号  · 生物  · 2025-02-20 10:30

正文

Basic Information

  • 英文标题:Regional and institutional trends in assessment for academic promotion
  • 中文标题:学术晋升评估的区域和机构趋势
  • 发表日期:22 January 2025
  • 文章类型:Article
  • 所属期刊:Nature
  • 文章作者:B. H. Lim | Y. Flores Bueso
  • 文章链接:https://www.nature.com/articles/s41586-024-08422-9

Abstract

Para_01
  1. 研究绩效评估被广泛认为是维护最高质量标准的重要工具,人们相信选择和竞争能够推动进步。
  2. 学术机构需要在招聘和晋升方面做出关键决策,同时面临外部压力,受到研究评估的影响。
  3. 在此,我们基于来自190所学术机构的314项政策以及58个政府机构的218项政策,涵盖全球北方32个国家和全球南方89个国家,提出了关于职业发展研究评估的展望,特别关注晋升为正教授的相关政策。
  4. 我们调查了各种晋升标准被提及的频率,并进行了统计分析以推断政策中的共性和差异。
  5. 尽管定量评估方法仍然流行,这与地理范围较局限的研究结果一致,但它们并非无处不在。
  6. 我们发现全球北方和全球南方之间、机构政策和国家政策之间存在差异,但在学科之间的差异较小。
  7. 对 bibliometric 指标的偏好在中高收入国家更为明显。
  8. 尽管存在一些变化,但许多晋升政策基于特定的职业路径假设,这些假设逐渐成为规范而非包容多样性。
  9. 反过来,这限制了研究人员的机会。
  10. 这些结果挑战了当前的做法,并对研究人员、研究管理者和国家政府具有战略意义。

Main

Para_01
  1. 评估的普遍性和现代社会对指标的痴迷常常以牺牲明智的判断为代价,学术界也不例外。
  2. 绩效评估被广泛认为是维护高标准所必需的,选择性流程和竞争被认为能够推动进步。
  3. 然而,绩效指标可能成为自身的目的,当与原始目的不一致时,评估会失去效力。
  4. 此外,人们可能会质疑,作为核心价值的竞争是否适合一个依赖多样性并依靠合作来产生影响的全球研究生态系统。
  5. 如果我们的目标是通过知识的创造来推动社会进步,我们需要理解从全球层面到个人研究人员的研究评估如何能够积极地为研究生态系统做出贡献。
Para_02
  1. 声称推动研究‘卓越’并以‘卓越’记录为荣已变得司空见惯,但这种卓越具体指的是什么却并不清楚。
  2. 如果‘卓越’在不同背景下有所不同,这可能并不会造成问题。
  3. 然而,市场化的加剧使研究机构面临竞争压力,在这种压力下,研究管理者面临着组建高效团队的挑战,这些团队需要提供长期价值,同时保持与财政支持相关的外部认可,而这通常与存在缺陷的大学排名相关联。
  4. 这些管理决策影响着各个职业阶段的研究人员,尤其是在招聘、评估、留任和晋升方面。
Para_03
  1. 科学计量学的广泛应用,特别是文献计量学,促成了对全球研究评估系统普遍性的认知,但这种观点忽略了实际实践的复杂性和多样性。
  2. 由于其简单性、低成本和被认为的客观性,指标具有吸引力,人们认为这可以减少偏袒。
  3. 然而,基于引用的文献计量学反映了社交网络并累积了主观决策。
  4. 透明性而非客观性是维护评估完整性的关键,因为评估不可避免地涉及人类判断。
  5. 科研成果为进展提供了重要证据,但仅展示了更广泛研究生态系统的狭窄视角。
  6. 仅以生产力和受欢迎程度来评估它们无法体现价值和严谨性。
  7. 在莱顿宣言中,科学计量学专家表达了担忧,即评估越来越由数据而非判断主导,并警告了指标的误用,期刊影响因子就是一个典型例子。
  8. SCOPE科研评估指南强调,绩效应根据机构、团体或个人的使命目标进行衡量,并尊重相关背景。
  9. 未能实现其目的的评估过程是无效的。
Para_04
  1. 香港原则(The Hong Kong Principles)通过承认知识可信度的重要性而产生,强调了认可促进科研诚信行为的重要性。
  2. 然而,通过定量指标追求‘卓越’常常导致不道德行为的出现。
  3. 联合国教育、科学及文化组织(UNESCO)关于开放科学的建议书指出,培育与开放科学相一致的全球研究文化需要适当的评估流程,以奖励良好的实践,正如全球青年学院和欧洲大学协会之前所强调的那样。
Para_05
  1. 随着越来越多的《旧金山研究评估宣言》签署方更新其程序、拉丁美洲社会科学委员会 (CLACSO) 推出拉丁美洲研究评估论坛 (FOLEC),以及诸如国际学院合作伙伴关系、全球青年学院和国际科学理事会之间的合作发布关于研究评估的研究并规划未来的联合倡议,变革的曙光已经出现。
  2. 与此同时,最初由欧盟委员会召集的庞大社区正在建立一个研究评估促进联盟。
  3. 对现有实践的广泛不满也导致了在国家层面上关于如何推进更好方法的讨论。
Para_06
  1. 我们对全球晋升实践的分析旨在克服一些偏见认知,并阐明其与能力、技能、生产力、影响和收益之间的联系。
  2. 我们预计,我们的研究结果将对研究人员和研究管理者都有重要价值,有助于他们理解职业选择和发展机会,并提供如何构建一个由负责任的参与者驱动的强大且多元的研究生态系统的指导。

Study design

Para_01
  1. 为了研究全球范围内研究人员如何被评估,我们进行了一项横断面分析,考察了晋升政策中使用的评估标准。
  2. 我们系统地识别并分析了选定的晋升标准,通过检查这些标准在晋升政策中的存在或缺失,并比较不同学科、领域、职业路径、机构类型和国家之间的差异与相似之处,同时考虑其社会经济背景。
  3. 我们并未遵循预先设定的协议,而是通过一项初步的试点研究开发了我们的研究方法,该方法随后演变为一个全面的框架(补充信息部分 1.1),使我们能够对来自全球机构文件的定性数据进行比较和量化。
Para_02
  1. 研究人员在各国、各地区和各机构的不同环境中工作,导致了职业发展角色的显著差异。
  2. 绘制所有职业路径超出了我们的目标,因此我们集中于(全职)‘教授’这一最高学术职位的晋升政策,这一职位在各国被广泛认可且具有可比性。
  3. 我们区分了标准学术轨道、研究导向轨道、教学导向轨道和临床轨道。
  4. 此外,我们专注于学术机构内的评估,不包括大学以外的角色,例如研究机构、临床环境或商业环境中的角色。
Para_03
  1. 在2016年5月至2023年11月期间,我们利用全球青年学院的会员和校友网络收集了概述晋升政策的文件,包括标准和程序(方法部分‘数据获取’)。
  2. 在研究试点阶段(2016年至2018年),我们收集了46项政策以完善我们的方法论框架。
  3. 随后,在第一阶段的数据收集过程中(2018年至2021年),我们从55个国家构建了一个包含196项政策的数据集。
  4. 2023年,我们更新了所有已收集政策的数据,并扩大了工作范围,纳入了来自全球南方欠代表地区更多政策,新增了440项政策。
  5. 通过这一轮收集,我们从121个国家的190个学术机构(‘机构政策’)和58个政府机构(‘国家政策’)获取了政策。
  6. 此外,样本中53个组织(机构或机构)的文件定义了多项区分职业路径和/或学科的政策,从而使收集到的职业路径特定和学科特定政策总数达到532项(图1;更多内容见方法部分‘翻译’至‘按学科、路径、全球区域和经济状况聚类’)。
Para_04
  1. 我们样本中的大多数组织(73%)位于欧洲和北美以外地区,提供了比以往研究更为多元的视角。
  2. 我们的研究涵盖了全球北方的32个国家和全球南方的89个国家,尽管我们并未提供国家层面的分析。
  3. 为了更好地反映普通申请者的现实情况,我们应用了后抽样权重,使得同一组织的每项政策具有相同的权重,同一国家内的每个组织具有相同的权重,并且每个国家的权重与其活跃研究人员的数量成比例。
  4. 我们的地理覆盖范围在图1中有所展示,数据的详细分类见扩展数据表1。
  5. 完整数据和代码可通过数据和代码可用性部分获取。

Fig. 1: Sample of promotion policies.

- 图片说明 - 地图展示了用于分析的数据的地理分布情况。 - 蓝色阴影(以对数比例显示)表示在我们获取政策的121个国家中,每个国家估计活跃研究人员的数量。 - 其他国家和地区以灰色显示。 - 半圆的面积分别与给定国家的机构或机构数量(黄色)以及政策数量(橙色)成正比。 - 该地图基于Natural Earth资料库中公开可用的地理数据制作,使用了50米陆地多边形GeoJSON数据集(https://www.naturalearthdata.com/)。 - 该图表通过geopandas和matplotlib楔形补丁生成,具体代码可在"代码可用性"部分提供的注释代码中查看。 - 作者不对任何有争议地区或边界争端持任何立场。 - 研究人员的数量来源于联合国教科文组织统计研究所和联合国教科文组织科学报告(补充信息部分1.7)。

General outlook of promotion criteria

Para_01
  1. 我们纳入了所有明确指定评估标准的教授晋升政策,这些标准涵盖了研究和教学(详见方法部分"数据清理(资格标准)")。
  2. 政策文件在范围、结构和详细程度上差异很大;在我们的样本中,28% 的政策是简要指南,而 72% 包含带有积分制的详细申请或评估表(扩展数据表 2 和 3 以及补充信息部分 1.4 和 1.5)。
  3. 总体而言,政策定义了三个领域:研究、教学和服务。
  4. 我们识别出 30 个关键标准,涵盖 5 个类别:研究成果、职业发展、认可、教学与服务以及一般特质。
  5. 在研究成果方面,确定了 11 个标准,其中要么是‘定量’(基于指标的;例如,文献计量学),要么是‘定性’(叙述描述和/或同行评审)描述符(方法部分 2.3 "标准与类别",扩展数据表 3,补充信息部分 1.3 和补充表 1)。
Para_02
  1. 如图2所示,我们样本中的政策反映了一个评估体系,该体系优先考虑研究产出(97%)、教学(93%)、资金获取(79%)和指导(75%),其次是与专业服务和认可相关的标准,例如行政角色、获奖情况和社会服务(每项在60%到70%之间)。
  2. 研究产出更常通过定量指标(92%)进行评估,而不是通过定性指标(77%)。
  3. 定量和定性方法的使用也有所不同,其中在定量指标中经常依赖专利(63%)和发表数量(61%),而在定性指标中则更多关注社会影响(53%)。

Fig. 2: Trends in research assessment.

- 图片说明 - a 和 b 显示了在调查的121个国家中,每个30项评估标准对研究人员产生影响的频率。 - a 展示了19个标准以及研究产出的一般类别,该类别进一步细分为7个定量指标(顶部)和4个定性指标(底部),如 b 所示(n = 532)。 - RC 表示认可;GTs 表示一般特征。

Regional and institutional differences

Para_01
  1. 我们样本中公平分布了来自全球北方(31%)和全球南方(69%;联合国统计司2018年分类)的国家政策(41%)和机构政策(59%),这使我们能够按地区分析政策类型。
  2. 如图3a所示,在我们的样本中,两类政策都评估教学,并且在频率上没有统计学差异(国家政策:91%,机构政策:94%,F = 0.305, P = 0.5814),并且两者都使用文献计量方法来评估研究成果(国家政策:85%,机构政策:89%的文件至少使用了一项定量标准;扩展数据表3和扩展数据图1),例如出版物数量(国家政策:76%,机构政策:59%,F = 1.353, P = 0.246)或引用次数(国家政策:33%,机构政策:26%,F = 0.258, P = 0.612),未发现显著差异,但在某些具体标准上存在分歧。
  3. 国家政策优先考虑研究产出指标,例如期刊索引(F = 6.059, P = 0.015)和近期出版物(F = 4.065, P = 0.045)。
  4. 相比之下,机构政策覆盖范围更广,更注重定性措施(F = 4.95, P = 0.0265,针对至少一项被定义为定性的政策标准进行测试;扩展数据表3),例如非量化出版质量(F = 19.622, P = 0.000),并重视跨学科性(F = 4.818, P = 0.029)以及职业发展方面,如长期科学前景(远见;F = 36.016, P = 0.000)。

Fig. 3: Frequencies by policy type and global regions.

- 图片说明 - 蛛网图展示了30个标准在机构(灰色)和国家(红色)政策中的频率,并根据标准类别分为四个蛛网图:研究产出、职业发展、教学与服务以及综合特征与认可。 - 条形图比较了国家(右侧)和机构(左侧)政策中用于评估研究产出的定性和定量标准的频率,区分了全球南方(绿色)和全球北方(灰色)。机构总数n=314(北方,141;南方,173);国家总数n=218(北方,24;南方,194)。

Para_02
  1. 在观察到的频率简单层面,我们发现全球南方(95%)有更高比例的政策依赖定量指标,而全球北方为84%。
  2. 然而,每组内部的高度变异性(全球北方估计平均频率的95%置信区间在0.71到0.92之间,全球南方在0.76到0.99之间),使得这一差异在统计上不显著(F = 2.44,P = 0.1188),尽管单侧等效性检验显示至少5个百分点的差异具有显著性(F = 9.04,P = 0.0028)。
  3. 同样地,我们在全球北方(83%)和全球南方(61%)对定性指标的依赖平均频率上观察到了差异,但该差异在传统意义上并不具有统计显著性(F = 3.27,P = 0.0712),然而,每组内部的高度变异性导致单侧等效性检验显示至少5个百分点的差异具有显著性(F = 5.22,P = 0.0227;在此情况下,全球北方的95%置信区间为0.70至0.91,全球南方为0.39至0.79;单侧检验的理由见方法部分"频率统计")。
  4. 图3b所示的区域细分分析表明,大多数政策类型的差异出现在全球北方,其中机构政策比国家政策更频繁使用定性标准(分别占政策的89%和34%;F(1, 86) = 14.7623,P = 0.0002;在此子样本中,n = 165)。
  5. 相比之下,全球南方在使用定性指标方面并未表现出政策类型之间的显著差异(均为61%,F(1, 181) = 0.0001,P = 0.9926;在此子样本中,n = 367)。
  6. 补充表5提供了按政策类型、世界区域、学科、轨道和国家经济状况划分的每个标准的皮尔逊χ2检验和基于设计的等比例F检验的详细结果。

Main trends in assessment

Para_01
  1. 除了测量频率之外,我们还考察了共现模式,以研究政策选择之间的任何相关性是否能够反映个别机构和/或国家政府的立场。
  2. 通过主成分因子分析,我们发现了四个潜在因子,它们共同解释了数据中累计65%的方差(详见扩展数据图2中的碎石图)。
  3. 从因子载荷图中可以观察到(扩展数据图3),每个因子代表了一组在相同政策中共同出现的独特标准集群。
  4. 值得注意的是,用于评估科研成果的定量和定性标准在这些因子之间被明显区分开来,这突显了它们在政策设计中的关键区分作用。
  5. 这表明组织通常会在定量或定性方法之间做出明确选择,并在整个政策中一致地应用所选方法。
  6. 相比之下,图4展示了其他预定义标准类别的交织情况,其中一些标准在多个因子上的载荷超过0.3。
  7. 为了便于解释,所有因子都被标准化为0到1的范围。
  8. 详细的分析描述见"因子分析"方法部分;单一标准的成对四分相关矩阵展示在扩展数据表4中,同时包括因子分布的可视化以及各政策类别间因子分布差异的检验结果和附加结果(分别见扩展数据图4和扩展数据表5)。
  9. 如图4所示,每个标准至少与四个因子之一对齐(按解释方差的顺序列出),可作如下解释——(因子1)产出指标:出版物和奖项的定量评估;(因子2)可见度与参与度:与学术界及更广泛社区的互动、跨学科努力以及在受邀职位和奖项方面的认可;(因子3)职业发展:海外经验、专业发展、职业服务与指导,结合引用作为认可的一个要素;(因子4)成果与影响:专利、资金、社会影响、远见卓识以及商业化和咨询。

Fig. 4: Factor analysis of the assessment criteria for promotion to professorship.

- 图片说明 - 热图显示了在对532项政策进行主因子分析后,并使用oblimin斜交法旋转所得到的每个评估标准在4个潜在因子(因子1-4)上的因子载荷(相关性的度量;方法)。 - ‘独特性’是指给定标准与其他标准不共享的方差部分。 - 空白表示载荷绝对值小于0.3,其他值则通过颜色比例突出显示;所有载荷均列于补充表5中。 - 我们为这四个因子分配了解释标签,以描述它们所涵盖的一组标准。

Factors influencing policy criteria

Para_01
  1. 为了调查哪些政策更加重视特定的评估标准,我们对图4中展示的四个因素分别进行了回归分析(详见方法部分"多元回归")。
  2. 政策根据上下文因素进行分类,例如全球区域、国家人均收入(世界银行)和大洲;以及与政策或职业相关的属性,例如职业轨迹、学科(经济合作与发展组织)或者政策是否专门针对正教授职位或更广泛地适用于学者。
  3. 关于上下文因素,在第二组回归分析中,我们进一步按全球区域区分政策类型(机构级与国家级)。
  4. 对于这两种模型设定,系数、稳健的标准误差和检验统计量详细列于补充表7中。
  5. 图5总结了具有区域特定政策类型的模型的主要结果(如补充表7所示,其他变量的系数在这两种模型设定之间没有变化)。
  6. 尽管由于每个回归使用了不同的因变量,直接比较各因素之间是不可能的,但该图清楚地表明,政策类别与每个因素的契合程度存在显著差异。

Fig. 5: Coefficients of the regression analyses.

- 图片说明 - 本研究中提到的四个预测因素与政策或国家特征之间的关系。 - 对于分类变量,关系以相对于图例中括号所示参考类别的偏差来衡量。 - 从上到下,类别依次为:地区和政策范围(深蓝色)、收入水平(蓝色)、洲(青色)、轨迹(橙色)、学科(鲑鱼色)以及仅限正教授(红色)。 - 具有统计显著系数的变量已被标出; P < 0.01, P < 0.05, P < 0.1;双侧 t 检验用于比较与零的差异。 - 每个变量的确切 P 值在补充表 7 中提供。 - 扩展数据表 1 中可以找到每种类别中的政策数量。 - 条形的长度表示系数的大小,线条的长度表示基于稳健标准误差的 95% 置信区间。 - 样本量(n)= 531。 - 每个系数的值、其标准误差和统计显著性在补充表 7 中报告。 - GN 表示全球北方,GS 表示全球南方,sci. 表示科学,Prof. 表示教授。

Para_02
  1. 我们研究的一个关键结果是,工作特征——例如学科、职业发展路径或职级——尽管直观上相关,但其系数往往并不具有统计学意义。
  2. 例如,在不同学科中,只有工程学科特定的政策与适用于所有学科的政策(参考组)存在显著差异(P < 0.05),更强调成果和影响力(系数 = 0.17,t = 3.212,P = 0.002;见补充表7)。
  3. 同样,在不同的职业发展路径中,只有以研究为重点的路径在5%水平上表现出显著差异,更注重候选人的知名度(系数 = 0.127,t = 2.797,P = 0.006)和成果及影响力(系数 = 0.094,t = 2.086,P = 0.038),而对职业发展(包括海外经验及指导等标准)的关注较少(系数 = -0.206,t = -2.554,P = 0.012)。
  4. 针对正教授职位的特定政策也较少优先考虑职业发展(系数 = -0.191,t = -2.437,P = 0.016)。
  5. 所有其他与工作特征相关的系数在所有四个回归分析中均未达到5%显著性水平(另见扩展数据表4-6,了解学科和路径间差异的单变量分析结果)。
Para_03
  1. 关于政策文件的上下文特征,而非工作特征,我们发现与其他大陆相比,欧洲存在统计上的显著差异。
  2. 亚洲的政策较少关注可见性,并且对职业发展的重视程度较低,而更注重成果和影响。
  3. 拉丁美洲的政策较少依赖产出指标和可见性,而大洋洲的政策则更加关注成果和影响。
Para_04
  1. 总体而言,全球南方的政策在结果和影响方面的依赖程度与全球北方没有统计学上的差异(系数 = −0.0636,t值 = 0.4550,P值 = 0.3420),但在其他三个因素上,两个地区存在统计学上的显著差异,其中全球南方更依赖产出指标(系数 = 0.219,t值 = 4.803,P值 = 2.61 × 10−5)、可见度(系数 = 0.211,t值 = 3.94,P值 = 0.000104)以及职业发展(系数 = 0.114,t值 = 1.99,P值 = 0.0476)。
Para_05
  1. 在不同地区,国家政策比机构政策更加强调产出指标(系数=0.0699,t值=2.7260,P值=0.0068)。
  2. 然而,在区分两个主要世界区域时,不同类型的政策出现了更多差异(对于所有交叉分析,参考组为全球南方的机构政策)。
  3. 全球北方的国家政策强调产出指标(系数=0.101,t值=2.89,P值=0.0043),但与可见性之间存在不显著的负相关关系(系数=-0.122,t值=-1.959,P值=0.0512)。
  4. 全球南方的机构政策更加重视产出指标(系数=0.223,t值=4.84,P值=0.000)、可见性(系数=0.193,t值=3.81,P值=0.0002)和职业发展,尽管后者未达到统计显著性(系数=0.110,t值=1.842,P值=0.0667)。
  5. 最后,全球南方的国家政策更加强调产出指标(系数=0.263,t值=4.712,P值=0.000)、可见性(系数=0.289,t值=3.68,P值=0.0003)和职业发展(系数=0.183,t值=2.688,P值=0.0076)。
Para_06
  1. 最后,我们的分析揭示了国民平均收入与晋升标准之间存在显著关联。
  2. 在高收入国家,可见性是重点关注的领域,而相比之下,中高收入国家更重视指标(系数 = 0.123,t值 = 3.627,P值 = 0.0003),对可见性的关注较少(系数 = -0.148,t值 = -3.211,P值 = 0.002)。
  3. 同样,中低收入国家(系数 = -0.197,t值 = -2.992,P值 = 0.003)和低收入国家(系数 = -0.243,t值 = -3.067,P值 = 0.002)对可见性的关注有所减少,而低收入国家还表现出对成果和影响的关注度降低(系数 = -0.362,t值 = -2.732,P值 = 0.0067)。
Para_07
  1. 除了检验各个系数的统计显著性外,我们还比较了模型(图4和扩展数据表6)的基于似然的信息标准与排除所有工作特征(学科领域、职业轨迹和正教授特异性)或仅排除学科领域的替代模型的信息标准。
  2. 如补充表8所示,在所有四个因素中,包含政策文件特征(大陆、全球区域和国家经济状况)的模型相较于简单的仅截距模型,在对数似然性上显示出显著改进(从职业发展指标的19%到产出指标的127%不等)。
  3. 然而,在纳入工作特征时,每个因素的最佳模型规格有所不同。
  4. 对于产出指标以及可见性和参与度,最佳拟合模型排除了工作特征(或至少排除了学科领域),而对于结果和影响以及职业发展的模型,在包含工作特征时表现最佳。
Para_08
  1. 为了研究我们分析的地理代表性,并了解位于研究体系较小国家的研究人员是否面临不同的条件,我们考察了几个拥有大型研究体系的国家是否影响了结果(补充信息部分2.5)。
  2. 我们对排除了十个最大国家的子样本重复了主因子和回归分析,这十个最大国家占全球研究人员估计总人口的72%。
  3. 在所得子样本中,代表28%的研究人员群体,位于规模较小的研究体系中,政策模式与完整样本类似。
  4. 图4中的四个主要因子同样从标准共现中显现出来(另见扩展数据表6)。
  5. 这些因子与政策特征的匹配方式也类似于完整样本(如图5所示)。
  6. 然而,通过比较补充表格7、10和11可以看出,一些回归系数在统计显著性上显示出差异——最值得注意的是,突出全球北方与全球南方差异的三个系数在较小的子样本中不再具有统计显著性,这种情况同样适用于表示中高收入国家的系数(进一步细节请参见补充信息部分2.5)。

Discussion

Para_01
  1. 我们的研究提供了一个广泛且包容的数据集,涵盖了代表性不足地区的晋升政策,据我们所知,这是对晋升实践最多样化的视角之一。
  2. 通过严格的数据编码和分析方法,包括抽样后加权和因子分析,我们揭示了评估实践中的不同模式,并探讨了可能影响这些模式的因素,为全球政策协调和多样化机构需求提供了见解。
  3. 然而,我们的分析范围仅限于标准的存在或缺失,而不涉及招聘或晋升的过程。
  4. 我们依赖滚雪球抽样而非随机全球样本,因此我们的数据在国家层面不具备代表性。
  5. 此外,我们的研究方法最初是在试点研究中开发的,在那个阶段没有既定的协议。
Para_02
  1. 我们的分析揭示了关键发现,这些发现是机构和研究人员都应考虑的,并且对于制定国家研究政策至关重要。
Para_03
  1. 首先,各机构之间的晋升标准并不相同。
  2. 我们发现围绕常见特征存在显著差异,并且没有普遍适用的标准。
  3. 许多机构有足够的灵活性来根据自身需求调整标准,以适应不同机构和研究人员职业发展路径的多样性。
  4. 然而,我们并未观察到标准的随意组合,而是围绕典型标准集群的多样性。
  5. 这使得研究人员能够将其技能与合适的机构相匹配,尽管并非每个机构都适合所有人。
  6. 然而,在国家层面统一的评估体系之间的差异对国际流动构成了挑战,尤其是对来自全球南方国家的早期职业生涯研究人员。
Para_04
  1. 其次,科学计量学在中高收入国家最为流行。
  2. 尽管这些方法旨在缩小与更强经济体的差距,但高收入国家更依赖于对研究人员素质的深入评估。
  3. 这引发了对赶超策略有效性的质疑。
  4. 可能存在一种误解,即什么推动了顶尖经济体的成功。
  5. 指标因其看似简单和客观而受到欢迎,但‘进步’和‘成功’的真正含义可能并不明确。
  6. 如果指标未能与社会目标保持一致,它们就会失去意义。
  7. 许多指标系统性地对低收入国家及其研究人员不利。
  8. 专注于这些指标可能会导致落后,并错失跨越式发展的机会。
  9. 我们注意到,这一结果是由少数拥有庞大研究体系的国家驱动的,在我们较小国家的子样本中并未得到复制。
  10. 这再次表明,在不同背景下存在多种不同的方法。
Para_05
  1. 第三,国家和机构政策显示出不同的偏好,并且存在不同的区域趋势。
  2. 用于评估研究产出的定量指标通常更受欢迎,但国家政策更常强调出版数量和发表平台,而机构政策则更关注作者顺序和角色。
  3. 在国家政策中,定量指标更为流行,尤其是在全球南方国家,这些地方也更加重视可见度和职业发展。
  4. 一个开放性问题是,这些趋势是由供给驱动(例如,高收入国家可能有更多高度可见的候选人,这使得这类标准更具可行性),还是由需求驱动(在国家政策中使用计量指标通常基于其规模和成本效益来辩护)。
Para_06
  1. 第四,显著的差异并非存在于学科之间。
  2. 我们发现在至少两个主要政策因素中,学科内部的评估标准差异比学科之间的差异更大,而地理、区域和收入群体的差异通常具有统计学意义。
  3. 这与呼吁进行学科特定评估的观点形成对比。
  4. 成果和影响最能引起工程领域的共鸣,但许多挑战和解决方案存在于学科之间,因为研究人员很少完全属于一个领域。
  5. 一个领域的发现会影响其他领域,并对社会产生影响。
  6. 研究评估属于社会科学范畴,应受到社会科学的指导,尽管广受欢迎的 h 指数是由一位物理学家在 2005 年提出的。
  7. 一刀切的方法行不通;我们需要一个尊重多样性和鼓励跨学科联系的框架。
Para_07
  1. 第五,文献计量学档案并非在所有地方都是成功的关键。
  2. 评估研究产出时是采用定量还是定性方法,这是晋升政策中最显著的特点之一。
  3. 文献计量学被频繁使用,但并非普遍适用。
  4. 我们的研究显示,有39%的政策未提及发表数量,57%未提及期刊索引,73%未提及引用情况。
  5. 涵盖11%候选人的政策明确警告不要滥用文献计量学。
  6. 这些发现与涵盖美国和加拿大的研究结果一致。
  7. 强大的文献计量学档案通常不足以确保成功,尤其是在竞争激烈的晋升中。
  8. 委员会还重视指导、行政工作以及对领域的贡献。
  9. 对于教授职位的候选人来说,仅依赖指标而没有实质性贡献可能会限制成功的机会。
Para_08
  1. 要构建一个全球公平的研究生态系统,需要超越那些作为成功代理的规范职业轨道。
  2. 符合标准化的个人资料对多样性有害,并限制了在学术界、工业界、政府和非营利组织之间的流动性。
  3. 技能娴熟的研究人员可能因为僵化的政策和评估者的偏见而被排除在外。
  4. 外部环境或运气不应被视为个人能力的表现。
  5. 以往的成就并不一定是未来潜力的良好预测指标。
  6. 针对特定机构或国家的模式无法提供有意义的全球基准,因为研究人员面临不同的条件。
  7. 知识的进步应带来社会利益,但这不仅仅是展示‘影响’的问题。
  8. 影响可以有不同的含义,从引用到具体贡献,例如技术转移或经济回报。
  9. 引用主要反映的是社交网络,基于这些指标构建的系统可能会助长自恋、欺骗或滥用行为。
  10. 有缺陷的方法常常产生引人注目的结果,这有利于‘劣质科学的自然选择’。
  11. 研究诚信至关重要,但一些评估实践未能认识到这一点,甚至可能削弱良好的标准。
Para_09
  1. 有意义的评估需要对期望的品质有清晰的认识。

  2. 必须了解是什么使一个人成为学者,以及智力成就的质量和价值。

  3. 突破性成果与标准化的大规模工业产出完全不同。

  4. 此外,研究人员并非独立运作,而是团队合作的一部分,并且是复杂全球研究与创新生态系统中高度相互依赖的参与者。

  5. 单独的个体评估无法很好地反映这一点。

  6. 我们需要那些通过提升同事能力创造附加值的团队合作者。

  7. 因此,构建一个能够全面捕捉研究者特征相关维度的叙述是有价值的,同时考虑其背景和成长潜力。

  8. 指标促使单一文化的形成,而全球研究生态系统则从全球、国家和区域层面到机构和研究团队的多样性中蓬勃发展。

  9. 我们需要促进多样性的方法,而不是强加限制创造力和影响力的标准,避免推广主导文化。

  10. 大学排名系统迫使机构陷入无法取胜的竞争,阻碍它们发挥独特优势。

  11. 这引发了这样一个问题:机构是否需要摆脱这些压力,以向社会提供真正的价值和利益。

  12. 如果是这样,政策就不应根据排名来分配资金或其他福利(例如招收学生或研究访问者的资格、签证发放等)。

  13. 研究评估塑造了职业策略。

  14. 研究人员根据晋升标准调整自己的方向,但当衡量标准成为目标时,它们就会失去有效性(‘古德哈特定律’)。

  15. 一些标准仍然模糊不清,例如同事关系,它既包括良好的公民意识也包括一致性,容易受到解释的影响。

  16. 研究人员常常疑惑职业发展需要多少篇出版物,但在某些过程中,出版数量和期刊声望并非决定性因素。

  17. 研究人员面临一种认知冲突:实际起作用的标准、被感知为重要的标准以及应该重视的标准之间的差异,这导致了一个两难境地:是为社会做出贡献还是优先考虑职业发展。

  18. 脱颖而出取决于与众不同,而不仅仅是与他人在相同标准上表现良好。

  19. 研究人员必须面对这样的困境:是通过迎合流行的形象来建立职业生涯,但由于缺乏独特性和个人抱负可能失败;还是通过发展一个虽不流行但可能对特定团队或机构极具吸引力的卓越形象来实现成功。

  20. 对经常不合适的指标的痴迷已经在研究生态系统中造成了效率低下。

  21. 尽管全球北方的许多国家能够承受这种低效(但不应该如此),重要的是全球南方应采取专注于建设适当研究文化的策略。

  22. 我们的研究挑战了基于不适当绩效指标的南-北追赶战略。

  23. 正如拉丁美洲在开放获取出版方面的世界领先模式所展示的那样,构建有目标的研究环境主要不是资金问题,而是更多地关于培育一种不同的文化。

  24. 这些举措可以为诸如 Coalition for Advancing Research Assessment 这样的平台提供关键输入,这些平台旨在建立一个全球社区。

  25. 与其让全球北方解决那些全球南方随后适应的问题,全球南方的行动者非常适合在全球倡议中发挥领导作用,以指明前进的方向。

Conclusions

Para_01
  1. 我们的研究发现,全球的晋升政策存在相当大的差异,没有普遍适用的标准,这反映了不同机构和地区的需求。
  2. 主成分分析确定了四个主要的评估集群——产出指标;可见度与参与度;职业发展;以及成果与影响——每个集群在不同政策中表现出不同的模式。
  3. 尽管在按政策范围、全球区域、大陆或收入组别区分时会出现一些趋势,但在每个子样本内仍然存在显著的变异性。
  4. 定量指标,尤其是在全球南方,经常作为评估框架的基础,而高收入国家则倾向于重视可见度和参与度等定性属性来评估学术价值。
  5. 全球南方对指标的依赖引发了对‘追赶’策略有效性的担忧,因为单一依赖指标可能会加剧区域不平等。
  6. 国家级政策通常强调诸如发表数量之类的产出指标,而机构级政策由于更能响应本地和机构优先事项,因此更广泛地关注社会影响和跨学科工作等方面。
  7. 相比之下,国家层面统一的评估体系可能阻碍国际流动,而机构政策则可能为研究人员提供一个框架,帮助他们找到与自身技能匹配的机构。
  8. 这些见解表明,灵活且具有情境敏感性的框架对于平衡全球公平与机构需求至关重要,有助于构建一个重视学术领域多样化贡献的有弹性的研究生态系统。

Methods

Para_01
  1. 本研究旨在通过分析机构和政府文件,识别全球各机构在晋升为正教授标准上的共性和差异。
  2. 我们专注于这一高级职位,因为其具有可比性,而不同国家的职业发展路径和角色差异很大。
  3. 我们的研究设计并未对晋升政策的结构和内容进行先验假设,而是基于补充信息部分1.1中描述的初步文本分析得出。
  4. 以下我们将重点介绍能够重现本文结果的方法:数据获取、数据准备和数据分析。
  5. 关于研究设计的方法,包括抽样策略、子样本定义、类别和标准等内容,详见补充信息部分1。
  6. 所制定的协议已通过Figshare共享(见数据可用性)。

Data acquisition

数据采集

Para_01
  1. 我们以全球青年学院的成员和校友网络为平台,通过请求成员、校友及其网络提供描述其机构及更广泛的学术网络中学术晋升政策的文件,进行了滚雪球抽样。
  2. 这包括从他们熟悉的语言和晋升框架的国家和地区收集公开可用和机密文件。
  3. 这种方法使我们能够在不依赖不切实际的分层随机抽样的情况下,获得涵盖所有世界地区的代表性样本。
  4. 正如正文"研究设计"部分第三段和补充信息部分1.2.2所述,我们进行了三轮政策来源收集,最近一次是在2023年。
  5. 通过这项工作,我们收集了440项政策,占我们数据的83%,其中样本中有460项(87%)政策在2023年12月仍然适用。
  6. 在整个过程中,我们纳入了每一份来源明确且内容足够全面的文件,以便能够识别特定晋升标准的存在或缺失,从而确保这些文件适合我们的分析。
  7. 更多细节可参见补充信息部分1.1–1.2.1。

Data preparation

数据准备

Para_01
  1. 鉴于我们收集的描述学术晋升政策的文件样本,我们需要从这些文件中提取"政策"(即其内容),并确定适用于统计分析的适当特征。
  2. 这涉及补充信息部分1.2中详细描述并在下面简要概述的步骤。

Translation

这里填充 Sentence 的中文翻译

Para_01
  1. 我们的样本包括27种语言的文件,这些文件通过翻译软件(例如Google Translate)翻译成英文以进行统一分析。
  2. 翻译由团队中精通相关语言的人员进行了验证。
  3. 非机器可读的文件使用光学字符识别工具进行了处理(更多细节参见补充信息部分1.2.4)。

Data cleaning (eligibility criteria)

数据清理(资格标准)

Para_01
  1. 文件在结构和详细程度上差异很大(扩展数据表2和补充信息部分1.5)。






请到「今天看啥」查看全文