作者:钟与氏Darla
编辑:odette
我在复旦的基因组实验室听过一段印象深刻的对话。
一位研究小哥对来做检测的志愿者说:“你姓XX,这个姓很少见啊!以后如果在学校里遇到同姓的人,知道不是你亲戚的,可以带来我们这里做个基因检测,说不定就是亲戚呢!”
志愿者高兴地答应着,然后,小哥严肃地加了个但是——“但是,你知道是你亲戚的,就不要带来了。万一测出来不是,呃……就不好了。”
旁边的我:
作者绘图
查了一下才知道,姓名所包含的信息量没有看起来那么简单。许多文化习惯从父姓,我国还有保留族谱的习惯,这意味着同姓亲属们共享祖传的Y染色体,对于研究基因间的联系和人类迁徙是个十分有力的切入点。
以姓氏作为遗传学研究的变量之一,已经是个十分成熟的研究方法了。当然,偶尔也会发生些尴尬的事——比如英王理查三世的某位祖先可能是私生子这种小说般的剧情。
2014年的Y染色体分析发现,理查三世与在世的父系后裔之间应该不存在亲缘关系。图片来源:英剧《理查三世》
除了结合DNA证据还原家族历史,姓氏是不是还能告诉我们点别的?在近期一项研究中,两位美国研究者通过统计教职人员的名字,发现了意大利学术系统任人唯亲的现象,移民科学家在美国学术界的影响,以及其他的秘密……
在意大利,裙带关系似乎是年轻人毕业找工作的关键。
曾经有位大学校长任命自己的妻子(一位前高中教师)和女儿(并无医学背景)为学校的医学教授,这在当时是个挺大的丑闻。这位校长否认了所有指控,辩解说,他深爱的人们只是恰好最为适合这个岗位。他还在电视采访中说:“我们意大利人不习惯以严格客观标准选拔优秀人才,我们更习惯自己的方式。“BBC吐槽此事说,“真是很难不同意他的观点呢”,毕竟,“意大利高等法院认定,在公共部门任命亲属在技术上属于违法,但也没有人真被成功起诉过嘛”。
类似的事近年在意大利发生过不止一次,但“任人唯亲”的问题确实很难准确界定。只看单个案例的话,也很难判断裙带关系任命在意大利学术界到底有多严重——人们知道这种现象存在,却难以证明。但是,2011年的一项研究用一种非常简单的方法做出了估计:有两位研究人员,找出意大利学术系统从业人员的名单,数了一下他们的姓。
数下来的结果符合直觉:巴里大学的商科和经济学科,绝大多数高级职位分属于五个家族;另一所大学里,几乎一半的教授有同姓人在同一机构任职。研究者之一斯蒂凡诺•阿利西那(Stefano Allesina)说:“从人口比例来看,要出现如此之低的姓氏多样性,概率大概是百万分之一吧。”而且,由于这项研究并未包含伴侣和姻亲关系,实际情况可能会更严重。
这项姓名研究引起了巨大的社会反响,研究发表后,意大利对其研究机构进行了彻查。而研究者们对数名字的热情并未到此为止。
今年7月,阿利西那和同事格里历(Jacopo Grilli)在《美国科学院院刊》(PNAS)发表了一篇继续数姓的论文,这次连婚前姓氏和移民姓氏都考虑了进去。本次数据收集了意大利、法国和美国三个国家中教职人员的姓名、职阶、研究领域、就职机构和所在地区等信息,并且根据地区和研究领域进行了随机化。统计之后,发现了不少有趣的现象。
研究者做了一些假定。比如说,有权力雇佣亲戚的人一般身居高位,所以他们的年龄会比较大,很可能已经退休了,因此在有“任人唯亲”嫌疑的机构中,已退休人员和在职人员中会出现很高的同姓率;同样是由于这种年龄差,出现的一对同姓者将会有职阶差异。
这些假设都得到了统计结果的印证:这些“特殊的”同姓概率情况,都要显著高于随机人口中出现的概率。不过研究者也发现,2010—2015年间新入职人员的这类同姓概率开始下降,也许可以归因为意大利2010年开始实施的反裙带关系法案起了效果。
除了喜欢招自己人,意大利学者看起来也不太喜欢离开家乡,研究人员的姓氏和本地人口的重合率很高。相对来说,美国学者在地理上就很活跃了。在这次取样的数据中,美国研究机构里没有明显出现本地的典型姓氏。
不过,美国研究人员的高同姓率离奇地出现在了另一项指标——研究领域当中。在某些研究方向中,某个姓氏特别常见,比如有特别多的史密斯(Smith)跑去读社会学。这很合理,毕竟史密斯本来在美国就是个超大众的姓。但是,在一些特定领域中,另一个超大众的外国姓氏却击败史密斯成为第一大姓——张(Zhang)。根据这项研究的数据库,张这个姓在美国研究机构的化学和数学领域里排第一,在农学、地理和物理领域里排第三。
美国张姓科学家的两个代表:CRISPR-Cas9系统的先驱张锋,预测“天使粒子”出现地点的张首晟。图片来源:news.mit.edu, slac.stanford.edu
这种有趣的现象可能是由于移民科学家在美国的壮大。研究者提到,根据一项近期调查,美国有520万移民背景的科学家和工程师,其中57%生于亚洲,而且方向集中在科学、数学和工程领域。相比之下,移民姓氏在法国和意大利的数据中并不突出。考虑到这两位身在美国芝加哥大学的研究者自己就来自意大利,感觉这个研究结果格外有说服力。
除了姓氏,研究者还用相同方法随机化了这份名单里的名字。数据的结果有些古怪:某些研究领域的研究人员在同一部门的重名率,明显高于全国姓名比例。叫什么名字显然和专业选择没什么关系(姓张和读数学也没有关系)——这种现象有个特别简单的解释:因为这些领域存在明显的性别不平衡,而同名者往往是同性别的,当性别不平衡时,同一性别的名字出现频率也会受影响。基于这一结果可以发现,在STEM(科学、技术、工程和数学)领域仍然存在女性比例低、性别比不平衡的现象。
图片来源:wikimedia commons
这项研究的启发性在于,这些有趣的结论,其实来自于相当简单易得的原始数据:一份科学家名单。
“这项研究利用到的技术十分‘骨感’。”阿利西那说,“一份名单,这就是我们手头的数据。我们想知道的是,通过如此简单的数据来源能够分析出什么类型的信息。而且我们还想知道,怎样用这个来探索真实世界的问题。”
名字……是很重要的哟,呵呵。
结果正如他们的论文标题:“通过姓氏分析学术系统中的人员流动、性别不平衡和裙带关系”。姓氏暗示家族和婚姻关系,名字则能体现性别,通过精巧严密的实验设计,这些看似普通的数据能够揭示出的秘密超乎想象。
“有时候,简单数据就可以得到出乎意料的结果。”阿利西那说。作为芝加哥大学的助理教授,在他的研究项目中常常用到计算机和数学技术来理解真实世界的问题,从两个竞争资源的物种为何不会试图灭绝对方,到如何建立更有效的同行评议模型。这样的研究就像做数据的侦探,通过使用精妙的统计技术和实验设计,看似无关紧要的信息自然会构建出真实的状况——就像这次,他们只是问了一下人们的名字。
作者绘图
参考资料:
Jacopo Grilli and Stefano Allesina, Last name analysis of mobility, gender imbalance, and nepotism across academic systems. PNAS. 2017, 114: 7600-7605.
https://news.uchicago.edu/article/2017/07/03/studying-lists-last-names-reveal-hiring-practices-higher-education
https://sciencelife.uchospitals.edu/2017/07/03/whats-in-a-name-big-data-approach-reveals-distinctive-patterns-in-higher-education-systems/
http://www.bbc.com/news/magazine-21507168
https://newfaculty.uchicago.edu/page/stefano-allesina
果壳网
ID:Guokr42
虽然换了二维码
但依然整天在科普些不正经玩意儿
欢迎关注