大数据文摘作品,转载具体要求见文末
MIT Media Lab,Center for Research in Social Complexity
编译团队| Aileen, Elaine,王婷
2016年,包括卡斯特罗、拳王阿里等数百位名人与世长辞。许多人认为,2016年是被诅咒的一年。但MIT Media Lab近期的一次数据分析结果告诉我们,其实不然。事实上相比2016年,数据预测,2017年将会有更多名人与世长辞……
2016年,数百位各领域的佼佼者辞世:
大卫·鲍伊(David Bowie,英国知名音乐人),普林斯(Prince,美国歌手), 拳王阿里(Muhammad Ali), 菲德尔·卡斯特罗(Fidel Castro,古巴领导人), 凯瑞·费雪(Carrie Fisher,曾在《星球大战》中饰演莉亚公主一角), 吉恩·怀尔德(Gene Wilder,美国著名制片人), 乔治·迈克尔(George Michael,英国歌手), 薇拉·鲁宾(Vera Rubin,天文学家)以及托马斯·谢林(Thomas Schelling,经济学家)……
这只是因为2016年年份不好么?数据告诉你,2017年可能会更加糟糕……
大名鼎鼎的MIT媒体实验室(MIT Media Lab)社会复杂性研究中心(Center for Research in Social Complexity)近期进行了一次有趣的数据分析,预测2017年将有多少名人去世。
对于这个研究话题,首先我们需要搞清楚:谁有资格成为名人?名人数量增多是否只是因为全球人口基数的变大?如何预估2017年哪些名人会去世?
谁有资格成为名人?
▼
先回答第一个问题,这里我们用可以通过数据简单定义一个人是否著名给“名人”赋予一个简单的定义,我们基于某人是否能够通过多种语言被报道进行定义。那么,我们具体统计多少种语言?至少20种以上。我们选取了截至2016年2月为止,出现在20多个维基百科语言版本中的29,421人。
当然这些数据有其局限性。尽管过于简单,不够完美,然而这种基于维基百科多语言条目介绍的样本选取,已经是当前衡量一个人的名望或纪念性(因为维基百科是文化纪念的一种形式)最靠谱的形式。比如歌手大卫·鲍伊。在维基百科上你可以读到关于他的104种不同语言的相关介绍。演员吉恩·怀尔德呢?84种。经济学家托马斯•谢林呢?48种。当然,这并不意味着比起谢林,鲍伊的工作更多或更重要。简单意味着知道鲍伊的歌的人,比知道谢林的理论的要多(这很正常,因为鲍伊的一些歌流行全世界)。
名人数量增多
是否只是因为全球
人口基数的变大?
▼
第二个问题是名人变多只是因为全球人口总数变多了。我们的数据表明,情况并非如此。几个世纪以来,名人的数量增速已超过全球人口增速。大家可以先看下这篇文章 ,还有这个视频。印刷术的发明之前,每年名人的数量仅占全球人口的一小部分;而在那之后200年也没太大变化 。然而17世纪后期开始,新生名人的增速是全球人口增速的平方。新生名人的数量,除以当时世界人口总数随时间线性增加。此外,比例常数中还增加了新通信技术。短篇印刷物,比如杂志和报纸在17世纪晚期的出现;新通讯技术的诞生,如电影、广播和电视都使斜率变大 。这些因素使得20世纪以来名人的增速变得前所未有。
我们已对这些疑虑做了说明,因此可以沉下心来对数据进行分析,来看看到底有多少名人预计在2017年辞世。
数据分析预测
有多少名人可能在2017年辞世?
▼
图1是自2000年以来在20个以上的维基百科不同语言版本中过世的人数。这个数字呈现了自2000年到2015年以来过世名人数从86人到195人的线性增长。而2016年,我们观察过世的名人数实际上比预期的要少。所以我们觉得这一年过世的名人更多只是一种错觉。
图1:年名人过世数(纵轴:过世人数;横轴:过世年份)
图2:年过世名人数(横纵坐标同上)
红色:L>20 有20种以上维基百科语言版本的名人过世数
蓝色:L>35有35种以上维基百科语言版本的名人过世数
黄色:L>50 有50种以上维基百科语言版本的名人过世数
绿色:L>70 有70种以上维基百科语言版本的名人过世数
这种错觉可能是因为今年过世的人名气更大。毕竟,你可以在100多个语言版本的维基百科中读到大卫·鲍伊;而图1的样本我们只选取了20个。所以并不是所有过世的名人都能达到是鲍伊的知名度。图2我们使用了更高的阈值重复之前的分析:超过20种语言,35种,50种和70种。最后一个类别(超过70种),超级巨星,那些我们可能在新闻中听到的名人,他们的过世讯息可能会在社交媒体中交互出现。2016年有点特别。死于2016年的超级巨星(L > 70)有16人,而2015年、2014年和2013年,这个数字分别为9人、10人、14人。
2016年过世的超级巨星,按知名度(L)排列如下:
那么全球每年过世名人他们的年龄中位数,或出生年份这段时间改变了?我们观察到了越来越多老年人的过世吗?在某种程度上是这样的。通过图3我们观察到,在2000年去世的名人他们的出生中位数是1920年,就意味着他们的死亡中位数年龄是80岁。而2015年和2016年,名人的出生中位数年份是1932年和1930年,即死亡中位数年龄为83岁和86岁。因此,已故名人的死亡年龄上升了。
这个上升是很重要的,然而,这主要是因为我们现在看到的那些过世的名人他们的黄金时期是60年代,70年代和80年代,他们的名气主要来自电视。
图3 死亡名人年龄分布箱形图
通过观察2016年过世的16位超级巨星能够帮助我们了解这些名人,他们做了什么贡献。这个列表包含了大量表演艺术家;但同时也有政治领导人,比如古巴领导人菲德尔·卡斯特罗,以色列总理西蒙·佩雷斯以及泰国国王普密蓬·阿杜德。为了探索这将近200人的大名单,我们对每年过世的名人的职业和出生地进行划分。
图4 依据职业划分的年过世名人数
黄色:表演艺术家
橙色:运动员
绿色:艺术家
浅紫色:政治家
米色:人文社科类名人
紫色:科学家
白色:其他
图4可以看到不同职业的名人每年过世的数量。你可以点击打开或关闭这些类别的名称。最受欢迎的类别是表演艺术家。它的过世人数随时间而增加了。在2000年,表演艺术家过世人数占过世名人总数的29%。2016年,他们占总数的36%。科学家,所占的比例则几乎没变过。他们在2000年占10.5%,而2016年为9.9%。人文社科类的名人,所占比例略有下降。他们在2000年为15%,而2016年不到11%。
我们应该预期过世的名人数将逐年增加么?接下来几年可能是这样,但不会持续下去。过去六个世纪通信技术的兴起,从纸媒到网络社交媒体,能够被大众认可并记住的名人数量不断增长(名气是短暂的,也就是说并不是每个人的名气都会被大众永远铭记)。总有一天,名人的数量,不再受限于传播的方式和范围,而是受限于社会大众的关注度和记忆力。也许,这情况已经发生了。
注:
本文的几张图片均为截图,浏览可显示具体数据分布的原图请浏览原文网址:
http://macro.media.mit.edu/2017/
Cristian Candia-Castro Vallejos
来自智利的物理学家,他在CICS主攻研究社会复杂性科学的博士学位。他生活在美国马萨诸塞州的剑桥镇,是麻省理工学院媒体实验室宏联系(Macro Connections)研究方向的研究助理。他对于集体记忆,经济复杂性、集体学习、大数据和社会动态这些方面的研究比较感兴趣。
Cristian Jara Figueroa
麻省理工学院媒体实验室研究集体如何积累知识和专门技术的博士生。他负责万神殿(Pantheon),研究如何通过传记数据来发现历史规律。
César A. Hidalgo
麻省理工学院媒体实验室宏联系(Macro Connections)团队领导人,也是麻省理工学院媒体艺术与科学学院副教授。他的工作重点是集体学习。即发生在团队,组织,城市和国家的群体学习。他在他的实验室开发了一些分析工具,来增进我们对于集体学习发生机理的理解。他开发了数据可视化和分析工具,旨在帮助组织中的集体学习。Hidalgo的学术出版物引用超过8000次,他的可视化引擎浏览超过1亿次。他也是《增长的本质》(《why information grows》,2015年出版)一书的作者,和《The Atlas of Economic Complexity》的合著者(麻省理工学院出版,2014年),以及Datawheel LLC的创始人之一。他和他的妻子Anna ,女儿Iris生活在马萨诸塞州,萨默维尔。
·Yu, A. Z. et al., Pantheon 1.0, a manually verified dataset of globally famous biographies. Sci. Data 3:150075 doi: 10.1038/sdata.2015.75 (2016).
·Ronen S, Goncalves B, Hu KZ, Vespignani A, Pinker S, Hidalgo CA, Links that speak: the global language network and its association with global fame, Proceedings of the National Academy of Sciences (PNAS) (2014), 10.1073/pnas.1410931111
·C. Jara-Figueroa, Amy Z. Yu, Cesar A. Hidalgo, The medium is the memory: how communication technologies shape what we remember
·César A. Hidalgo, How the medium shapes the message, TEDxYouth@BeaconStreet
·Pantheon
如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 |bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:[email protected]。
回复“志愿者”了解如何加入我们
想在30岁前财务自由?看看福布斯评选的30位科创新贵都在做啥