picture from Internet
解析文章首发于唧唧堂网站www.jijitang.com
解析作者 | 唧唧堂经济管理研究小组:
ZhuYuke
;审校编辑 |
悠悠 糖糖
本文是对《用家族历史和机器学习链接历史记录(Combining Family History and Machine Learning to Link Historical Records)》的解析,该论文于2019年9月发表于NBER工作论文系列中。该研究作者包括Joesph Price , Kasey Buckels , Jacob Van Leeuwen 和Isaac Rikey。
研究背景与意义
社会科学研究者面对的一个关键挑战是
很难将观察到的人们一生中不同时点或代际之间数据链接起来
。例如,为了测量社会经济地位在代际之间的传递,我们需要能够链接父母和他们成年的子女的信息;为了研究童年环境的长期影响,我们通常需要观察一个人作为儿童和成年人两个时期的数据等。近年来,研究美国的研究人员通过获取允许链接的信息获取限制使用的数据解决了这个问题。这包括将社保账号与代际间的纳税记录、教育历史、或调查数据链接起来。但是这些数据只有近几十年才有,而且现有的数据集例如人口普查或生命统计数据并非都包含社保账号,因此这种创新的方法受到很多限制。
另一种策略是,
通过匹配个人的姓名、出生年份和出生地等特征,将个人在人口普查中的记录与其他数据库联系起来
。这种方法的缺点是它产生的是一个非代表性的样本:女性的名字在童年和成年期间会发上变化,因此这种方法会忽略女性。记录链接的一个新的方法是使用受监督的机器学习算法。与上述无监督匹配方法不同,受监督的方法需要一个训练数据集,其中包含正确和不正确的匹配示例,算法可以从中“学习”以创建新的匹配。虽然机器学习的方法显示出一定的优越性,但高质量的培训数据可能难以获得,而且成本高昂。
研究内容及结论
在本文中,作者提出了一种
将个人与历史记录链接的新方法
。该方法的核心是数百万正在研究自己家族历史的人做出的决策。这些人员经常收集源文件(包括人口普查记录),为家庭成员建立各种生活事件和关系,然后将他们的结论发布到家谱网站上,例如” Ancestry ”,” FamilySearch ”,“ FindMyPast ”, “ MyHeritage ” , “ Geni ” , and ” Wikitree”。并且当这些网站上已故个体的资料具有多个附加来源时,这些来源中的每对数据都会建立一个“正确”的匹配项。
该匹配项可以为使用各种链接策略做出的决策提供信息,并作为受监督的机器学习方法的培训数据
。这些数据是
高质量
的,因为家庭成员是出于对自己有益的目的来进行这些信息的匹配。此外,家庭成员通常拥有私人信息比如婚前姓或其他家庭成员的姓名,这些信息可用于跨多个数据集标识感兴趣的对象。
作者用到的家谱平台FamilySearch,FamilySearch是一个大型、公开的、维基百科式的家庭树,其中包括12亿死者的个人资料,拥有超过1260万注册用户为这些个体提供资料信息。用户可以将信息和来源上载到自己祖先和亲戚的个人资料中,并可以编辑其他信息贡献者所附的结论和来源。同时 FamilySearch会定期向这些信息贡献者提供完善记录的提示,然后由他们决定是否将信息附加到此人。作者使用这个家谱中在1900年至1920年间至少参与两次人口普查记录的个体作为样本。提供了一个包含1900年至1910年间460万个链接、1910年至1920年间490万个链接和1900年至1920年间290万个链接的数据集。
首先,
FamilySearch允许作者检查使用自动方法链接历史记录时需要作出哪几个重要决策
。这些决策包括如何预处理数据、使用哪些功能来识别潜在匹配以及要使用何种机器学习方法。然后,
使用FamilySearch链接作为受监督机器学习算法的培训数据
,并将从这个机器学习算法中获得的链接与其他方法获得的链接结合起来。
研究发现或结果
该研究认为仅考虑FamilySearch用户创建的链接,就可以观察到在1900,1910,1920三次普查中的1230万条链接。其中还包括由于姓氏发生变化,通常很难用其他方法来建立的妇女婚前婚后的链接。另外,作者认为这些数据将有助于推进基于机器学习的记录链接水平。作者最终获得的数据集包含1900年和1910年美国人口普查之间潜在匹配的67.8%,以及1910年至1920年的美国人口普查之间潜在匹配的71.4%。作者对潜在匹配中的随机样本进行手工检验并且传递性测试显示预测匹配项中的假阳性比率约为12%。家谱研究与自动记录链接方法相结合,可以显著提高社会科学研究人员特别是经济史学家获得数据的质量和数量。作者目前致力于将这一项目
扩大到包括1850年至1940年间所有的全面人口普查
。并且随着家谱网络平台的使用扩展到世界各地,研究人员将可以使用这种方法将国内记录与其他国家的记录进行链接。
参考文献:
Joseph Price, Kasey Buckles, Jacob Van Leeuwen, Isaac Riley. (2019) .Combining Family History and Machine Learning to Link Historical Records (No.w26227). National Bureau of Economic Research.
解析作者:ZhuYuke
点击“阅读原文”,查阅更多作者在唧唧堂的论文解析