专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
黄建同学  ·  不得了了……Replit ... ·  昨天  
爱可可-爱生活  ·  【GRPO with Verifiable ... ·  昨天  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  2 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  2 天前  
爱可可-爱生活  ·  【[39星]DIEF_BTS:为建筑数据分析 ... ·  5 天前  
51好读  ›  专栏  ›  机器学习研究会

论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment

机器学习研究会  · 公众号  · AI  · 2018-01-06 22:43

正文


Zhuang Y,Li G, Zhong Z, et al. Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases[C]// ACM, 2017:1917-1926. ( CIKM 2017 )

文链接: http://dbgroup.cs.tsinghua.edu.cn/ligl/crowdalign.pdf


Motivation


随着语义网络的迅速发展,越来越多的大规模知识图谱公开发布,为了综合使用多个来源的知识图谱,首要步骤就是进行实体对齐 (Entity Alignment) 。近年来,许多研究者提出了自动化的实体对齐方法,但是,由于知识图谱数据的不均衡性,导致此类方法对齐质量较低,特别是召回率 (Recall) 。因此,可考虑借助于众包平台提升对齐效果,文章提出了一个人机协作的方法,对大规模知识图谱进行实体对齐。


Framework


方法主要流程如图所示:

首先,通过机器学习方法对知识库进行粗略的实体对齐,然后分别将以对齐实体对 (MatchedPairs) 和未对齐实体对 (UnmatchedPairs) 放入众包平台,让人进行判断。两条流水线的步骤类似,主要包括四个部分:实体集划分 (EntityPartition) 、建立偏序 (PartialOrder Construction) 、问题选择 (QuestionSelection) 、容错处理 (ErrorTolerance)

实体集划分的目的是将同类的实体聚类到一个集合,实体对齐只在集合内部进行,集合之间不进行对齐操作。实体集划分的依据是属性,通常同一类实体的属性是相似的。

偏序定义如下:








请到「今天看啥」查看全文