大规模分类体系构建论文专题 | PaperWeekly

科研圈 · 公众号 · 科研 · 2017-03-19 19:48

正文

本文经授权转载自公众号 Paper Weekly （ID：paperweekly）。Paperweekly 每周分享自然语言处理领域好玩的paper。

_________

团队介绍

本次专题介绍来自复旦大学知识工场实验室在大规模分类体系方面的最新工作进展。复旦大学知识工场实验室（简称知识工场 kw.fudan.edu.cn）专注于大规模知识图谱构建、管理与应用关键理论与技术研究。知识工场以构建能够满足机器语言认知需要的大规模、高质量知识图谱为基本目标，并以推进知识图谱在文本理解、智慧搜索以及机器智脑等领域中的深入应用为主要使命。

_________

学者推介

大规模分类体系是典型的知识库之一，包含海量的 instanceof 关系（苹果是水果的一个实例）和 subclassof 关系（比如水果是植物的一个子类），这两类关系有时又被泛称为 isA 关系（比如苹果是一种水果）。大规模分类体系，特别是从互联网海量语料中自动抽取出的分类体系，由于其规模巨大，对于实体与概念有着较高的覆盖率，成为了当前研究的热点，并在文本理解、自然语言问答、互联网搜索与推荐等一系列实际应用中发挥着日益重要作用。典型应用之一是智能搜索，比如搜索“iPhone 6”，平台可以智能地推荐“Samsung s6”，前提是平台事先建立好包含“iPhone 6 isA smart phone”以及“Samsung s6 isA smart phone”的分类体系。

本次介绍的三篇论文，主要针对大规模自动抽取而建立的分类体系的数据质量展开研究，主要解决这些自动构建的分类体系中的关系缺失和关系错误两个基本问题。针对关系缺失作者提出了基于分类体系传递性的推断模型（发表于 AAAI2017）和基于协同过滤的推断模型（发表于 TKDE2017）；针对关系错误，作者提出了基于图结构特征的纠错模型（发表于 AAAI2017）。这些方法模型简洁、效果明显，解决了实际问题，代表了该问题的研究趋势。

这些方法代表了数据驱动的大规模知识库构建的基本思路：一切让数据说话，充分利用数据自身的特性，完成知识库质量提升的任务。数据驱动的人工智能方法研究值得关注。目前人工智能的研究思路囿于传统思维方式，在很多领域特别是知识工程领域，举步维艰。相关研究人员，应该敢于突破传统思维方式，拥抱数据红利，充分发挥大数据给人工智能带来的全新机遇。

有感于此，特此推荐！

复旦知识工程实验室负责人肖仰华博士

_________

论文描述

➊

Graph-Based Wrong IsA Relation Detection in a Large-Scale Lexical Taxonomy

知识库在人工智能中起着重要的作用，其中，不管是人工构建的还是自动构建的知识库都获得了许多关注。相对于人工构建的知识库，自动构建的知识库更大，覆盖更广，但有更多的错误。在这里，我们研究如何提升自动构建的巨大知识库的质量。特别的，我们关注于包含 isA 关系的分类体系知识库。我们发现这些分类体系中往往存在环，而这些环经常是由于错误的 isA 关系导致的。从这个发现中，我们提出了两种模型用于从环中找出错误的 isA 关系。第一个模型通过在分类体系中提取 DAG 子图来消除其中的环，而第二个模型利用对分类体系中的结点定义层级来消除环。我们在目前最先进的自动构建的分类体系 Probase 上实现了这两个模型。在处理了数千万关系以后，我们最好的方法以 91% 的准确率找出了 7.4 万条错误边。

本论文发表于人工智能顶级学术会议 AAAI2017，合作单位包括韩国延世大学，Facebook。

论文链接：

http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14268

➋

Probase+: Inferring Missing Links in Conceptual Taxonomies

从大型文本语料库自动构建概念分类体系（Taxonomy）或语义网络（Semantic Network）已经获得了许多的关注。在本文中，我们聚焦在目前最先进的数据驱动方法构建的分类体系，Probase，主要关注其数据质量问题。我们发现 Probase 缺失大量 isA 关系，而这些缺失的关系会显著影响了分类体系在各种应用中的实际效果。为了解决这个问题，我们设计了一个协同过滤框架来推荐这样的分类体系中的缺失链接。在 Probase 上，我们实现了基于协同过滤方法的方法，并验证了其有效性。

最终，我们创建一个更大规模的分类体系 Probase Plus（http://kw.fudan.edu.cn/probaseplus/search），扩增了 510 万（约 30％）isA 关系，且整体准确度保持在 90％以上。

本论文发表于数据挖掘领域 CCF A 类期刊 Transactions on Knowledge and Data Engineering（TKDE）2017，合作单位包括 Facebook。

论文链接：

https://www.computer.org/csdl/trans/tk/preprint/07820225-abs.html

➌

On the Transitivity of Hypernym-Hyponym Relations in Data-Driven Lexical Taxonomies

分类体系在机器自然语言理解中不可缺少。在近几年，人们构建了许多大规模的基于数据的自动构建的分类体系。上下位关系是分类体系中的基础关系，它不仅能用于实体的分类，还允许机器有泛化的能力。在这里，我们着眼于上下位关系的一个重要属性：传递性（也就是根据 A isA B，B isA C，通常可以推荐的 A isA C 也成立），它在许多分类体系的应用中都有着重要的功能。我们发现，和人工构建的小规模分类体系和本体库不同，在大规模的自动构建的分类体系中，传递性并不总是成立。我们提出了一个有监督方法来在一个大规模自动构建的分类体系中检测传递性对于任意给定的实体/概念三元组是否成立。除了这个，我们还利用传递性成立的情况来发现新的缺失上下位关系。在最后，我们还使用了多个实验来验证我们的方法的有效性。

大规模分类体系构建论文专题 | PaperWeekly

正文

请到「今天看啥」查看全文