专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【论文】Neural Relation Extraction with Multi-lingual Attention

机器学习研究会 · 公众号 · AI · 2017-04-25 18:55

正文

点击上方“机器学习研究会”可以订阅哦

摘要

转自：智能立方

1 导读

论文《Neural Relation Extraction with Multi-lingual Attention》是我们之前ACL2016文章的一个扩展，将之前的 sentence-level selective attention的思想扩展到了多语言关系抽取上。

如今，神经网络模型已经可以在关系分类任务中取得了不错的效果。去年ACL2016上我们提出的句子级别选择注意力机制（sentence-levelselective attention）较好的解决了远程监督(distantsupervision)数据中的噪音问题，使得神经网络模型也可以应用于关系抽取。然而，现有的关系抽取系统一般都只使用单语言数据，忽略了多语言数据可以带来的好处。

事实上，虽然世界各地的人们使用着不同的语言，但是他们对事物的认识是相似的。例如，虽然美国人说“New York is a city of United States”，而中国人说“纽约是美国的一座城市”，但是我们都肯定同一个事实（New York, city of, United States）。因此，我们可以利用多语言数据来帮助现有的关系抽取任务提升效果。

那么现在的问题在于我们存在两种不同的利用多语言数据的方式：a. 为不同的语言分别建立关系抽取系统；b. 建立一个联合的关系抽取系统。哪一种方式会更加合理呢？我们认为是后者，主要原因有以下两点：

（1）不同语言的数据之间拥有互补性。我们发现在我们利用Wikidata和New YorkTimes构建的多语言关系抽取数据中，中英文数据分别拥有41.6%和42.2%的单独的事实。另外，我们发现数据中超过一般的关系在中英文中拥有的数据量差异非常大。因此我们认为建立一个联合的关系抽取系统可以提高不同语言的关系抽取效果，尤其是对于一些数据比较少的语言来说更是如此。

（2）不同语言的数据之间拥有一致性。我们发现远程监督标注的表达事实的句子都非常长，在我们使用的语料中有近乎一半的句子长度都超过了20。而对于表达同一个事实的句子，在不同语言中一般只有精确表达这个事实语义部分会有一致性。例如下面的例子：