资源 | 谷歌发布用于有监督词义消歧的大型语料库

机器之心 · 公众号 · AI · 2017-01-19 11:05

正文

选自Google Research Blog

机器之心编译

参与：微胖、朱思颖、蒋思源

理解特定单词在文本中的各种意思是理解语言的关键。比如，句子「he will receive stock in the reorganized company」中，根据新牛津美语词典（NOAD），我们依据上下文可以知道「stock」是指「公司企业通过发行和认购股份筹措到的资金」。但是，词典中，从「存货（goods in a store）」到「一种中世纪刑具」，stock 的定义有十多个。计算机算法很难区分这些意思，过去，人们形容这一问题难度「与解决强人工智能核心问题的难度不相上下（AI-complete）」（Navigli, 2009 Mallery 1988 ）。

为了帮助解决这个难题，我们很高兴发布了基于流行的 MASC 和 SemCor 数据组的词义标注，人工标注了 NOAD 的各种词义。我们也在发布 NOAD 词义到 English Wordnet 的映射，研究社区更常用到这个。这是最大的全词义标注英文语料库发布之一。

发布地址：https://github.com/dmorr-google/word_sense_disambigation_corpora

有监督的词义消歧

人类能很容易分辨出文本词义之间区别的原因是人类能接触大量常识性知识。这些常识包含世界如何运转及其与语言之间的联系。举一个机器理解困难的例子，「[stock] in a business」（在一单生意里的 stock）意味着意思与金融相关。但是，在「[stock] in a bodega」（酒窖里的 stock）中，更可能是货架上的货物，尽管酒窖（bodega）也是一种生意。获取足够的机器可加利用的知识，然后将这些知识运用到文本词义理解上是一种挑战。

有监督的词义消歧（WSD）也即运用人标记的数据来构建一个机器学习系统，这个机器学习系统能够将词典里的某个意思分配给出现在文本中的这个单词（与实体歧义消除不同，后者关注的是名词，对名词的词义理解大多是正确的）。构建一个比不考虑文本语境，仅将单词最常用的意思分配给单词的监督模型更好的模型，很困难，但是，有了大量训练数据，有监督的模型会表现非常好。

通过发布这个数据集，我们希望研究社区能提出更先进的算法，从而机器对自然语言有更好的理解，并能支持应用如：

方便从文本自动构建数据库，从而可以回答问题和链接文本中的知识。例如，理解「hemi engine」是一种自动化的机械，「locomotive engine」是属于火车的，或者也可以是说「Kanye West is a star」意味着他是一个名人，而「Sirius is a star」意味着它是天文学客体。
消除查询中的词的歧义，使得「date palm」和「date night」或「web spam」和「spam recipe」等查询可以被解读出各自不同的含义，并且使得根据该查询所返回的文档具有和该查询相同的含义。

人工标注

在我们发布的人工标注数据集中，每一个词义标注（sense annotation）由五个人评估。为了确保高质量的语义标注，评估者首先会进行黄金标注（gold annotations）的训练，这个训练事先是由经验丰富的语言学家在单独试验研究中标注。下图显示了标注者在使用我们标注工具时的工作页面。

页面左侧列出了所有候选的字典词义（在这个例子中是单词「general」）。字典中的例句也会提供给标注者。在页面右侧，需要被标注单词会在句子中突出显示。除了将单词链接到字典词义之外，评估者还能标记如下三个异常：单词拼写错误、无上述情况（none of the above）和标注者不能决定。评估者同样可以检查词的使用是不是一种隐喻，并可以留下评论。

用于此发布的数据进行词义标注任务使用 Krippendorff's alpha 测量达到了 0.869 的评估者间可信度值（inter-rater reliability score）。在 Krippendorff's alpha 中，α >= 0.67 就可以考虑是可接受的再现性结果（reproducibility），α >= 0.80 就是很高的可再现性结果。下面列出来了标注数：

Wordnet 映射

Wordnet 地址：https://wordnet.princeton.edu/

我们也发布了两套 NOAD 到 Wordnet 的映射。小一点的那一套，我们采用上述类似词义标注的方法，人工映射了 2200 个单词，大一点的那一套是算法创造的。这些映射有助于将 Wordnet 的资源应用到这个 NOAD 语料库中，也有助于用这套语料库评估使用 Wordnet 构建的系统。

在这一语料库上使用基于 LSTM 的语言模型以及半监督学习的全部研究结果，请参阅论文《Semi-supervised Word Sense Disambiguation with Neural Models》。

致谢

这一数据库的建立离不开以下人员的帮助：Eric Altendorf、Heng Chen、Jutta Degener、Ryan Doherty、David Huynh、Ji Li、Julian Richardson 和 Binbin Ruan。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]