重磅 | 微软发布数据集MS MARCO，打造阅读理解领域的「ImageNet」

机器之心 · 公众号 · AI · 2016-12-17 11:07

正文

选自微软

机器之心编译

参与：吴攀、李亚洲

今天早些时候，微软在其官方博客上宣布发布了一个包含 10 万个问题和答案的数据集，研究者可以使用这个数据集来创造能够像人类一样阅读和回答问题的系统。此外，微软计划效仿 ImageNet，与其他人合作、最终创办正式的竞赛等。

这个数据集名叫 MS MARCO，表示 Microsoft MAchine Reading COmprehension（微软机器阅读理解）。其背后的团队声称这是目前这一类别中最有用的数据集，因为这个数据集是基于匿名的真实数据构建的。通过将该数据集免费开放给更多的研究者，该团队希望能够促进机器阅读领域的研究突破，就像之前研究者已经在图像识别和语音识别领域所取得颠覆性突破一样。

MS MARCO 数据集地址：http://www.msmarco.org

他们也希望这次开放能够促进「人工通用智能（AGI/artificial general intelligence）」的长期目标的实现，即创造出能够像人类思考的机器。

Rangan Majumder，微软 Bing 搜索引擎部门合作伙伴组的程序经理

微软 Bing 搜索引擎部门合作伙伴组的程序经理（partner group program manager）Rangan Majumder 是这个项目的领导者，他说：「为了实现人工通用智能的目标，我们首先需要机器能够像人类一样阅读和理解文档。这个数据集是向这个方向迈出的一步。」

Majumder 说，目前回答复杂问题的系统仍然还处在婴儿阶段。Bing 这样的搜索引擎和小娜那样的虚拟助手还只能回答一些基本的问题，比如「光明节那天开始？」或「2000 乘以 43 等于多少？」

Majumder 说，但在许多案例中，搜索引擎和虚拟助手只会将用户引导至一些搜索结果。当然用户仍然会获得他们想要的信息，但那也需要用户在搜索结果列表中寻找所需的答案链接。

为了实现更好的自动问答系统，研究者需要更强大的训练数据。这样的训练数据需要能够教会人工智能系统识别问题和组织答案，并最终能够根据它们之前从未见过的特定问题构建出自己的答案。

Majumder 及其团队（包括微软的一些研究者和从事产品开发的人）表示，MS MARCO 数据集是非常有用的，因为该数据集的问题基于来自 Bing 搜索引擎和小娜虚拟助手的真实的、匿名的查询。该团队根据研究者所认为的更有趣的查询而对这些问题进行了选择。除此之外，这些问题的答案都是根据真实的网页而人工书写的，准确性已经过了验证。

通过提供真实的问题和答案，这些研究者表示他们可以训练出能更好地应对人们常问问题的细微差别和复杂性的系统，其中包括那些没有明确答案或有多个可能答案的问题。

比如说，这个数据集中包含了这样一个问题：「What foods did ancient Greeks eat?（古希腊人吃什么食物？）」要正确回答这个问题，他们需要检索多个文档中的信息，最后给出谷物、蛋糕、牛奶、橄榄、鱼、大蒜和卷心菜等食物作为答案。