专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  语言构式如何在词汇分布中显现? 查看图片 ... ·  2 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:今日开奖,欢迎参与!/ ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

开发|微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

AI科技评论  · 公众号  · AI  · 2017-08-22 07:54

正文

雷锋网 AI 科技评论消息,清华大学副教授、Arnetminer 创始人唐杰博士在微博上更新了清华和微软在 KDD 上公布的最新成果——Open Academic Graph。

「我们和微软在 KDD 上发布了一个非常大的学术数据,包含有微软 1.6 亿论文和 AMiner 里面抽取出来 1.55 亿论文,同时还给出了这两个数据之间的链接关系(可以用于做数据集成研究),欢迎大家下载,这也是清华和微软等单位联合成立的开发学术社区 Open Academic Society 。」

据雷锋网 AI 科技评论了解,该数据集仅供科研用,包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表的 6463 万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面,即链接关系、MAG 论文集及 AMiner 论文集。

官网介绍: https://www.openacademic.ai/news/

此外,在 aminer 的官网上也同步了 3 个 AMiner 论文集和 9 个 MAG 论文集的打包下载渠道:

https://aminer.org/open-academic-graph

在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:

{
"mid": "xxxx",
"aid": "yyyy"
}

其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。

对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:

示例如下:

在使用的时候,研究者可以通过以下两步进行操作:

  • 1. 采用 Microsoft Graph Search API 查询每个 AMiner 的论文标题,并且筛选出对应的链接论文。







请到「今天看啥」查看全文