专栏名称: 炼数成金前沿推荐
关注炼数成金,学习数据挖掘与分析技巧,了解最新快的数据分析课程信息。更多知识更多优惠,尽在炼数成金!招募天下好汉,一起炼数成金!
目录
相关文章推荐
桂林头条  ·  今天起,可以查分了! ·  13 小时前  
桂林头条  ·  今天起,可以查分了! ·  13 小时前  
康石石  ·  全国多地硕士人才引进政策汇总! ·  17 小时前  
康石石  ·  保研也能捡漏!广美正在悄悄扩招…… ·  3 天前  
51好读  ›  专栏  ›  炼数成金前沿推荐

自然语言处理领域公开数据集

炼数成金前沿推荐  · 公众号  ·  · 2018-04-19 18:41

正文

网上公开的数据集很多,在这里整理了一份关于自然语言处理领域的公开数据集的清单,内容如下。


1.  Apache Software Foundation Public Mail Archives(公共邮件存档)

大小:200GB

内容:截至2011年7月11日所有公开可用的Apache Software Foundation邮件。

链接:https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/


2. Blog Authorship Corpus(博客作者身份语料库)

大小:298MB

内容:包含2004年8月从blogger.com收集的19,320位博主的文章,共计681,288篇,字数超过1.4亿—平均每人35篇、7250字。

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm


3. Amazon Fine Food Reviews [Kaggle](亚马逊食品评论)

大小:240MB

内容:数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论。

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm


4. Amazon Reviews(亚马逊评论)

大小:11GB

内容:斯坦福收集了18年期间的3500万条亚马逊评论。

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm


5. ASAP Automated Essay Scoring [Kaggle](ASAP自动短文评分)

大小:100MB

内容:一共包含八个作文集,每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息,另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的,并经相关人员手工评分,有些还进行了双重评分。

链接:

https://www.kaggle.com/c/asap-aes/data


6. ASAP Short Answer Scoring [Kaggle](ASAP自动简答题评分)

大小:35MB

内容:一共包含十个数据集,每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息,另一些则是自由发挥。所有答案都是由10年级的学生撰写的,并经相关人员手动分级并进行双重评分。

链接:

https://www.kaggle.com/c/asap-sas/data


7. Classification of political social media(美国政客的社交媒体消息分类)

大小:4MB

内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)

链接:https://www.figure-eight.com/data-for-everyone/


8. CLiPS Stylometry Investigation (CSI) Corpus(CSI语料库)

内容:荷兰语,该语料库包含两种类型的学生信息:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、流派、真实性、情绪、等级)等大量原数据。由安特卫普大学CLiPS研究中心提供,主要用于计量文体学分析。

链接:https://www.clips.uantwerpen.be/datasets/csi-corpus


9. Common Crawl Corpus(AWS爬虫数据)

大小:541TB

内容:收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始,所有爬虫只持续一个月,数据以WARC文件格式存储。从2012年开始,抓取的数据还包含原数据(WAT)和文本数据(WET)提取,大大简化了数据处理。

链接:https://aws.amazon.com/cn/public-datasets/common-crawl/


10. Cornell Movie Dialog Corpus(康奈尔电影对话语料库)

大小:9.5MB

内容:包含从原始电影脚本中提取的对话集:10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符,共304,713个句子。元数据极其丰富,包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。

链接:

http://www.cs.cornell.edu/%7Ecristian/Cornell_Movie-Dialogs_Corpus.html


11. Crosswikis

大小:11GB

内容:英语短语相关的维基百科文章数据库、论文


12. DBpedia

大小:17GB

内容:包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息,其中2.57亿条来自维基百科英文版,7.66亿条来自其他语言版本。

链接:

https://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic


13. Disasters on social media(社交媒体上有关灾难的消息)

大小:2MB

内容:包含10,000条和灾难事故相关的带注释推特

链接:https://www.figure-eight.com/data-for-everyone/


14. Enron Email Data(Enron电子邮件集)

大小:210GB

内容:包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML

链接:https://aws.amazon.com/de/datasets/enron-email-data/


15. Examiner.com - Spam Clickbait News Headlines [Kaggle](垃圾邮件/标题党新闻数据集)

大小:200MB

内容:新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章。

链接:https://www.kaggle.com/therohk/examine-the-examiner


16. Flickr Personal Taxonomies

大小:40MB

内容:社交媒体上用户按个人喜好分类内容的树形数据集。

链接:https://www.isi.edu/%7Elerman/downloads/flickr/flickr_taxonomies.html


17. Freebase Data Dump

大小:26GB

内容:是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题。

链接:https://aws.amazon.com/de/datasets/freebase-data-dump/


18. GigaOM Wordpress Challenge [Kaggle]

大小:1.5GB

内容:预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息。

链接:https://www.kaggle.com/c/predict-wordpress-likes/data


19. Hate speech identification(仇恨言语识别)







请到「今天看啥」查看全文