专栏名称: AI数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

资源 | 机器学习高质量数据集大合辑（附链接）

AI数据派 · 公众号 · · 2018-11-18 07:30

正文

来源：大数据文摘

本文约 2415 字，建议阅读 6 分钟。

本文为大家推荐一份高质量的数据集，都是用于机器学习的开放数据集。

在机器学习中，寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

那么用于机器学习的开放数据集有哪些呢？我们给大家推荐一份高质量的数据集，这些数据集或者涵盖范围广泛（比如 Kaggle），或者非常细化（比如自动驾驶汽车的数据）。

首先，在搜索数据集时，在卡内基·梅隆大学有以下说法：

数据集不应混乱，因为你不希望花费大量时间清理数据。
数据集不应该有太多行或列，因此很容易使用。
数据越干净越好 —— 清洗大型数据集相当耗时。
数据可以解答一些有趣的问题。

数据集查找器

Kaggle： Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。

在这个平台中可以找到各种数据，从拉面的评分、篮球数据，到西雅图的宠物牌照应有尽有。

https://www.kaggle.com/

UCI机器学习库（UCI Machine Learning Repository）： 这是网络上最早的数据集来源之一，是寻找各种有趣数据集的第一选择。虽然用户提供的数据集的清洁度不太一样，但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据，无需注册。

http://mlr.cs.umass.edu/ml/

VisualData： 在这里计算机视觉数据集按类别分组，并且支持搜索查询。

https://www.visualdata.io/

公共政府数据集

Data.gov： 在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是，很多数据还有待进一步研究。

https://www.data.gov/

食品环境地图集（Food Environment Atlas）： 当地的食物选择如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校系统财务状况（School system finances）： 这里有美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据（Chronic disease data）： 美国各地慢性病指标的数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国家教育统计中心（The US National Center for Education Statistics）： 来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

英国数据服务： 英国最大的社会、经济和人口数据收集机构。

https://www.ukdataservice.ac.uk/

数据美国（Data USA）： 全面的、可视化的美国公共数据。

http://datausa.io/

金融和经济

Quandl： 里面有很多经济和金融数据，你可以使用这些数据建立预测经济指标或股价的模型。

https://www.quandl.com/

世界银行开放数据（World Bank Open Data）： 涵盖世界各地人口统计、大量经济和发展指标的数据集。

https://data.worldbank.org/

货币基金组织的数据（IMF Data）： 国际货币基金组织公布关于国际金融、债务率、外汇储备、商品价格和投资的数据。

https://www.imf.org/en/Data

英国金融时报金融时报市场数据（Financial Times Market Data：）： 里面有来自世界各地的最新金融市场信息，包括股票价格指数、商品和外汇。

https://markets.ft.com/data/

谷歌趋势（Google Trends）： 观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

美国经济协会(AEA)： 这里你可以找到美国宏观经济的相关数据。

https://www.aeaweb.org/resources/data/us-macro-regional

机器学习数据集

Labelme： 数据集中包含大量有标注的图像数据。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet： 是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释。根据 WordNet 层次结构来组织，其中层次结构的每个节点都由成百上千个图像来描述。

http://image-net.org/

LSUN： 场景理解与许多辅助任务（房间布局估计，显着性预测等）

http://lsun.cs.princeton.edu/2016/

MS COCO： 通用图像的理解和文字描述。

http://mscoco.org/

COIL 100： 在 360 度旋转中以各个角度成像的 100 个不同的物体。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

视觉基因组： 非常详细的视觉知识库，配以0 万张带有文字描述的图像。

http://visualgenome.org/

谷歌的Open Images： “知识共享”（Creative Commons）下的900万个图像网址集合，已标注超过6,000个类别的标签。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

Labelled Faces in the Wild： 13,000个人脸标记图像，用于开发涉及面部识别的应用程序。

http://vis-www.cs.umass.edu/lfw/

Stanford Dogs Dataset： 包含20580张图片和120个不同的狗品种类别。

http://vision.stanford.edu/aditya86/ImageNetDogs/

室内场景识别（Indoor Scene Recognition）： 这是一个非常细化的数据集，由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳，因而这个数据集非常有用。内有 67 个室内类别，共 15,620 张图像。

http://web.mit.edu/torralba/www/indoor.html

情感分析

多域情感分析数据集（Multidomain sentiment analysis dataset）： 一个比较有历史的数据集，里面还有一些来自亚马逊的产品评论。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB： 影评，也是比较有历史的二元情绪分类数据集、数据规模相对较小，里面有 25,000 条电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

斯坦福情感树银行（Stanford Sentiment Treebank）： 带有情感注释的标准情绪数据集。

http://nlp.stanford.edu/sentiment/code.html

Sentiment140： 一个流行的数据集，它使用16万条推文，并把表情等等符号剔除了。

http://help.sentiment140.com/for-students/

Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment)： 自 2015 年 2 月以来美国航空公司的 Twitter 数据，分类为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

安然数据集： 里面有安然集团高级管理层的电子邮件数据。

https://www.cs.cmu.edu/~./enron/

亚马逊评论： 里面有3500万条来自亚马逊的评论，时间长度为18年。数据包括产品和用户信息、评级等。

https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngram： 来自Google书籍的词汇集合。

https://aws.amazon.com/datasets/google-books-ngrams/

博客语料库： 从blogger.com收集的681，288篇博客文章。每个博客至少包含200个常用的英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

维基百科链接数据（Wikipedia Links data）： 维基百科全文。该数据集包含来自400多万篇文章，近19亿字。你可以对字、短语或段落本身的一部分进行搜索。

https://code.google.com/p/wiki-links/downloads/list

Gutenberg电子图书列表： Project Gutenberg的附加注释的电子书列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs