顺利完成数据科学项目对于从事这个行业者来说很重要,不仅能锻炼能力,同时可以作为就业面试时的经验,可以在面试过程中进行讨论,从而增加自己的竞争力。
所以找到一个合适、有趣的数据集很关键。
本文选择了不同类型和复杂程度的数据集,这些数据集是比较适合于第一个项目。(他们中的一些人也为研究项目工作!)这些数据集涵盖了各种来源:人口数据、经济数据、文本数据和公司数据。
1、美国人口普查数据
:https://www.census.gov/data.html
美国人口普查局公布了州、市甚至邮政编码级别的大量人口统计数据。对于那些对创建地理数据可视化感兴趣的学生来说,这是一个非常棒的数据集,可以在人口普查局的网站上访问。或者,可以通过API访问数据。使用该API的一个方便方法是通过choroplethr。总的来说,这些数据非常清晰和全面。
2、FBI犯罪数据:
https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-1
https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-2
美国联邦调查局犯罪数据是有趣的,是这个列表中最有趣的数据集之一。如果你对分析时间序列数据感兴趣,你可以用它来描绘20年间全国犯罪率的变化。或者,您可以从地理位置查看数据。
3、美国疾病控制与预防中心(CDC)死因
:https://www.cdc.gov/datastatistics/index.html
疾病控制和预防中心维护着一个死因数据库 。数据几乎可以通过所有可以想象的方式进行细分:年龄,种族,年份等。
4、Medicare医院质量
:http://seer.cancer.gov/faststats/selections.php?series=cancer
医疗保险和医疗补助服务中心(Centers for Medicare & Medicaid Services)在全美4,000多家经医疗认证的医院中维护着一个医疗质量数据库,提供了有趣的比较。
5、SEER癌症发病率
:http://seer.cancer.gov/faststats/selections.php?series=cancer
美国政府也有关于癌症发病率的数据,再一次根据年龄、种族、性别、年份和其他因素进行细分。它来自国家癌症研究所的监测、流行病学和最终结果项目。
6、美国劳工统计局:
http://www.bls.gov/data/
美国许多重要的经济指标(如失业率和通货膨胀率)都可以在劳工统计局的网站上找到。大部分数据可以按时间和地理位置进行分段。
7、经济分析局:
http://www.bea.gov/national/index.htm
经济分析局也有国家和地区经济数据,包括国内生产总值和汇率。
8、IMF经济数据
:http://data.imf.org/?sk=388DFA60-1D26-4ADE-B505-A05A558D9A42&sId=1479329328660
要获取全球金融统计数据和其他数据,请访问国际货币基金组织的网站。
9、道琼斯每周收益:
http://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index
预测股票价格是数据分析和机器学习的主要应用。加州大学尔湾分校(University of California, Irvine)机器学习与智能系统中心(Center for Machine Learning and Intelligent Systems)提供的道琼斯指数(Dow Jones Index)周回报率是需要研究的相关数据之一。
10、英国政府网站data .gov.uk
:https://data.gov.uk/
英国政府的官方数据门户网站提供数以万计的有关犯罪、教育、交通和健康等主题的数据集。
11、安然电子邮件
:http://www.cs.cmu.edu/~enron/
安然公司倒闭后,大约50万封包含信息文本和元数据的免费电子邮件被公布。这个数据集现在很出名,为文本相关的分析提供了一个很好的试验场。您还可以通过该页面探索该数据集的其他研究用途。
12、Google图书Ngrams:
http://aws.amazon.com/datasets/8172056142375670
:如果您对真正的海量数据感兴趣,Ngram viewer数据集将根据大量文本源按年计算单词和短语的频率。结果文件为2.2 TB。
13、联合国儿童基金会
:https://data.unicef.org/
如果有关世界各地儿童生活的数据值得关注,那么联合国儿童基金会是最可靠的来源之一。该组织的公共数据集涉及营养、免疫和教育等方面。
14、Reddit评论
:https://www.reddit.com/r/datasets/comments/65o7py/updated_reddit_comment_dataset_as_torrents/
Reddit发布了一个非常有趣的数据集,记录了网站上的每一条评论。它有超过1tb的未压缩数据,所以如果你想要一个更小的数据集与Kaggle一起工作,可以在Kaggle的网站上看到2015年5月的评论。
15、维基百科:
https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia
除了维基媒体基金会的其他项目外,维基百科还提供下载英文文章的说明。
16、Lending Club
:https://www.lendingclub.com/info/download-data.action
Lending Club提供它拒绝的贷款申请的数据,以及它发放的贷款的表现。自由数据集既适用于分类技术(给定的贷款将会违约),也适用于回归(给定的贷款将会偿还多少)。
17、沃尔玛
:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data
沃尔玛公布了美国各地45家商店的历史销售数据。
18、Airbnb:
http://insideairbnb.com/get-the-data.html
Airbnb提供世界各地数十个城市Airbnb房源的不同数据集。
19、Yelp
:https://www.yelp.com/dataset/challenge
Yelp维护一个用于个人、教育和学术目的的免费数据集。它包括了来自10个大都市地区18.9万家企业的600万条评论。欢迎学生参加Yelp的数据集挑战。