专栏名称: 机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
目录
相关文章推荐
爱可可-爱生活  ·  【NVIDIA Omniverse 3D ... ·  昨天  
宝玉xp  ·  分析的挺全面的👍-20250107021821 ·  2 天前  
爱可可-爱生活  ·  历史记录和界面恢复了但响应依然不行~ ... ·  2 天前  
宝玉xp  ·  回复@hopeful9527:我觉得这就是这 ... ·  2 天前  
51好读  ›  专栏  ›  机器学习研究组订阅

【收藏】8款大型机器学习数据集顶级资源

机器学习研究组订阅  · 公众号  · AI  · 2019-01-18 19:35

正文

下面的ML大型数据集,总有一款适合你。

就目前来看,找到一个特定的数据集来解决各种机器学习问题,甚至进行实验还是比较困难的。

本文作者Will Badr便列举了八大机器学习数据集


不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。


话不多说,上数据集!

1、Kaggle数据集


数据集地址:

https://www.kaggle.com/datasets


这是作者最喜欢的数据集之一。


每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。


用户还可以看到与每个数据集相关的“内核”,许多数据科学家还提供了相关手册来分析数据集。

2、Amazon数据集


数据集地址:

https://registry.opendata.aws/


该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。


网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!


数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。


如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。

3、UCI机器学习资源库

数据集地址:

https://archive.ics.uci.edu/ml/datasets.html


另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。


用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。

有些UCI的数据集已经是被清洗过的。

4、谷歌数据集搜索引擎


数据集地址:

https://toolbox.google.com/datasetsearch


在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。


他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。

5、微软数据集


数据集地址:

https://msropendata.com/


2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。


它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。

6、Awesome Public Datasets Collection


数据集地址:

https://github.com/awesomedata/awesome-public-datasets


这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。


这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。

7、政府数据集

政府相关数据集也很容易找到的。


许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:


欧盟开放数据门户:欧洲政府数据集。

数据集地址:

https://data.europa.eu/euodp/data/dataset


美国政府数据:目前由于一些非政治性原因,暂时无法访问。

数据集地址:

https://www.data.gov/


新西兰政府数据集

数据集地址:

https://catalogue.data.govt.nz/dataset


印度政府数据集:

数据集地址:

https://data.gov.in/

8、计算机视觉数据集


数据集地址:

https://www.visualdata.io/


Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。


用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

总结

从上述作者所观察到数据集情况来看,似乎是涵盖各个方向和领域。


这些新数据集的社区将继续发展,使数据更容易被获取,使众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

原文链接:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b


想要了解更多资讯,请扫描下方二维码,关注机器学习研究会

                                          


转自:新智元