专栏名称: 朝阳35处
互联网金融大数据挖掘哪家强,平安前海征信帮你忙。分享数据挖掘和人工智能前沿技术,探讨其在风险控制、反欺诈等金融业务中的实际应用。每周涨点知识,多点谈资,定期举办行业沙龙。
目录
相关文章推荐
疯狂区块链  ·  是骑手需要社保,还是社保需要骑手? ·  昨天  
疯狂区块链  ·  英伟达就是下一个苹果 ·  昨天  
白话区块链  ·  突发:Bybit平台15亿美金资产被盗,7大 ... ·  3 天前  
51好读  ›  专栏  ›  朝阳35处

GitHub上的数据分析库

朝阳35处  · 公众号  ·  · 2018-05-29 14:25

正文



本次将为大家简单分享介绍几个GitHub上数据分析相关的项目库,包括 图像处理项目库、数据集项目库 以及 学习资源项目库






预计阅读时长:7分钟


首先介绍一下GitHub:GitHub是一个通过Git进行版本控制的软件源代码托管服务托管平台,于2008年4月正式上线,截止上个月已经成立十周年。目前,GitHub上有超过两千七百万用户以及超过八千万代码库,是一个大家学习、分享和创建软件的社区。

在GitHub,用户可以十分轻易地找到海量的开源代码并下载到本地或添加到自己的GitHub项目库中。项目库涉及的题材种类丰富,譬如比特币和众多区块链项目代码库也托管在GitHub。

除了软件开发方面的代码库,机器学习也是GitHub 上的热门话题,在machine learning的话题下有近一万七千个开源项目库(传送门:https://github.com/topics/machine-learning),从谷歌的tensorflow,到机器学习方面的scikit-learn再到微软的Cognitive Toolkit (CNTK),众多广受好评的项目,都可以找到。

下面开始本次数据分析相关的项目库的介绍:


1 图像处理库

想要遮挡住合影中意外闯入的不慎闯入的陌生人?想要消除桌子上意外多出的水杯?在图像处理库这方面随缘推荐person-blocker项目库帮您实现这项功能。

person-blocker于2018年3月份发布,是基于python的图像处理代码库。person-blocker库可以自动识别图像中物体进行识别并遮挡,该功能的实现是基于Mask_RCNN库对于常见物体进行识别区分,预训练模型则使用了Microsoft COCO: Common Objects inContext数据集。下图中的实例代码实现了遮挡斑马群旁边的长颈鹿的功能。

除了长颈鹿,还有80种元素(例如,人物、鸟类、电脑、等等)也可以用这可库进行识别和遮挡,而且代码运行过程中不需要使用图形处理器(GPU),需要修图的用户考虑一下哟~

地址:https://github.com/minimaxir/person-blocker


2 数据集库

想要做好数据分析,高质量的数据集也是必不可少的,紧贴时事又干净清晰的数据集,在GitHub各种项目库中也有不少,您值得拥有。本次数据集方面推荐的项目库是 fivethirtyeight。

fivethirtyeight项目库由FiveThirtyEight网站提供(传送门:http://fivethirtyeight.com)。FiveThirtyEight,又称538,是一个专注于发布舆情 调查、政治、经济和体育等相关题材博客的网站,曾先后被ESPN和ABCNews收购。网站于2008年由 Nate Silver创办,命名灵感来自于美国大选中的选举团成员数目,网站初期用于发布美国总统选举的投票结果预测,后逐渐增加体育、经济生活等板块的数据分析类博客。创办人Nate Silver成功预测了2008年的美国总统选举中50个州的49个州的投票结果,在2009年被时代(Time)杂志列全球最有影响的100个人之一。

目前,除了总统选举结果预测项目,538网站上还有MLB,NBA等各大赛事的结果预测的项目,和诸多时事数据分析。点击下图看示例。

(图源:https://projects.fivethirtyeight.com/)

(图源:https://projects.fivethirtyeight.com/soccer-predictions/)

在GitHub上的FiveThirtyEight中,可以找到FiveThirtyEight网站里的博客以及项目中使用的数据和部分数据分析代码。数据库里的数据都是整理清洗好的,着重推荐给爱好时事,但苦于缺少数据来源的用户。此外,希望练习一下自己数据可视化展示能力的用户,这个库不要错过哟。

地址:https://github.com/fivethirtyeight/data


3 数据分析学习资源库

Coursera、Stack Overflow、慕课网……随着互联网的发展及推广,各种开源在线学习资源层出不穷,GitHub上同样也有很多数据分析方面的学习资源可供大家参考。

数据分析学习资源库方面本次主要推荐两个库:data-science-ipython-notebooks(主要包含使用python进行数据分析的代码示例和解释说明)和The OpenSource Data Science Masters(数据科学相关知识的整合资源库)。







请到「今天看啥」查看全文