专栏名称: 挖地兔
金融数据采集与挖掘,开启量化金融的第一扇大门。
目录
相关文章推荐
单向街书店  ·  我在这儿,和浪漫主义狗一起 ·  昨天  
龙岩图书馆  ·  2月23日(下午4时)妙妙绘本屋报名 | ... ·  昨天  
单向街书店  ·  【单向历】2 月 19 日,宜埋首 ·  3 天前  
十点读书会  ·  陈晓陈妍希,爱没爱过 ·  2 天前  
51好读  ›  专栏  ›  挖地兔

Python数据分析从小白到高手的几个步骤

挖地兔  · 公众号  ·  · 2019-01-24 00:00

正文

上一周,一个非常高端的用户委托我给他做一个培训,从Python数据分析的基础到如何写一个策略实例,然后再用“江湖”方法实现实盘程序化交易。


一开始其实不太想接,但想到是Tushare用户的一个很实际的诉求,同时也是自己对曾经学习过的东西一个重新梳理和总结,所以就答应了。


接下来以后,很认真的做了一些准备,从写提纲到准备讲义 ,罗列了很多要点,尤其是在Python数据分析方面所用到的工具和方法,一一进行了讲解。


讲完以后才想来在2017年的时候,曾经看过一篇老外写的文章,把Numpy/Pandas甚至各种机器学习和神经网络算法组织成了不同的结构图,看起来非常清晰,一目了然。


有点遗憾当时没有拿出来跟那个朋友分享。所以,今天重新组织一下,希望能借别人的精华,把学习的路线和过程传递给更多想学习和正在学习的小伙伴。


以下是内容截图的原文地址,图片版权归原作者:

https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463


下载高清大图,请通过文章末尾方法获得。


Python起步,基础知识


在开始数据分析之旅之前,必须要掌握Python的基础方法和用法,就像一出生先要学会走路一样,别着急上跑道,打好基本功才能练就硬本事。

Python的基础知识比如变量声明,运算符操作,数据类型,常用数据集合操作都是要烂熟于心的。同时也要掌握一些开发工具,穿上鞋走路才能走得更稳,也更加舒服。


Python数据分析之源,Numpy


Numpy几乎是所有重要Python数据分析工具的依赖,比如后面要介绍的Pandas,以及其他机器学习工具的包,都需要依靠Numpy来完成数据的组织和清理。所以,我把Numpy定义为数据Python数据分析之源。

在Numpy里,需要灵活掌握基本的数据类型的使用,数组的(花式)切片,数据的广播运算,数据文件的读写等等,这些知识是为你练就数据神功积攒内力,打通任督二脉的第一步。


Python数据分析神器,Pandas


如果说Numpy可以打通全身经脉提升内力,那么Pandas就如同赐给了你一把屠龙宝刀,一刀在手,走遍天下无敌手。数据里披荆斩刺,牛鬼蛇神,几刀下去就会清清爽爽干干净净。

为啥这么干净利落?因为Pandas有DataFrame,数据里纵横驰骋,无非是几个简单的函数。另外,不论数据文件的对接,还是数据库的存取,也是一两行代码的功夫。


所以,想要行走江湖,Pandas这把杀猪刀,错了,屠龙宝刀,一定要用好。


数据清洗过程


刀要怎么用? 横一刀,竖一刀当然也可以,但我们还是要优雅一点。


肉一点的数据可以切,可以削,带点骨头的数据可以劈,可以斩,实在不行捅也行。(还是杀猪。。。)

所以,我们在处理数据的时候,基础会对数据进行切片,补全,去重,重塑等等,之后的统计分析也变得异常简单。


Python数据可视化,经典Matplotlib


虽然目前已经出现了很多优秀的支持Python的可视化工具,比如之前介绍过的Dash,Pyecharts,但Python御用的可视化工具Matplotlib在任何时候都可能出现在不同场合并有着不凡的表现。

可视化就像给数据穿上靓丽的外衣,辛苦折腾出的结果或者结论一定要有一个漂亮的呈现。所以,一个惊艳的图表报告能给一次“惊险”的数据之旅画上一个圆满的句号。


装逼第一步,机器学习


这几年人工智能火爆发展,强势入驻IT及互联网领域,连金融投资也要处处强调智能化。作为“智能”实现的第一步,机器学习承载了所有有志进入人工智能领域人的梦想,也是所有 “码农”血洗屌丝形象,进入更高薪领域必备良器。

不管监督学习也好,半监督还是无监督也好,反正算法从此挂上了嘴巴,随口不蹦出几个经典算法来,都显示不出专业性,尤其是一些性能又高,知道的人又少的算法,那更是可以让人说话声音都要高出几个分贝。


但是装逼有时候也不太好装,骚年一定要认真学好,各处细节都要了解清楚,尤其是一些常用工具要掌握到位,比如下图的流程,可以让你快速定位问题,并制定出解决方案。


另外,我们也可以掌握一些算法速查表。

当然,如果能掌握一些系统性的工具包,更有利于对机器学习的理解和运用,Scikit-Learn或许是首先。


装逼第二步,神经网络


神经网络错综复杂的各种图或许会让你眼花缭乱,但这岂能让这种既像跳棋游戏又像电路板的东西挡住了我们装逼的路。


先来看看这些神经网络图,简称神图。







请到「今天看啥」查看全文