《Python数据分析》 升级版
梁斌 资深算法工程师
查尔斯特大学(Charles Sturt University)计算机博士,从事机器学习、计算机视觉及模式识别等相关方向的研究,在计算机视觉等国际会议及期刊发表10余篇学术论文。现就职于澳大利亚联邦科学与工业研究组织(CSIRO),负责算法改进及其产品化、数据分析处理及可视化。
近两年来,数据分析师的岗位需求非常大,90%的岗位技能需要掌握Python作为数据分析工具,Python语言的易学性、快速开发,拥有丰富强大的扩展库和成熟的框架等特性很好地满足了数据分析师的职业技能要求。
本课程以案例驱动的方式讲解如何利用Python完成数据获取、处理、数据分析及可视化方面常用的数据分析方法与技巧。每章节中都会引入Kaggle或工业项目数据集,通过这些实际案例让学员轻松掌握使用Python分析来自不同领域的数据,随课代码及案例代码均会提供给学员自行实操。
据IDC的调查报告显示:企业中的大部分数据都是非结构化数据,这些数据每年都按指数增长60%。因此,本期升级课程在《Python数据分析》第一期的基础上,主要新增了非结构化数据分析以及常用的分析建模方法,从而帮助学员及时更新并掌握最新的数据分析知识。
具体新增内容如下:
1. 使用最新版本的Python 3.x作为分析工具
2. 新增数据分析常用的建模知识
3. 新增使用Python处理和分析时间序列数据
4. 新增使用Python进行文本数据分析
5. 新增使用Python进行图像数据处理及分析
6. 升级全部随课项目,并提供更详细的分析步骤
1. 想了解和学习典型的数据分析流程和实践方法的学习者
2. 想接触和学习非结构化数据(比如:文本、图像等)分析的学习者
3. 想学习数据分析中常用建模知识的相关从业人员
4. 尚不会使用Python的数据分析师从业者
5. 想转行从事数据分析师行业的学习者
6. 想使用Python实现机器学习的工程师
通过本课程的学习,学员将会收获:
1. 熟悉数据分析的流程,包括数据采集、处理、可视化等
2. 掌握Python语言作为数据分析工具,从而有能力驾驭不同领域数据分析实践
3. 掌握非结构化数据的处理与分析
4. 快速积累多个业务领域的数据分析项目经验
5. 掌握使用Python实现基于机器学习的数据分析和预测
6. 掌握数据分析中常用的建模知识
2017年2月18日,共9次,每次2小时
在线直播,共9次
每周2次(周六、周日晚上15:00-17:00)
直播后提供录制回放视频
可在线反复观看,有效期1年
第一课 工作环境准备及数据分析建模理论基础 (2课时)
1. 课程介绍
2. Python语言基础及Python 3.x新特性
3. 使用NumPy和SciPy进行科学计算
4. 数据分析建模理论基础
a. 数据分析建模过程
b. 常用的数据分析建模工具
5. 实战案例:科技工作者心理健康数据分析(Mental Health in Tech Survey)
第二课 数据采集与操作 (2课时)
1. 本地数据的采集与操作
a. 常用格式的本地数据读写
b. Python的数据库基本操作
2. 网络数据的获取与表示
a. BeautifulSoup解析网页
b. 爬虫框架Scrapy基础
3. 回归分析-- Logistic回归
4. 实战案例:获取国内城市空气质量指数数据
第三课 数据分析工具Pandas (2-3课时)
1. Pandas的数据结构
2. Pandas的数据操作
a. 数据的导入、导出
b. 数据的过滤筛选
c. 索引及多重索引
3. Pandas统计计算和描述
4. 数据的分组与聚合
5. 数据清洗、合并、转化和重构
6. 聚类模型 -- K-Means
7. 实战案例:全球食品数据分析(World Food Facts)
第四课 数据可视化 (2课时)
1. Matplotlib绘图
2. Pandas绘图
3. Seaborn绘图
4. 交互式数据可视化 -- Bokeh绘图
5. 实战案例:世界高峰数据可视化 (World's Highest Mountains)
第五课 时间序列数据分析 (2课时)
1. Python的日期和时间处理及操作
2. Pandas的时间序列数据处理及操作
3. 时间数据重采样
4. 时间序列数据统计 -- 滑动窗口
5. 时序模型 -- ARIMA
6. 实战案例:股票数据分析
第六课 文本数据分析 (2课时)
1. Python文本分析工具NLTK
2. 分词
3. 情感分析
4. 文本分类
5. 分类与预测模型 -- 朴素贝叶斯
6. 实战案例:微博情感分析
第七课 图像数据处理及分析 (2课时)
1. 基本的图像操作和处理
2. 常用的图像特征描述
3. 分类与预测模型 -- 人工神经网络
4. 实战案例:电影口碑与海报图像的相关性分析
第八课 机器学习基础及机器学习库scikit-learn (2课时)
1. 机器学习基础
2. Python机器学习库scikit-learn
3. 特征降维 -- 主成分分析
4. 实战案例:识别Twitter用户性别 (Twitter User Gender Classification)
第九课 项目实战:通过移动设备行为数据预测使用者的性别和年龄(2课时)
1. 交叉验证及参数调整
2. 特征选择
3. 项目实操
4. 课程总结