一、培训对象
各高校计算机科学、软件、信息管理与信息系统、统计、数学、金融、工商管理、电子商务、市场营销等相关专业负责人和骨干老师、高年级本科生及研究生,银行、电信、电子商务运营、互联网、金融保险等行业从事数据挖掘与分析的技术及管理人员。
二、培训目标
-
让学员尽快掌握python语言的基本结构与语法与数据类型,模块、基本用法,熟悉函数,类设计,包的使用及基本的编程方法;
-
理解python数据挖掘与分析技术在当代各种大数据相关产品中的应用,并掌握该领域最关键技术的原理以及技术应用过程;
-
能开发出一些实际的应用项目并初步胜任Python的数据挖掘和机器学习工作;
-
通过紧密结合应用实例,针对工作中存在的疑难问题进行分析讲解和专题讨论,进而有效提升学员解决科研及教学中实际问题的能力同时提升其从数据角度去思考的能力;
三、培训特点
培训采用全案例教学模式,通过理论知识+案例示范+练习,突出软件学习的应用性,从应用案例入手讲解知识点,既用简洁易懂的语言讲述理论方法,又同时进行实际数据挖掘分析演示;
四、教学大纲
A模块(python数据挖掘与分析技术)
第一天
|
第1讲:数据分析方法概述及相关工具
|
1.认识数据
2.数据分析的步骤和原则(确定/分解/评估/决策)
3.相关工具概述及对比(excel/spss/R/matlab/python/Java)
|
第2讲:python环境和基础语法与
|
1.安装anaconda套件
2.基本数据结构(列表/字符串/字典)
3.基本语法(条件/循环/函数/类/模块)
4.python语言编程的最佳实践经验
5.python在业界的应用案例分享
|
第3讲:基础工具库
|
1.基础环境linux/ipython
2.数值计算 numpy
3.绘图与可视化 matplotlib与 Chart
4.数据操作 pandas
5.高级应用案例分享
|
第二天
|
第4讲:统计分析库
|
1.概率和统计分析 statsmodels
2.科学计算和最优化 scipy
3.线性回归和逻辑回归 statsmodels
|
第5讲:数据挖掘概览
|
1.数据挖掘与模型
2.建模流程和步骤
3.常见算法
5.高级应用案例解析
|
第6讲:典型数据挖掘项目示范
|
1.基于titanic数据集预测生存概率
2.演示如何进行绘图探索
3.特征处理和建模
4.练习及答疑
|
第三天
|
第7讲:数据挖掘与机器学习
|
1.感知机
2决策树
3.特征工程
4.正则化方法
5. PCA
6.练习和答疑
|
第8讲:机器学习进阶
|
1.参数调优
2.集成学习
3.文本挖掘
4.神经网络
5.深度学习
|
第9讲:数据挖掘案例讲解
|
1.基于MNIST数据集识别数字
2.展示如何进行特征构造
3.常规机器学习算法和深度学习算法的效果差异
4.机器学习的结果评估
5.深度学习的最新进展分享
6.练习和答疑
|
第10讲:现代分析技术的应用
|
1.社交网络分析
2.空间数据的展示与地理信息分析
3.图像分析技术简介
|
B模块(网络爬虫与文本挖掘)
上 午
|
第1讲:网络爬虫基础
|
1.网络爬虫技术基础
2.基础python爬虫库-1 (urllib)
3.基础python爬虫库-2 (Requests)
|
第2讲:网络爬虫进阶
|
1.认识正则表达式 (re模块)
2.“漂亮”的爬虫库(Beautiful Soup)
3.网络爬虫应用案例
|