人工智能,万物互联,大数据的出现让Python变得越来越热门,其中数据处理是Python最强大的一个功能。
大数据的时代已经来临,未来将是万物互联,物联网,智能汽车,人工智能的时代,会有越来越多的数据出现,如何才能快速掌握Python数据挖掘的技术呢,这不高级数据挖掘实战培训开课了,有兴趣的小伙伴,快来看看。
一、授课对象
对机器学习、数据挖掘与分析、网络爬虫、文本挖掘技术研究和应用感兴趣的个人及从业者。
二、课程目标
1,让学员尽快掌握python语言的基本结构与语法与数据类型,模块、基本用法,熟悉函数,类设计,包的使用及基本的编程方法;理解python数据挖掘与分析技术在当代各种大数据相关产品中的应用,并掌握该领域最关键技术的原理以及技术应用过程;能开发出一些实际的应用项目并初步胜任Python的数据挖掘和机器学习工作;
2,掌握网络信息获取及文本挖掘的基本知识及深度应用,熟练运用使用Python获取网络数据并独立开发常见的爬虫项目,熟练的进行文本分析处理。
三、课程特点
1,课程体系完整科学,可以系统化学习;
2,采用理论知识+案例示范+练习的全案例驱动教学模式,
通过典型应用案例入手讲解知识点,不仅仅适合零基础的初学者,同时也适合经验较为丰富的操作者;
3,注重实践、实战,每个模块均设置动手实践环节以协助学员解决操作中的实际问题;
4,提供全部教学课件、源代码、编程操作步骤,建立与授课专家的长期的答疑联系,提供长期的在线技术咨询。
三、课程大纲
第一天
|
第1讲:数据分析方法概述及相关工具
|
1.认识数据
2.数据分析的步骤和原则(确定/分解/评估/决策)
3.相关工具概述及对比
(Excel/SPSS/R/Matlab/Python/Java)
|
第2讲:python环境和基础语法
|
1.安装anaconda套件
2.基本数据结构(列表/字符串/字典)
3.基本语法(条件/循环/函数/类/模块)
4.python语言编程的最佳实践经验
5.python在业界的典型应用
|
第3讲:基础工具库
|
1.基础环境linux/ipython
2.数值计算 numpy
3.绘图与可视化 matplotlib与 Chart
4.数据操作 pandas
5.高级应用案例分享
|
第二天
|
第4讲:统计分析库
|
1.概率和统计分析 statsmodels
2.科学计算和最优化 scipy
3.线性回归和逻辑回归 statsmodels
|
第5讲:数据挖掘概览
|
1.数据挖掘与模型
2.建模流程和步骤
3.常见算法
5.高级应用案例解析
|
第6讲:典型数据挖掘项目示范
|
1.基于titanic数据集预测生存概率
2.演示如何进行绘图探索
3.特征处理和建模
4.练习及答疑
|
第三天
|
第7讲:数据挖掘与机器学习
|
1.感知机
2.决策树
3.特征工程
4.正则化方法
5. PCA
6.练习和答疑
|
第8讲:机器学习进阶(一)
|
1.参数调优
2.集成学习
3.文本挖掘
4.神经网络
5.深度学习
6.练习和答疑
|
第9讲:机器学习进阶(二)
|
1.基于MNIST数据集识别数字
2.展示如何进行特征构造
3.常规机器学习算法和深度学习算法的效果差异
4.机器学习的结果评估
5.深度学习的最新进展分享
|
第10讲:现代分析技术的应用(选修)
|
1.社交网络分析
2.空间数据的展示与地理信息分析
3.图像分析技术简介
|
第四天
Kaggle数据挖掘案例解析
|
第1讲:二分类任务案例分析
|
1.二分类任务简介
2.泰坦尼克沉船幸存者预测
3.Amazon员工访问需求预测
4.融360-用户二次贷款需求预测
|
第
2讲:多分类与回归案例分析
|
1.多分类与回归任务简介
2.XGBoost简介
3.Otto集团产品分类预测
4.旧金山犯罪类型预测--利用地理信息可视化
5.Rossmann公司门店销量预测
|
第3讲:其它数据挖掘任务案例分析
|
1.图像分类任务简介
2.树叶图片分类任务
3.推荐任务及评价指标简介
4.Santander银行产品推荐任务
|
第一天
|
第1讲:网络爬虫技术基础
|
1.网络通信基础
2.HTTP协议简介
3.Web开发知识介绍
4.网站分析知识介绍
|
第2讲:开发环境与Python基础
|
1.开发环境安装与使用(Anaconda套件与PyCharm)
2.Python基础数据结构(元组/列表/字符串/字典)
3.Python基础语法(条件/循环/函数/类/模块)
4.常用Python库使用案例分享
5.Python技巧与实践分享
|
第3讲:网络爬虫工具库
|
1.基础Python爬虫库(urllib/Requests)
2.认识正则表达式
3.“漂亮”的爬虫库-Beautiful Soup
4.静态网页爬取案例分享
5.Selenium与“幻影”浏览器-PhantomJS
6.Ajax和DHTML网站爬取
7.动态网页爬取案例分享
8.利用API进行数据采集
|
第二天
|
第4讲:网络爬虫存储
|
1.文件读取与保存
2.关系数据库存储-MySQL
3.爬虫配合MySQL存储案例分享
4.分布式存储-NoSQL数据库
5.爬虫配合MongoDB存储案例分享
6.HDFS简介
|
第5讲:分布式爬虫
|
1.多线程爬虫
2.多进程爬虫
3.爬虫队列设计
4.集群化爬取
|
第6讲:网络爬虫框架
|
1.Python网络爬虫框架介绍
2.Scrapy基本使用
3.Scrapy进阶使用
4.爬虫框架使用案例分享
|
第三天
|
第7讲:网络爬虫常用技巧
|
1.模拟登录
|