人工智能,万物互联,大数据的出现让Python变得越来越热门,其中数据处理是Python最强大的一个功能。
大数据的时代已经来临,未来将是万物互联,物联网,智能汽车,人工智能的时代,会有越来越多的数据出现,如何才能快速掌握Python数据挖掘的技术呢,这不高级数据挖掘实战培训开课了,有兴趣的小伙伴,快来看看。
一、授课对象
对机器学习、数据挖掘与分析、网络爬虫、文本挖掘技术研究和应用感兴趣的个人及从业者。
二、课程目标
1,让学员尽快掌握python语言的基本结构与语法与数据类型,模块、基本用法,熟悉函数,类设计,包的使用及基本的编程方法;理解python数据挖掘与分析技术在当代各种大数据相关产品中的应用,并掌握该领域最关键技术的原理以及技术应用过程;能开发出一些实际的应用项目并初步胜任Python的数据挖掘和机器学习工作;
2,掌握网络信息获取及文本挖掘的基本知识及深度应用,熟练运用使用Python获取网络数据并独立开发常见的爬虫项目,熟练的进行文本分析处理。
三、课程特点
1,课程体系完整科学,可以系统化学习;
2,采用理论知识+案例示范+练习的全案例驱动教学模式,通过典型应用案例入手讲解知识点,不仅仅适合零基础的初学者,同时也适合经验较为丰富的操作者;
3,注重实践、实战,每个模块均设置动手实践环节以协助学员解决操作中的实际问题;
4,提供全部教学课件、源代码、编程操作步骤,建立与授课专家的长期的答疑联系,提供长期的在线技术咨询。
三、课程大纲
第一天 | 第1讲:数据分析方法概述及相关工具 | 1.认识数据 2.数据分析的步骤和原则(确定/分解/评估/决策) 3.相关工具概述及对比(Excel/SPSS/R/Matlab/Python/Java) |
第2讲:python环境和基础语法 | 1.安装anaconda套件 2.基本数据结构(列表/字符串/字典) 3.基本语法(条件/循环/函数/类/模块) 4.python语言编程的最佳实践经验 5.python在业界的典型应用 |
第3讲:基础工具库 | 1.基础环境linux/ipython 2.数值计算 numpy 3.绘图与可视化 matplotlib与 Chart 4.数据操作 pandas 5.高级应用案例分享 |
第二天 | 第4讲:统计分析库 | 1.概率和统计分析 statsmodels 2.科学计算和最优化 scipy 3.线性回归和逻辑回归 statsmodels |
第5讲:数据挖掘概览
| 1.数据挖掘与模型 2.建模流程和步骤 3.常见算法 5.高级应用案例解析 |
第6讲:典型数据挖掘项目示范 | 1.基于titanic数据集预测生存概率 2.演示如何进行绘图探索 3.特征处理和建模 4.练习及答疑 |
第三天 | 第7讲:数据挖掘与机器学习 | 1.感知机 2.决策树 3.特征工程 4.正则化方法 5. PCA 6.练习和答疑 |
第8讲:机器学习进阶(一) | 1.参数调优 2.集成学习 3.文本挖掘 4.神经网络 5.深度学习 6.练习和答疑 |
第9讲:机器学习进阶(二) | 1.基于MNIST数据集识别数字 2.展示如何进行特征构造 3.常规机器学习算法和深度学习算法的效果差异 4.机器学习的结果评估 5.深度学习的最新进展分享 |
第10讲:现代分析技术的应用(选修) | 1.社交网络分析 2.空间数据的展示与地理信息分析 3.图像分析技术简介 |
第四天 Kaggle数据挖掘案例解析 | 第1讲:二分类任务案例分析 | 1.二分类任务简介 2.泰坦尼克沉船幸存者预测 3.Amazon员工访问需求预测 4.融360-用户二次贷款需求预测 |
第2讲:多分类与回归案例分析 | 1.多分类与回归任务简介 2.XGBoost简介 3.Otto集团产品分类预测 4.旧金山犯罪类型预测--利用地理信息可视化
5.Rossmann公司门店销量预测 |
第3讲:其它数据挖掘任务案例分析 | 1.图像分类任务简介 2.树叶图片分类任务 3.推荐任务及评价指标简介 4.Santander银行产品推荐任务 |
第一天 | 第1讲:网络爬虫技术基础 | 1.网络通信基础 2.HTTP协议简介 3.Web开发知识介绍 4.网站分析知识介绍 |
第2讲:开发环境与Python基础 | 1.开发环境安装与使用(Anaconda套件与PyCharm) 2.Python基础数据结构(元组/列表/字符串/字典) 3.Python基础语法(条件/循环/函数/类/模块) 4.常用Python库使用案例分享 5.Python技巧与实践分享 |
第3讲:网络爬虫工具库 | 1.基础Python爬虫库(urllib/Requests) 2.认识正则表达式 3.“漂亮”的爬虫库-Beautiful Soup 4.静态网页爬取案例分享 5.Selenium与“幻影”浏览器-PhantomJS 6.Ajax和DHTML网站爬取 7.动态网页爬取案例分享 8.利用API进行数据采集 |
第二天 | 第4讲:网络爬虫存储 | 1.文件读取与保存 2.关系数据库存储-MySQL 3.爬虫配合MySQL存储案例分享 4.分布式存储-NoSQL数据库 5.爬虫配合MongoDB存储案例分享 6.HDFS简介 |
第5讲:分布式爬虫 | 1.多线程爬虫 2.多进程爬虫 3.爬虫队列设计 4.集群化爬取 |
第6讲:网络爬虫框架 | 1.Python网络爬虫框架介绍 2.Scrapy基本使用
3.Scrapy进阶使用 4.爬虫框架使用案例分享 |
第三天 | 第7讲:网络爬虫常用技巧 | 1.模拟登录 2.常见验证码突破 3.爬虫代理池 4.各类网页内容处理 5.爬取移动端APP技巧 6.设计健壮的网络爬虫 |
第8讲:文本挖掘技术基础 | 1.文本挖掘全流程概述 2.自然语言处理库(NLTK) 3.TextBlob文本处理库介绍 4.中文分词介绍(jieba) 5.词云介绍 |
第9讲:文本挖掘技术进阶 | 1.文本挖掘预处理技术 2.文本特征处理 3.文本聚类 4.主题模型 5.基于深度学习的文本挖掘 6.文本挖掘案例分享 |
四、时间及地点
数据挖掘与分析:2017年7月20日~24日 北 京
爬虫与文本挖掘:2017年7月27日~30日 杭 州
五、颁发证书
学员经考核合格可获得全国通信和信息技术创新人才培养工程《大数据分析师》或《网络爬虫高级工程师》职业技术水平证书。该证表明持有者已通过相关考核,具备相应的专业知识和专业技能,并作为聘用、任职、定级和晋升的重要参考依据,可网上查询并全国通用。
六、拟邀师资
肖老师,15年数据处理从业经历,国内使用Python作为数据处理工具的先行者,BAT工作背景,目前在中国最大的电子商务与金融服务企业担任数据中心高级分析师、高级项目经理;承担过多个大型数据挖掘与分析项目,精通python、R等多种工具进行数据挖掘分析,拥有深厚的算法推导及代码实现能力;长期关注Python的发展和国内外各行业的应用情况;翻译并出版数据挖掘与机器学习专著两部, 2012年起担任浙江大学研究生数据挖掘与Python专业课程导师,擅长把艰涩难懂的技术问题进行浅显的分解,能兼顾来自不同行业不同领域学员的不同需求,具有丰富的教学技巧及实践经验。
金老师,资深的R语言、Python、Hadoop用户,南开大学统计学背景,北美海归,BAT工作背景;目前在中国最大的电子商务与金融服务企业担任高级风险策略分析师,具有丰富的R及pythong数据挖掘分析培训经验,探索出一套以案例讲解带动理论理解和软件操作熟悉的方法。
尹老师,数据科学家,浙江大学物理学博士,青年学者,浙江某高校深度学习研究中心负责人,某网络科技上市公司大数据总监,10+年软件开发数据产品经验,熟悉R\Python\Javascript等多种编程语言,目前研究集中在推荐系统、文本挖掘、神经网络等机器学习领域,具有丰富的统计建模、数据挖掘、大数据技术授课经验。
七、费用标准
机器学习与数据挖掘模块:参会费4980元/人;
网络爬虫与文本挖掘模块:参会费3980元/人;
(含专家授课、教材考试、证书申报、场地费等),食宿统一安排,费用自理。
八、联系方式
联系电话:18611038557
微信:18611038557
联系人:宋老师
邮箱[email protected]
如果想咨询课程的话请添加班主任微信