一、培训对象
对网络爬虫、文本挖掘技术研究和应用感兴趣的个人及从业者。各地方政府信息中心负责人、技术骨干;大数据产业投资团队,大数据应用开发商,大数据服务提供商等;
二、培训目标
掌握网络信息获取及文本挖掘的基本知识及深度应用,熟练运用使用Python获取网络数据并独立开发常见的爬虫项目,熟练的进行文本分析处理。
三、培训特点
1,课程体系完整科学,可以系统化学习;
2,培训采用理论知识+案例示范+练习的全案例驱动教学模式,
通过典型应用案例入手讲解知识点,不仅仅适合零基础的初学者,同时也适合经验较为丰富的操作者;
3,注重实践实战,每个模块均设置动手实践环节以协助学员解决操作中的实际问题;
4,提供全部教学课件、源代码、编程操作步骤,后期将通过学员交流群建立与授课专家的长期的答疑联系,提供长期的在线技术咨询服务;
四、时间及地点
2017年4月21日~24日 上 海
五、课程大纲
第一天 | 第1讲:网络爬虫技术基础 | 1.网络通信基础 2.HTTP协议简介 3.Web开发知识介绍 4.网站分析知识介绍 |
第2讲:开发环境与Python基础 | 1.开发环境安装与使用(Anaconda套件与PyCharm) 2.Python基础数据结构(元组/列表/字符串/字典) 3.Python基础语法(条件/循环/函数/类/模块) 4.常用Python库使用案例分享 5.Python技巧与实践分享 |
第3讲:网络爬虫工具库 | 1.认识正则表达式 2.基础Python爬虫库(urllib/Requests) 3.“漂亮”的爬虫库-Beautiful Soup 4.静态网页爬取案例分享 5.Selenium与“幻影”浏览器-PhantomJS 6.Ajax和DHTML网站爬取 7.动态网页爬取案例分享 8.利用API进行数据采集 |
第二天 | 第4讲:网络爬虫框架 | 1.Python网络爬虫框架介绍 2.Scrapy基本使用 3.Scrapy进阶使用 4.爬虫框架使用案例分享 |
第5讲:分布式爬虫 | 1.爬虫队列设计 2.多线程爬虫 3.多进程爬虫 4.集群化爬取 |
第6讲:网络爬虫存储 | 1.文件读取与保存 2.关系数据库存储-MySQL 3.分布式存储-NoSQL数据库 4.HDFS简介 5.分布式存储案例分享 |
第三天 | 第7讲:网络爬虫常用技巧 | 1.表单处理 2.模拟登录 3.常见验证码突破 4.爬虫代理池 5.各类网页内容处理 6.设计隐蔽的网络爬虫 7.设计容错的网络爬虫 |
第8讲:文本挖掘技术基础 | 1.文本挖掘全流程概述 2.自然语言处理库(NLTK) 3.TextBlob文本处理库介绍 4.中文分词介绍(jieba) 5.词云介绍 |
第9讲:文本挖掘技术进阶 | 1.文本挖掘预处理技术 2.文本特征处理 3.文本聚类 4.主题模型 5.基于深度学习的文本挖掘 6.文本挖掘案例分享 |
六、颁发证书
学员培训后经考核合格可获得全国通信和信息技术创新人才培养工程《数据挖掘与分析应用高级工程师》职业技术水平证书。该证书表明持有者已通过相关培训和考核,具备相应的专业知识和专业技能,并作为聘用、任职、定级和晋升的重要参考依据,全国通用。
七、拟邀师资
尹老师,数据科学家,浙江大学物理学博士,某网络科技上市公司大数据总监,10+年软件开发数据产品经验,熟悉R\Python\Javascript等多种编程语言,目前研究集中在推荐系统、文本挖掘等机器学习领域,具有丰富的统计建模、数据挖掘、大数据技术授课经验,擅长把艰涩难懂的技术问题进行浅显的分解,能兼顾来自不同行业不同领域学员的不同需求,具有丰富的教学技巧及实践经验。
八、费用标准
培训费用3980元/人(含培训费、教材费、考试费、证书申报、
场地等相关费用),食宿统一安排,费用自理。
九、联系方式
联系电话:13718006076 微 信:13718006076
联 系 人: 张洪 邮 箱: [email protected]