专栏名称: 数据分析
专注大数据,移动/互联网,IT科技,电子商务,数据分析/挖掘等领域的综合信息服务与分享平台。合作|约稿请加qq:365242293
目录
相关文章推荐
数据派THU  ·  门板上做研究的首席科学家:Jeff ... ·  3 天前  
大数据文摘  ·  Nature重磅:颠覆AI计算,提升460倍 ... ·  4 天前  
艺恩数据  ·  2024年8月美妆行业市场观察 ·  1 周前  
数据派THU  ·  Transformer、RNN和SSM的相似 ... ·  1 周前  
51好读  ›  专栏  ›  数据分析

推荐 :网络爬虫与文本挖掘核心技术案例实战培训(上海)

数据分析  · 公众号  · 大数据  · 2017-03-24 21:47

正文

关于举办全国网络爬虫与文本挖掘核心技术

案例实战高级研修班的通知


各有关单位:

       为加强数据科学的创新发展和技术应用,打造大数据专业技术人才队伍,满足行业对网络信息获取及文本挖掘等智能化应用相关高端人才的迫切需求,我单位将于近期举办“全国网络爬虫与文本挖掘核心技术案例实战高级研修班”。

      具体安排详见附件。



一、培训对象

从事计算机、云计算、大数据、互联网等相关领域项目的科研院所的项目负责人、科研人员、工程技术人员;各地方政府信息中心负责人、技术骨干;大数据产业投资团队,大数据应用开发商,大数据服务提供商等;有志于python机器学习研究和应用的个人及从业者。 


二、培训目标

掌握网络信息获取及文本挖掘的基本知识及深度应用,熟练运用使用Python获取网络数据并独立开发常见的爬虫项目,熟练的进行文本分析处理。


三、培训特点

  1. 课程体系完整科学,可以系统化学习;

  2. 培训采用理论知识+案例示范+练习的全案例驱动教学模式,通过典型应用案例入手讲解知识点,不仅仅适合零基础的初学者,同时也适合经验较为丰富的操作者;

  3. 注重实践实战,每个模块均设置动手实践环节以协助学员解决操作中的实际问题;

  4. 提供全部教学课件、源代码、编程操作步骤,后期将通过学员交流群建立与授课专家的长期的答疑联系,提供长期的在线技术咨询服务;


四、时间及地点

2017年4月21日~24日    上  海


五、课程大纲

第一天

第1讲:网络爬虫技术基础

  1. 网络通信基础

  2. HTTP协议简介

  3. Web开发知识介绍

  4. 网站分析知识介绍

第2讲:开发环境与Python基础

  1. 开发环境安装与使用(Anaconda套件与PyCharm)

  2. Python基础数据结构(元组/列表/字符串/字典)

  3. Python基础语法(条件/循环/函数/类/模块)

  4. 常用Python库使用案例分享

  5. Python技巧与实践分享

第3讲:网络爬虫工具库

  1. 认识正则表达式

  2. 基础Python爬虫库(urllib/Requests)

  3. “漂亮”的爬虫库-Beautiful Soup

  4. 静态网页爬取案例分享

  5. Selenium与“幻影”浏览器-PhantomJS

  6. Ajax和DHTML网站爬取

  7. 动态网页爬取案例分享

  8. 利用API进行数据采集

第二天

第4讲:网络爬虫框架

  1. Python网络爬虫框架介绍

  2. Scrapy基本使用

  3. Scrapy进阶使用

  4. 爬虫框架使用案例分享

第5讲:分布式爬虫

  1. 爬虫队列设计

  2. 多线程爬虫

  3. 多进程爬虫

  4. 集群化爬取

第6讲:网络爬虫存储

  1. 文件读取与保存

  2. 关系数据库存储-MySQL

  3. 分布式存储-NoSQL数据库

  4. HDFS简介

  5. 分布式存储案例分享

第三天

第7讲:网络爬虫常用技巧

  1. 表单处理

  2. 模拟登录

  3. 常见验证码突破

  4. 爬虫代理池

  5. 各类网页内容处理

  6. 设计隐蔽的网络爬虫

  7. 设计容错的网络爬虫

第8讲:文本挖掘技术基础

  1. 文本挖掘全流程概述

  2. 自然语言处理库(NLTK)

  3. TextBlob文本处理库介绍

  4. 中文分词介绍(jieba)

  5. 词云介绍

第9讲:文本挖掘技术进阶

  1. 文本挖掘预处理技术

  2. 文本特征处理

  3. 文本聚类

  4. 主题模型

  5. 基于深度学习的文本挖掘

  6. 文本挖掘案例分享


六、颁发证书

学员培训后经考核合格可获得全国通信和信息技术创新人才培养工程《数据挖掘与分析应用高级工程师》职业技术水平证书。该证书表明持有者已通过相关培训和考核,具备相应的专业知识和专业技能,并作为聘用、任职、定级和晋升的重要参考依据,全国通用。


七、拟邀师资

尹老师,数据科学家,浙江大学物理学博士,网络科技上市公司大数据总监,10+年软件开发数据产品经验,熟悉R\Python\Javascript等多种编程语言,目前研究集中在推荐系统、文本挖掘等机器学习领域,具有丰富的统计建模、数据挖掘、大数据技术授课经验,擅长把艰涩难懂的技术问题进行浅显的分解,能兼顾来自不同行业不同领域学员的不同需求,具有丰富的教学技巧及实践经验。


八、费用标准

培训费用3980元/人(含培训费、教材费、考试费、证书申报、场地等相关费用),食宿统一安排,费用自理。


九、联系方式

联系电话:010-85170779          手  机:18611038557

联 系 人: 宋 老 师             邮  箱: [email protected]

 

 全国网络爬虫与文本挖掘核心技术高级研修班

报名回执表

(经研究我单位选派以下同志参加此次学习)

单位名称


发票抬头


发票内容:□1、培训费 □2、会议费□3、会务费

联系人


邮箱


手机


参会人数:_    ____人

参会费用: _      ____元

付款方式:□1、现金      □2、刷卡

 

参加

人员

名单

 

 

 

姓名

性别

手 机

电子邮箱

























对课程内容设置的意见及建议













联系人:宋老师  Tel: 18611038557   QQ: 1843626486

注:请确定参加人员从速报名,培训前7日我们将通过邮件给您发送《报到通知》,告知具体培训地点、乘车路线等事宜。