课程大纲:
1、互联网、互联网架构方面介绍,网站基本原理及扫盲
互联网的暴露方式
URL
静态网页
动态网页
Web Service
网站分析及评估
Robox.txt
网站地图
估算网站及内容数量
分析网站所使用的技术
网站分析常用工具及方法
2、爬虫基本原理、搭建第一个爬虫
网页结构分析
宽度OR深度?
设置爬虫偏好
设计爬虫队列
任务分配
Visited 列表
去重
3、分布式爬虫
分布式爬虫
串行爬虫
多线程爬虫
多进程爬虫
线程、进程及多机之间的协作
分布式存储及处理
HDFS
MongoDB
Redis
常用数据处理方式
4、爬虫与反爬虫的对抗
动态内容
验证码
表单交互
登录及访问限制
5、处理HTML页面
正则表达式
HTML 解析
WebView、Javascript 直接处理页面
NLP 及分类器
6、去除网页中的噪声
数据清洗
噪声对网页 的影响
利用统计学消除噪声
利用视觉消除噪声
7、内容去重
定义重复
排重
指纹技术的应用
8、网页内容处理:文档、视频、音频
PDF 文件及内容处理
Office 内容抽取
RTF 内容抽取
多媒体内容
视频及视频关键帧
音频抽取
9、网页内容处理:图像、3D模型、分类、聚类
网页分类
网页聚类
10、爬虫应用: 自然语言处理和数据追踪
NLP
广告分析(淘宝、西贴)
动态追踪(人人车、优信拍)
11、爬虫应用: 搜索引擎
内容提取与结构化(百科)
搜索引擎(Google、百度)
12、爬虫应用:知识库、聚合类应用及网站、机器学习
知识库(WikiWand)
新闻聚类(今日头条)
机器学习样本数据