不少读者读了公众号里面的一些爬虫实战文章或者在网上看到某些实践教程,照猫画虎经常会遇到各种各样的问题,有些问题回答起来着实麻烦,要解释 A 的时候还要求有 B 基础,因为爬虫是一个非常综合性的技术,包括 HTTP 协议、HTML 语言、数据库、Web服务器、网络安全、图像处理、数据科学等内容,很少会有一本书会全面地去介绍每个知识点。
不过,今天推荐的这本书《Python网络数据采集》就是一本可以引领你入门网络爬虫的书。会点爬虫技术,爬个视频、刷个票什么的都很easy。
这本书在豆瓣的评分 7.8,在同类书中的评分是最高的,200多页的书读起来比较轻松,爬虫相关的每个知识点均有涉及,包括基本的静态网站、动态网站的爬法、验证码识别、防反爬虫的一些策略,当然作为入门书,也不可能所有知识都能深入,要想深入学习爬虫还需要针对每个知识点进行系统的学习,俗话说,师父领进门修行在个人,这本书相当于扮演了师傅的角色。
书中还有爬虫库如 urllib 、Requests、Beautiful Soup 等模块的介绍,内容都是基于 Python3 讲解,书中介绍到 Scrapy 只支持Python2,不过现在最新的 Scrapy 版本已经开始兼容 Python3了,对开发者来说无疑是利好消息。此外,关于 API 获取数据的爬虫是基于 Google 和 Twitter 的API作为案例,这在国内显然没法直接运行,除非你使用代理IP。大家可以按照类似的原理去获取知乎、微博等网站的API数据,毕竟很多网站都有对应的移动端版本,可以优先使用移动端接口来获取数据。
福利时间
为了感谢一如既往支持公众号的读者们,每月给大家准备了福利,这次给大家的是5本《Python网络数据采集》,感谢图灵教育(微信号:turingbooks)的支持。
活动规则
提前祝大家国庆、中秋双节快乐
↑↑↑本书购买地址↑↑↑
近期推荐阅读: