专栏名称: Python之禅
分享Python相关技术干货,偶尔扯扯其它的
目录
相关文章推荐
Python中文社区  ·  用 Python 解读股市情绪,让你从韭菜变镰刀 ·  5 天前  
Python爱好者社区  ·  北大韦东奕上课照片走红,板书潇洒,新发型吸睛 ... ·  6 天前  
Python开发者  ·  太荒谬了!千人公司一刀切禁用 ... ·  5 天前  
Python爱好者社区  ·  突发!ETH官宣制裁中国学生,国防七子、中科 ... ·  1 周前  
Python爱好者社区  ·  导师:自己每天科研工作近 10 ... ·  1 周前  
51好读  ›  专栏  ›  Python之禅

[荐书|福利] 如何系统学习网络爬虫

Python之禅  · 公众号  · Python  · 2017-09-28 17:16

正文

不少读者读了公众号里面的一些爬虫实战文章或者在网上看到某些实践教程,照猫画虎经常会遇到各种各样的问题,有些问题回答起来着实麻烦,要解释 A 的时候还要求有 B 基础,因为爬虫是一个非常综合性的技术,包括 HTTP 协议、HTML 语言、数据库、Web服务器、网络安全、图像处理、数据科学等内容,很少会有一本书会全面地去介绍每个知识点。


不过,今天推荐的这本书《Python网络数据采集》就是一本可以引领你入门网络爬虫的书。会点爬虫技术,爬个视频、刷个票什么的都很easy。



这本书在豆瓣的评分 7.8,在同类书中的评分是最高的,200多页的书读起来比较轻松,爬虫相关的每个知识点均有涉及,包括基本的静态网站、动态网站的爬法、验证码识别、防反爬虫的一些策略,当然作为入门书,也不可能所有知识都能深入,要想深入学习爬虫还需要针对每个知识点进行系统的学习,俗话说,师父领进门修行在个人,这本书相当于扮演了师傅的角色。


书中还有爬虫库如 urllib 、Requests、Beautiful Soup 等模块的介绍,内容都是基于 Python3 讲解,书中介绍到 Scrapy 只支持Python2,不过现在最新的 Scrapy 版本已经开始兼容 Python3了,对开发者来说无疑是利好消息。此外,关于 API 获取数据的爬虫是基于 Google 和 Twitter 的API作为案例,这在国内显然没法直接运行,除非你使用代理IP。大家可以按照类似的原理去获取知乎、微博等网站的API数据,毕竟很多网站都有对应的移动端版本,可以优先使用移动端接口来获取数据。


福利时间


为了感谢一如既往支持公众号的读者们,每月给大家准备了福利,这次给大家的是5本《Python网络数据采集》,感谢图灵教育(微信号:turingbooks)的支持。


活动规则


  • 在留言中说说你在学编程过程中的一些经历

  • 分享朋友圈,留言点赞数前2位可以获得本书,赞数相同的优先从赞赏过公众号的读者中挑选。另外3位我将从所有留言中选择

  • 对有作弊行为的将取消参与资格,未尽事宜请允许我有一点点解释权

  • 截止时间:2017年10月8日24点


提前祝大家国庆、中秋双节快乐



↑↑↑本书购买地址↑↑↑

近期推荐阅读: