专栏名称: GitChat技术杂谈
GitChat是新时代的学习工具。
目录
相关文章推荐
码农翻身  ·  “DeepSeek出了一个昏招!” ·  昨天  
程序员的那些事  ·  OpenAI ... ·  2 天前  
程序员小灰  ·  DeepSeek + IDEA!辅助编程太强了! ·  2 天前  
程序猿  ·  本地部署 DeepSeek ... ·  3 天前  
程序员的那些事  ·  突发!o3-mini ... ·  5 天前  
51好读  ›  专栏  ›  GitChat技术杂谈

如何用 Python 爬取网页制作电子书 | Chat · 预告

GitChat技术杂谈  · 公众号  · 程序员  · 2018-01-22 07:15

正文

1

如何用 Python 爬取网页制作电子书

作者简介:

孙亖,软件工程师,长期从事企业信息化系统的研发工作,主要擅长后台业务功能的设计开发。

Chat 简介:

最近,AI 的兴起让 Python 火了一把。实际上 Python 拥有庞大的第三方支持,生态系统非常完整,可以适用各种场景和行业。

这次,我们准备通过 Python 学习爬虫的开发,既简单有趣,而且是数据采集重要一环。

同时脱离应用谈技术就是耍流氓,通过制作电子书学习数据的收集与整理,即能学到东西又有实用价值。

我们将通过爬取网页信息这个很小的应用场景来体会数据预处理的思想,并从中学习了解数据处理中抓取、处理、分组、存储等过程的实现。我这次分享主要分为以下几个部分:

  1. Python 语法的讲解,通过分享掌握简单的 Python 开发语法和思路,侧重于后面爬虫开发的需要用的内容







请到「今天看啥」查看全文