专栏名称: 学术中国

“见证学术力量锻造学术精神”——关注“学术中国”，即时获取最新学术信息！

抓取数据这么酷的事儿，你也能学会！

学术中国 · 公众号 · 科研 · 2017-09-28 12:33

正文

三角形分割线

2017年8月，学术中国在北京举办Python网络爬虫从入门到进阶工作坊（第1季），好评如潮，尤其是老师课后在微信群里的继续答疑打消了大家的后顾之忧。很多学友回去后自己爬取了网页数据，对自身的研究提供了很大的便利。数据时代，得数据者得天下，尤其是对于经管及社科研究者而言，当你学会了Python网络爬虫这个工具，将为你的研究插上加速器，自由获取网络上相关的研究数据。

以下是第1季部分学员心声：

张老师（神户大学）：老师讲解很耐心仔细，助教也认真负责帮忙解决问题。

广东某公司策划经理：听了叶老师的课收获很大，真正零基础也可以听得懂。通过课程已经能够对简单的网页数据进行爬虫抓取。老师和几位助教都很负责，初次写数据代码肯定会有很多错误的地方，老师和助教都能及时帮助纠正和解决，比自己看书看网络视频好多了。

罗老师（中国人民大学）：叶老师上课超棒，讲解细致有条理，每次都会耐心地回答我们的疑问。经过学习，目前我们都基本掌握了初级的爬虫技术，能独立请求网页、获取信息并存储数据。叶老师，你值得拥有！

朱老师（西南财经大学）：很早的时候，导师就让我学下python数据抓取，我自己也在网上搜了不少资料，进行摸索，可是网上资料比较乱，尝试了几次，总是会出现这样或者那样的小问题，挫败感比较强，后来就放弃了。这次听了叶老师的课程，有一种豁然开朗的感觉，回去自己很快就爬下了几个网站。确实非常适合初学者，能够帮忙节约大量的时间，真诚推荐！！！

更为熟悉，将来学习Python的数据分析也木有陌生感。非常值得参与的一门课程！

陈老师（复旦大学）：

开课时讲完导言PPT就觉得自己报对了，叶大神真是哪哪都爬过，爬数据这门技术，也是哪哪都需要，人才呐！从学术研究，到技术岗位，就业能力，自己能多一门技能真的是很期待～

最后一点，真的零基础都不要担心，看到同期班里的老师、博士们、硕士们，觉得自己要跟不上，然而老师细心从头讲，助教辅导解决各种问题，一路走的很顺利～

欧阳同学（里昂高等商学院）：

叶老师的课条理非常清晰，先展示了他爬过的一些成果，然后概括了一个爬数据的顺序，即三大步：请求网页、提取数据、保存本地，然后从最基本的指令开始教起。且每一个步都会亲自指导有疑惑的同学，随时可以提问，随时解答，效率非常高，比自己在网上学少走了许多弯路。

ps：叶老师最后一堂课现场演示如何爬链家网的一百多页数据，简直激动人心！

再看看活动现场，满屏都是学习的热情啊！

我们为课程建设的专属微信群里也是热烈讨论。

因场地限制，第1季现场仅限70人参与了学习。很多学友被学长“无情的”挡在门外。为了弥补大家的遗憾，我们决定在今年10月份开设“Python网络爬虫从入门到进阶工作坊（第2季）”。

还是原来的“配方”，还是原来的“味道”，但是我们会更加升级服务！就等你了！

特训内容

第一课. Python基础知识（第一天上午）

1、软件运行与基本操作

2、变量与运算：字符、数值

3、数据结构：列表（list）和字典（dict），用于储存抓取下来的数据

4、字符串操作：清洗数据

5、函数定义和类：搭建爬虫框架

6、条件判断（if）：解决爬虫过程中选择的问题

7、循环迭代（for... while...）：控制爬虫持续抓取数据

8、错误与异常的处理：（try... except...）以及借助网络解决问题

第二课. 请求网页（第一天下午）

（网络爬虫的原理，最重要的一步）

1、 HTML基础知识介绍：网址，网页类型，HTML语言

2、爬虫思路介绍

3、库：requests（详细介绍，利用该强大的模块请求各类网页）

4、文件读写操作及中文乱码解决

第三课. 提取信息（第二天上午）

1、利用浏览器分析网页：使用浏览器自带的开发者工具

2、正则表达式及模块详细介绍：re（用于从网页中获取所需的结构化的数据）

3、另外一个利器：Beautiful Soup

第四课. 保存数据（第二天下午）

1、文件存储格式介绍

2、文件读写

3、库：csv，pandas，os，用于创建文件夹和存储数据

4、合并数据

5、初级爬虫实战：链家、校友捐赠

第五课. 高级爬虫进阶（第三天上午）

（动态网页及反爬虫知识）

复杂动态网页：

1、抓包知识与操作详解（核心）

2、请求网页的方式：get和post

3、静态网页和动态网页

4、 json格式数据获取和存储

常见反爬虫策略：

5、 headers简介及作用

6、 cookies简介及作用（反爬虫+模拟登陆）

7、控制频率

8、验证码识别

第六课. 复杂动态网站实战（第三天下午）

（将所学应用于实战，使学员熟悉使用模板来应对未来可能遇到的不同类型、不同难度的网页爬虫）

1、爬虫总结

2、案例一：空气污染

3、案例二：电子警察

4、案例三：中国土地市场网

5、案例四：法律之星

6、案例五：私募基金

7、案例六：投资中国

8、案例七：专利数据

讲师简介

叶泽心，西南财经大学经济与管理研究院，四川爬爬帅数据科技有限公司首席技术顾问，曾获全国大学生数学建模竞赛一等奖。拥有非常丰富的经济金融及社科类数据爬虫经验，对各类网站的数据抓取情况都非常熟悉，总结出了一套完整系统而又简洁实用的数据抓取方法，抓取过国家统计局、环保部、大众点评、中国土地市场网、公众环境研究中心等上百家网站的公开数据。

课程详情

目的：帮助研究者轻松掌握抓取网络数据的方法，享有独家数据，发表高质量论文

时间：2017年10月20日-22日（三天）

地点：重庆市渝北区食品城大道18号重庆维也纳酒店（创意公园店）

课时安排：上午9:00-12:00；下午2:00-5:00；答疑5:00-5:30

费用： 1800元/人

规模： 为保证教学质量，本次特训营限额70人（含学术中国vip会员）

课程目标

1. 快速系统掌握Python网络爬虫，在最短的时间内，了解Python和网络的基本知识、爬虫的原理和流程，节约大量学习的时间成本和试错成本

2. 亲自动手写爬虫，学会解决异常和问题，搭好爬虫框架，方便程序的复制和移植

3. 掌握基本功，熟悉各种概念，形成自己的爬虫体系，并进一步掌握复杂、动态页面的高级Python爬虫以及反爬虫策略

报名咨询

咨询联系人：

张老师：电话：010-56204616；手机或微信：15501101763；

财务发票服务支持：

武老师手机或微信：13552535030；

▲长按上方二维码识别报名

注意事项

1. 请大家自备手提电脑，提前安装Python软件（为节约时间，特训前我们会在QQ群/微信群中发送网盘链接并提供安装指导）

2. 本次特训对参与者的Python编程基础没有任何要求

3. 本次特训核心内容均为原创，暂无指定教材或网络课程

4. 参与者会得到电子版的内部课件及爬虫源代码以便后续巩固

5. 食宿及交通费用自理，酒店请自行预定。ps.推荐酒店：重庆维也纳酒店；联系人：柏方媛 17353115115（房费标准：258元（含早餐））

6. 结束后，在QQ群/微信群中可继续享受长期免费答疑

7、报名截止日期：2017年10月15日 17:00（具体截止日期根据实际招生而定，人员招满，将会立即关闭报名通道）。

8、如您报名后有事不能参加，请在报名之后的10-15天之内办理退费，并将收取6%的手续费！2017年10月6日17:00之后不再接受退费！人数已到达开班标准，名额有限，欲报从速！

9、本次会议可提供增值税普通发票，如需开具，请在购买时点开“是否开发票”项，并根据自己单位财务部门要求填写抬头和类目信息（一旦开具不能重开），发票类目为：网络会议费、信息服务费、会议费、咨询费，报名时可以直接任选其一，其他类目无法开具。信息填写完整的老师可现场领取发票和会议通知（邀请函）。如需提前获取电子版会议通知（邀请函），请联系张老师（微信：15501101763）。

更多的网站，更多的数据，等你来抓！