专栏名称: 量化研究方法

以量化之思想认识世界，体会量化之美。

你会爬爬爬吗？

量化研究方法 · 公众号 · · 2017-06-22 23:58

正文

朋友有个公司，号称每天爬到5000万条数据，据说现在估值上亿。还有个同学，在大学当老师，教统计学。据说，曾经因为在经管之家帮助别人爬数据，一个下午赚了20万论坛币。艾玛，啥玩意这么厉害啊？小编今天给大家说的，就是网络爬虫。嗯，这可不是异形电影里那些吓人的爬虫，其实通俗地说，就是网络小程序，可以帮助研究者得到不同网站的某类数据，比方说，爬一爬链家网的房价数据，研究下房价走势；爬一爬国土资源部网站，研究下土地出售情况；爬一爬陌陌数据，看看多少人在啪啪拍。当然，对于俺们社科经管研究者来说，爬虫主要可以方便爬梳网络数据，用于研究，造福社会。网络爬虫有很多实现工具，python就是其中最常见的一种啦。

大家不要觉得很难哟，今天小编推荐一个讲授python网络爬虫的团队，人家可都是没有任何计算机基础的，都是在实践中摸爬滚打总结出的一套最实用的爬虫技巧。为了让更多人尤其是小白快速掌握爬虫技巧和能力，我们邀请了他们进行一期线下深度训练营。一位主讲老师和两名助教，将在3天时间里，手把手教你网络爬虫，让你在走出课堂的时候，就能自己写爬虫了。想想都挺酷。

好了，小编不再安利了，大家自行了解吧。

为了保证教学效果，仅仅提供60个名额哟。

文科生完全可以学！文科生完全可以学！文科生完全可以学！

零基础完全可以学！零基础完全可以学！零基础完全可以学！

微信长期免费答疑！微信长期免费答疑！微信长期免费答疑！

课程目标

1. 快速系统掌握Python网络爬虫，在最短的时间内，了解Python和网络的基本知识、爬虫的原理和流程，节约大量学习的时间成本和试错成本

2. 亲自动手写爬虫，学会解决异常和问题，搭好爬虫框架，方便程序的复制和移植

3. 掌握基本功，熟悉各种概念，形成自己的爬虫体系，并进一步掌握复杂、动态页面的高级Python爬虫以及反爬虫策略

特训内容

第一课. Python基础知识（第一天上午）

1、软件运行与基本操作

2、变量与运算：字符、数值

3、数据结构：列表（list）和字典（dict），用于储存抓取下来的数据

4、字符串操作：清洗数据

5、函数定义和类：搭建爬虫框架

6、条件判断（if）：解决爬虫过程中选择的问题

7、循环迭代（for... while...）：控制爬虫持续抓取数据

8、错误与异常的处理：（try... except...）以及借助网络解决问题

第二课.请求网页（第一天下午）

（网络爬虫的原理，最重要的一步）

1、 HTML基础知识介绍：网页类型，HTML语言

2、爬虫思路

3、库：requests （详细介绍，利用该强大的模块请求各类网页）

4、文件读写操作及中文乱码解决

第三课.提取信息（第二天上午）

1、利用浏览器分析网页：使用浏览器自带的开发者工具

2、正则表达式及模块详细介绍：re （用于从网页中获取所需的结构化的数据）

第四课. 保存数据（第二天下午）

1、文件存储格式介绍

2、文件读写

3、库：csv，pandas，os，用于创建文件夹和存储数据

4、合并数据

5、初级爬虫实战：链家、校友捐赠

第五课. 高级爬虫进阶（第三天上午）

（动态网页及反爬虫知识）

复杂动态网页：

1、抓包知识与操作详解（核心）

2、请求网页的方式：get和post

3、静态网页和动态网页

4、 json格式数据获取

常见反爬虫策略：

5、 headers简介及作用

6、 cookies简介及作用（反爬虫+模拟登陆）

7、控制频率

8、验证码识别（选讲）

高效率爬虫：

9、多线程（选讲）

第六课.复杂动态网站实战（第三天下午）

（将所学应用于实战，使学员熟悉使用模板来应对未来可能遇到的不同类型、不同难度的网页爬虫）

1、爬虫总结

2、案例一：空气污染

3、案例二：电子警察

4、案例三：中国土地市场网

5、案例四：法律之星

6、案例五：私募基金

7、案例六：投资中国

8、案例七：专利数据

讲师简介

叶泽心 ，西南财经大学经济与管理研究院，四川爬爬帅数据科技有限公司首席技术顾问，曾获全国大学生数学建模竞赛一等奖。拥有非常丰富的经济金融及社科类数据爬虫经验，对各类网站的数据抓取情况都非常熟悉，总结出了一套完整系统而又简洁实用的数据抓取方法，抓取过国家统计局、环保部、大众点评、中国土地市场网、公众环境研究中心等上百家网站的公开数据。

另外，现场将会有两名助教，他们 有着丰富的python爬虫经验 ，将在现场随时指导学员。

课程信息

目的： 帮助研究者轻松掌握抓取网络数据的方法，享有独家数据，发表高质量论文

时间： 2017年8月18日-20日（三天）

地点： 北京市（具体地点另行通知）

安排： 上午9:00-12:00；下午2:00-5:00；答疑5:00-5:30

费用： 1500元（食宿、交通费用自理）

规模： 为保证教学质量，本次特训营限额60人。（学术中国会员不在限额内）

参与对象： 对Python网络爬虫感兴趣的都可以参加，尤其推荐经管和社科类专业的童鞋。

报名咨询

咨询联系人：

电话： 010-56204616；

刘老师手机或微信： 18600520319；

财务服务支持：

武老师手机或微信： 13552535030；

▲长按上方二维码可识别报名

注意事项

1、报名截止日期：2017年8月17日 17:00（具体截止日期根据实际招生而定，人员招满，将会立即关闭报名通道）。

2、如您报名后有事不能参加，请在报名之后的10-15天之内办理退费，并将收取6%的手续费！2017年8月10日17:00之后不再接受退费！人数不满30人不开班！

3、本次会议可提供增值税普通发票，如需开具，请在购买时点开“是否开发票”项，并根据自己单位财务部门要求填写抬头和类目信息（一旦开具不能重开），发票类目为：网络会议费、信息服务费、会议费、咨询费，报名时可以直接任选其一，其他类目无法开具。信息填写完整的老师可现场领取发票。

4. 请大家自备手提电脑，提前安装Python软件（为节约时间，特训前我们会在微信群中发送网盘链接并提供安装指导）

5. 本次特训对参与者的Python编程基础没有任何要求

6. 本次特训核心内容均为原创，暂无指定教材或网络课程

7. 参与者会得到电子版的内部课件及爬虫源代码以便后续巩固

8. 食宿及交通费用自理

9. 结束后，在微信群中可继续享受长期免费答疑

FAQ

1. 什么是网络爬虫？

网络爬虫是一种按照一定的规则，自动地抓取网页信息的程序。因此，人们根据自己的需求，编写程序制定网络爬虫使其自动地抓取特定网页的信息。网络爬虫可以使计算机代替手工做事，大大提高获取数据的效率。

2. 为什么要学习网络爬虫？

经济学家的研究也越来越离不开数据的支持。以2012年第1期的《经济研究》为例，11篇学术文章，除了一篇纯理论研究的文章外，其余10篇均引用了各种数据。在中国经济学工作者常常访问的论坛里也充斥大量关于数据的下载、交换和交易的信息。

为了获取所需的数据，经济学家不得不投入大量资金来搜集、购买各种数据库。如果数据已经被很好的整理，即使需要高价购置，对经济学家而言已属幸运，实际上很多研究所需的数据往往无处寻觅或者分散在多处。好在随着互联网的发展，电子商务、电子政务的逐渐推广，部分数据在网站上直接公开了，只是并未以良好的格式加以组织、对研究者不够友好。

——钟锃光《经济学家也要学点网络爬虫技术》

不仅仅是经管类研究，在社科类研究中，使用爬虫技术，能方便、大批量的抓取网站上的数据，占得先机，拥有自己独特的数据库，用于实证研究，发表高水平论文。

3. 为什么选择python？

（1）语言开源免费，简单易懂，非常容易上手，效率高

（2）强大的数据处理功能，能够便捷地对数据格式化、结构化

（3）非常丰富的模块，只需导入相应模块就可实现各种功能，研究者可以避免琐碎的语法，将精力集中在功能的实现上

（4）相较C++、JAVA等计算机编程语言，python对于经管及社科类研究者而言更易上手，诺奖得主Sargent据说也在学习python，其与博士生合作编写的《Quantitative Economics》中的案例正是基于python语言。

4. 学习该课程会有什么收获？

（1）快速系统入门python网络爬虫，在最短的时间内，了解python和网络的基本知识、爬虫的原理和流程，大量节约学习的时间成本和试错成本。

（2）掌握基本功，熟悉各种概念，为后续开展自己的python爬虫项目打下坚实的基础

（3）亲自动手写爬虫，学会解决异常和问题，搭好爬虫框架，方便程序的复制和移植

5. python爬虫掌握程度分级？

（1）初级：掌握爬虫和网络基本知识，能够自己动手写简单的爬虫，可以抓取静态网页数据

（2）高级：了解反爬虫机制和应对策略，掌握抓包技术，能够以post的方式请求网页，解决登录问题，以及抓取动态网页数据

（3）专家级：多线程，分布式，主要在于提高数据抓取的效率（学习难度较大，多为计算机专业人才掌握）

学习完本课程可以完全掌握高级程度的python爬虫，可以满足研究中几乎全部的爬虫需要，学习完本课程后研究者可以自主抓取大部分网站所需的数据用于研究。

你会爬爬爬吗？

正文

请到「今天看啥」查看全文