专栏名称: 学术中国
“见证学术力量 锻造学术精神”——关注“学术中国”,即时获取最新学术信息!
目录
相关文章推荐
低维 昂维  ·  Nat. ... ·  昨天  
低维 昂维  ·  Nat. ... ·  昨天  
研之成理  ·  固态电解质,Nature Chemistry! ·  昨天  
51好读  ›  专栏  ›  学术中国

抓取数据这么酷的事儿,你也能学会!

学术中国  · 公众号  · 科研  · 2017-09-28 12:33

正文


2017年8月,学术中国在北京举办Python网络爬虫从入门到进阶工作坊(第1季),好评如潮,尤其是老师课后在微信群里的继续答疑打消了大家的后顾之忧。很多学友回去后自己爬取了网页数据,对自身的研究提供了很大的便利。数据时代,得数据者得天下,尤其是对于经管及社科研究者而言,当你学会了Python网络爬虫这个工具,将为你的研究插上加速器,自由获取网络上相关的研究数据。



以下是第1季部分学员心声:


张老师(神户大学):老师讲解很耐心仔细,助教也认真负责帮忙解决问题。


广东某公司策划经理:听了叶老师的课收获很大,真正零基础也可以听得懂。通过课程已经能够对简单的网页数据进行爬虫抓取。老师和几位助教都很负责,初次写数据代码肯定会有很多错误的地方,老师和助教都能及时帮助纠正和解决,比自己看书看网络视频好多了。


罗老师(中国人民大学):叶老师上课超棒,讲解细致有条理,每次都会耐心地回答我们的疑问。经过学习,目前我们都基本掌握了初级的爬虫技术,能独立请求网页、获取信息并存储数据。叶老师,你值得拥有! 


朱老师(西南财经大学):很早的时候,导师就让我学下python数据抓取,我自己也在网上搜了不少资料,进行摸索,可是网上资料比较乱,尝试了几次,总是会出现这样或者那样的小问题,挫败感比较强,后来就放弃了。这次听了叶老师的课程,有一种豁然开朗的感觉,回去自己很快就爬下了几个网站。确实非常适合初学者,能够帮忙节约大量的时间,真诚推荐!!!


更为熟悉,将来学习Python的数据分析也木有陌生感。非常值得参与的一门课程!


陈老师(复旦大学):


开课时讲完导言PPT就觉得自己报对了,叶大神真是哪哪都爬过,爬数据这门技术,也是哪哪都需要,人才呐!从学术研究,到技术岗位,就业能力,自己能多一门技能真的是很期待~


最后一点,真的零基础都不要担心,看到同期班里的老师、博士们、硕士们,觉得自己要跟不上,然而老师细心从头讲,助教辅导解决各种问题,一路走的很顺利~


欧阳同学(里昂高等商学院):


叶老师的课条理非常清晰,先展示了他爬过的一些成果,然后概括了一个爬数据的顺序,即三大步:请求网页、提取数据、保存本地,然后从最基本的指令开始教起。且每一个步都会亲自指导有疑惑的同学,随时可以提问,随时解答,效率非常高,比自己在网上学少走了许多弯路。


ps:叶老师最后一堂课现场演示如何爬链家网的一百多页数据,简直激动人心!


再看看活动现场,满屏都是学习的热情啊!



我们为课程建设的专属微信群里也是热烈讨论。



因场地限制,第1季现场仅限70人参与了学习。很多学友被学长“无情的”挡在门外。为了弥补大家的遗憾,我们决定在今年10月份开设“Python网络爬虫从入门到进阶工作坊(第2季)”。


还是原来的“配方”,还是原来的“味道”,但是我们会更加升级服务!就等你了!


特训内容



第一课. Python基础知识(第一天上午)

1、软件运行与基本操作

2、变量与运算:字符、数值

3、数据结构:列表(list)和字典(dict),用于储存抓取下来的数据

4、字符串操作:清洗数据

5、函数定义和类:搭建爬虫框架

6、条件判断(if):解决爬虫过程中选择的问题

7、循环迭代(for... while...):控制爬虫持续抓取数据

8、错误与异常的处理:(try... except...)以及借助网络解决问题


第二课. 请求网页(第一天下午)

(网络爬虫的原理,最重要的一步)

1、 HTML基础知识介绍:网址,网页类型,HTML语言

2、 爬虫思路介绍

3、 库:requests(详细介绍,利用该强大的模块请求各类网页)

4、 文件读写操作及中文乱码解决


第三课. 提取信息(第二天上午)

1、利用浏览器分析网页:使用浏览器自带的开发者工具

2、正则表达式及模块详细介绍:re(用于从网页中获取所需的结构化的数据)

3、另外一个利器:Beautiful Soup


第四课. 保存数据(第二天下午)

1、文件存储格式介绍

2、文件读写

3、库:csv,pandas,os,用于创建文件夹和存储数据

4、合并数据

5、初级爬虫实战:链家、校友捐赠


第五课. 高级爬虫进阶(第三天上午)

(动态网页及反爬虫知识)


复杂动态网页:

1、 抓包知识与操作详解(核心)

2、 请求网页的方式:get和post

3、 静态网页和动态网页

4、 json格式数据获取和存储


常见反爬虫策略:

5、 headers简介及作用

6、 cookies简介及作用(反爬虫+模拟登陆)

7、 控制频率

8、 验证码识别


第六课. 复杂动态网站实战(第三天下午)

(将所学应用于实战,使学员熟悉使用模板来应对未来可能遇到的不同类型、不同难度的网页爬虫)

1、爬虫总结

2、案例一:空气污染

3、案例二:电子警察

4、案例三:中国土地市场网

5、案例四:法律之星

6、案例五:私募基金

7、案例六:投资中国

8、案例七:专利数据



讲师简介


叶泽心,西南财经大学经济与管理研究院,四川爬爬帅数据科技有限公司首席技术顾问,曾获全国大学生数学建模竞赛一等奖。拥有非常丰富的经济金融及社科类数据爬虫经验,对各类网站的数据抓取情况都非常熟悉,总结出了一套完整系统而又简洁实用的数据抓取方法,抓取过国家统计局、环保部、大众点评、中国土地市场网、公众环境研究中心等上百家网站的公开数据。



课程详情



目的:帮助研究者轻松掌握抓取网络数据的方法,享有独家数据,发表高质量论文

时间:2017年10月20日-22日(三天)

地点:重庆市渝北区食品城大道18号重庆维也纳酒店(创意公园店) 

课时安排:上午9:00-12:00;下午2:00-5:00;答疑5:00-5:30

费用: 1800元/人

规模: 为保证教学质量,本次特训营限额70人(含学术中国vip会员)



课程目标



1. 快速系统掌握Python网络爬虫,在最短的时间内,了解Python和网络的基本知识、爬虫的原理和流程,节约大量学习的时间成本和试错成本


2. 亲自动手写爬虫,学会解决异常和问题,搭好爬虫框架,方便程序的复制和移植


3. 掌握基本功,熟悉各种概念,形成自己的爬虫体系,并进一步掌握复杂、动态页面的高级Python爬虫以及反爬虫策略



报名咨询



咨询联系人:

张老师:  电话:010-56204616;  手机或微信:15501101763;


财务发票服务支持:

武老师 手机或微信:13552535030;



▲长按上方二维码识别报名




注意事项



1. 请大家自备手提电脑,提前安装Python软件(为节约时间,特训前我们会在QQ群/微信群中发送网盘链接并提供安装指导)

2. 本次特训对参与者的Python编程基础没有任何要求

3. 本次特训核心内容均为原创,暂无指定教材或网络课程

4. 参与者会得到电子版的内部课件及爬虫源代码以便后续巩固

5. 食宿及交通费用自理,酒店请自行预定。ps.推荐酒店:重庆维也纳酒店;联系人:柏方媛 17353115115(房费标准:258元(含早餐))

6. 结束后,在QQ群/微信群中可继续享受长期免费答疑

 7、报名截止日期:2017年10月15日 17:00(具体截止日期根据实际招生而定,人员招满,将会立即关闭报名通道)

8、如您报名后有事不能参加,请在报名之后的10-15天之内办理退费,并将收取6%的手续费!2017年10月6日17:00之后不再接受退费!人数已到达开班标准,名额有限,欲报从速!

9、本次会议可提供增值税普通发票,如需开具,请在购买时点开“是否开发票”项,并根据自己单位财务部门要求填写抬头和类目信息(一旦开具不能重开),发票类目为:网络会议费、信息服务费、会议费、咨询费,报名时可以直接任选其一,其他类目无法开具。信息填写完整的老师可现场领取发票和会议通知(邀请函)。如需提前获取电子版会议通知(邀请函),请联系张老师(微信:15501101763)。


更多的网站,更多的数据,等你来抓!