2017年8月,学术中国在北京举办Python网络爬虫从入门到进阶工作坊(第1季),好评如潮,尤其是老师课后在微信群里的继续答疑打消了大家的后顾之忧。很多学友回去后自己爬取了网页数据,对自身的研究提供了很大的便利。数据时代,得数据者得天下,尤其是对于经管及社科研究者而言,当你学会了Python网络爬虫这个工具,将为你的研究插上加速器,自由获取网络上相关的研究数据。
以下是第1季部分学员心声:
张老师(神户大学):老师讲解很耐心仔细,助教也认真负责帮忙解决问题。
广东某公司策划经理:听了叶老师的课收获很大,真正零基础也可以听得懂。通过课程已经能够对简单的网页数据进行爬虫抓取。老师和几位助教都很负责,初次写数据代码肯定会有很多错误的地方,老师和助教都能及时帮助纠正和解决,比自己看书看网络视频好多了。
罗老师(中国人民大学):叶老师上课超棒,讲解细致有条理,每次都会耐心地回答我们的疑问。经过学习,目前我们都基本掌握了初级的爬虫技术,能独立请求网页、获取信息并存储数据。叶老师,你值得拥有!
朱老师(西南财经大学):很早的时候,导师就让我学下python数据抓取,我自己也在网上搜了不少资料,进行摸索,可是网上资料比较乱,尝试了几次,总是会出现这样或者那样的小问题,挫败感比较强,后来就放弃了。这次听了叶老师的课程,有一种豁然开朗的感觉,回去自己很快就爬下了几个网站。确实非常适合初学者,能够帮忙节约大量的时间,真诚推荐!!!
更为熟悉,将来学习Python的数据分析也木有陌生感。非常值得参与的一门课程!
陈老师(复旦大学):
开课时讲完导言PPT就觉得自己报对了,叶大神真是哪哪都爬过,爬数据这门技术,也是哪哪都需要,人才呐!从学术研究,到技术岗位,就业能力,自己能多一门技能真的是很期待~
最后一点,真的零基础都不要担心,看到同期班里的老师、博士们、硕士们,觉得自己要跟不上,然而老师细心从头讲,助教辅导解决各种问题,一路走的很顺利~
欧阳同学(里昂高等商学院):
叶老师的课条理非常清晰,先展示了他爬过的一些成果,然后概括了一个爬数据的顺序,即三大步:请求网页、提取数据、保存本地,然后从最基本的指令开始教起。且每一个步都会亲自指导有疑惑的同学,随时可以提问,随时解答,效率非常高,比自己在网上学少走了许多弯路。
ps:叶老师最后一堂课现场演示如何爬链家网的一百多页数据,简直激动人心!
再看看活动现场,满屏都是学习的热情啊!
我们为课程建设的专属微信群里也是热烈讨论。
因场地限制,第1季现场仅限70人参与了学习。很多学友被学长“无情的”挡在门外。为了弥补大家的遗憾,我们决定在今年10月份开设“Python网络爬虫从入门到进阶工作坊(第2季)”。
还是原来的“配方”,还是原来的“味道”,但是我们会更加升级服务!就等你了!
第一课. Python基础知识(第一天上午)
1、软件运行与基本操作
2、变量与运算:字符、数值
3、数据结构:列表(list)和字典(dict),用于储存抓取下来的数据
4、字符串操作:清洗数据
5、函数定义和类:搭建爬虫框架
6、条件判断(if):解决爬虫过程中选择的问题
7、循环迭代(for... while...):控制爬虫持续抓取数据
8、错误与异常的处理:(try... except...)以及借助网络解决问题
第二课. 请求网页(第一天下午)
(网络爬虫的原理,最重要的一步)
1、 HTML基础知识介绍:网址,网页类型,HTML语言
2、 爬虫思路介绍
3、 库:requests(详细介绍,利用该强大的模块请求各类网页)
4、 文件读写操作及中文乱码解决
第三课. 提取信息(第二天上午)
1、利用浏览器分析网页:使用浏览器自带的开发者工具
2、正则表达式及模块详细介绍:re(用于从网页中获取所需的结构化的数据)
3、另外一个利器:Beautiful Soup
第四课. 保存数据(第二天下午)
1、文件存储格式介绍
2、文件读写
3、库:csv,pandas,os,用于创建文件夹和存储数据
4、合并数据
5、初级爬虫实战:链家、校友捐赠
第五课. 高级爬虫进阶(第三天上午)
(动态网页及反爬虫知识)
复杂动态网页:
1、 抓包知识与操作详解(核心)
2、 请求网页的方式:get和post
3、 静态网页和动态网页
4、 json格式数据获取和存储
常见反爬虫策略:
5、 headers简介及作用
6、 cookies简介及作用(反爬虫+模拟登陆)
7、 控制频率
8、 验证码识别
第六课. 复杂动态网站实战(第三天下午)
(将所学应用于实战,使学员熟悉使用模板来应对未来可能遇到的不同类型、不同难度的网页爬虫)
1、爬虫总结
2、案例一:空气污染
3、案例二:电子警察
4、案例三:中国土地市场网
5、案例四:法律之星
6、案例五:私募基金
7、案例六:投资中国
8、案例七:专利数据
叶泽心,西南财经大学经济与管理研究院,四川爬爬帅数据科技有限公司首席技术顾问,曾获全国大学生数学建模竞赛一等奖。拥有非常丰富的经济金融及社科类数据爬虫经验,对各类网站的数据抓取情况都非常熟悉,总结出了一套完整系统而又简洁实用的数据抓取方法,抓取过国家统计局、环保部、大众点评、中国土地市场网、公众环境研究中心等上百家网站的公开数据。
目的:帮助研究者轻松掌握抓取网络数据的方法,享有独家数据,发表高质量论文
时间:2017年10月20日-22日(三天)
地点:重庆市渝北区食品城大道18号重庆维也纳酒店(创意公园店)
课时安排:上午9:00-12:00;下午2:00-5:00;答疑5:00-5:30
费用: 1800元/人
规模: 为保证教学质量,本次特训营限额70人(含学术中国vip会员)
1. 快速系统掌握Python网络爬虫,在最短的时间内,了解Python和网络的基本知识、爬虫的原理和流程,节约大量学习的时间成本和试错成本
2. 亲自动手写爬虫,学会解决异常和问题,搭好爬虫框架,方便程序的复制和移植
3. 掌握基本功,熟悉各种概念,形成自己的爬虫体系,并进一步掌握复杂、动态页面的高级Python爬虫以及反爬虫策略
咨询联系人:
张老师: 电话:010-56204616; 手机或微信:15501101763;
财务发票服务支持:
武老师 手机或微信:13552535030;
▲长按上方二维码识别报名
1. 请大家自备手提电脑,提前安装Python软件(为节约时间,特训前我们会在QQ群/微信群中发送网盘链接并提供安装指导)
2. 本次特训对参与者的Python编程基础没有任何要求
3. 本次特训核心内容均为原创,暂无指定教材或网络课程
4. 参与者会得到电子版的内部课件及爬虫源代码以便后续巩固
5. 食宿及交通费用自理,酒店请自行预定。ps.推荐酒店:重庆维也纳酒店;联系人:柏方媛 17353115115(房费标准:258元(含早餐))
6. 结束后,在QQ群/微信群中可继续享受长期免费答疑
7、报名截止日期:2017年10月15日 17:00(具体截止日期根据实际招生而定,人员招满,将会立即关闭报名通道)。
8、如您报名后有事不能参加,请在报名之后的10-15天之内办理退费,并将收取6%的手续费!2017年10月6日17:00之后不再接受退费!人数已到达开班标准,名额有限,欲报从速!
9、本次会议可提供增值税普通发票,如需开具,请在购买时点开“是否开发票”项,并根据自己单位财务部门要求填写抬头和类目信息(一旦开具不能重开),发票类目为:网络会议费、信息服务费、会议费、咨询费,报名时可以直接任选其一,其他类目无法开具。信息填写完整的老师可现场领取发票和会议通知(邀请函)。如需提前获取电子版会议通知(邀请函),请联系张老师(微信:15501101763)。
更多的网站,更多的数据,等你来抓!