专栏名称: 爬虫俱乐部
Stata技术控,编程技术咨询,数据讨论与分享,编程和实证培训。
目录
相关文章推荐
51好读  ›  专栏  ›  爬虫俱乐部

爬虫俱乐部Stata编程技术定制培训班——2018年1月武汉专场

爬虫俱乐部  · 公众号  ·  · 2017-11-29 13:38

正文

爬虫俱乐部将于 2018年1月20日至28日 在武汉举行两期Stata编程技术定制培训,此次采用 初级班 高级班 分批次培训模式,初级班主要是为了让学员掌握Stata数据分析的技巧,并能独立撰写简单的程序。涉及的主要内容有多种复杂数据的读取和输出、数据的合并、各种数据整理的技巧、简单网络爬虫工具、绘图、 Stata15 新增功能以及我们团队编写的自动输出实证结果的命令介绍。全部课程采用案例教学的模式,经过爬虫俱乐部团队多年的精心策划,我们选择了合理的内容和合适的顺序,通过 20 多个教学案例,旨在帮助大家在较短的时间内掌握Stata软件与金融计算的核心技术和方法,同时也教大家如何用Stata软件做实证结果。

高级班主要是为了让学员熟练掌握Stata爬虫技术和文本分析技术,内容包括利正则表达式的文本处理技术、利用正则表达式的网络爬虫技术、文本分析、Mata语言以及计量经济学中模型识别问题。全部课程采用理论与案例相结合的方式,旨在帮助大家熟悉Stata核心的爬虫技术,以及Stata与其他软件的交互的高端技术。

爬虫俱乐部 ”(微信公众号)是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。爬虫俱乐部团队是Stata技术控,专注于分享使用Stata的技术,解决Stata相关问题。提供编程技术咨询,编程和实证培训。“爬虫俱乐部”为提高爬虫君们的技术需求,以每天至少更新一个Stata技术的速度在为爬虫君们服务。

当前是信息社会高速发展的时代,信息无处不在,信息的价值和数量决定着一个人、一个企业以至于一个国家的未来,信息最常见的形式是数据,我们每天都要面对大量的数据,我们看到的仅仅是数据,还是数据的背后,这直接决定着我们决策的正确与否。因此,数据分析、数据管理、数据呈现成为现代社会最具现实意义和最热门的工作。Stata是国际上最流行的数据分析、数据管理、数据呈现以及绘制专业图表的完整及整合性统计软件,该软件以其友好的人机界面,简单的编程语言和强大的功能,赢得了越来越多专业人士的关注和认可,其市场占有率也越来越高,Stata正逐渐成为许多研究都进行各门类社会科学学习和研究的首选软件。

授课老师

李春涛教授:

爬虫俱乐部创始人,香港大学博士,中南财经政法大学金融学教授,博士生导师。李春教授有15年的stata编程经验,编写过ttable2、chinafin、cntrade、eventstudy、psemail、sum2docx、reg2docx、wordconvert、corr2docx、t2docx等stata命令,这些命令让中国的股票日交易数据、日内分时数据和上市公司财务数据免费且唾手可得,让Stata可以发送电子邮件,让中文地址和经纬度轻松转换等。李教授主要的研究方向为公司治理和企业创新,在Journal of Comparative Economics、International Journal of Auditing、Stata Journal、《经济研究》和《金融研究》等期刊发表论文近30篇。

薛  原:

爬虫俱乐部资深Stata编程资深专家,具有丰富的程序设计经验,在Stata前20大最热门的用户命令中,薛原贡献了4个,其中2个进入前10名。薛原还参与了多个实证研究项目,熟练掌握正则表达式,curl技术和各种爬虫技术,多次参与爬虫俱乐部的培训工作,积累了丰富的数据分析经验、授课经验和学术研究经验。薛原已经有一篇论文被国内金融学权威期刊接收。

张璇副教授:

2011年毕业于中国人民大学统计学院,获应用经济学博士学位。2005-2006年访问香港大学香港商业决策与研究中心,担任研究助理工作。主要研究兴趣是网络爬虫、大数据分析方法和微观计量方法的应用研究,涉及腐败、收入分配、微观企业行为等。在“Stata Journal”、“Statistical Papers”、《经济研究》、《金融研究》、《财贸经济》、《南方经济》等SCI和CSSCI期刊上发表文章多篇。获中国博士后面上基金、特别基金以及国家自科青年基金资助。获中南财经政法大学第三批“文澜青年”学者称号。

刘贝贝:

中南财经政法大学2016级博士研究生。有论文发表在《经济研究》、《金融研究》、《南方经济》,2015年6月-2017年1月在香港岭南大学财务保险系担任研究助理一职,研究生期间两次获得国家奖学金,2017年获得鸿儒奖学金,熟练掌握图形绘画和数据挖掘。

初级班培训内容

第一部分:Stata初步与数据读入

1)熟悉界面 (菜单栏、工具栏、命令输入窗口、历史命令窗口、结果输出窗口等)

2)读入Stata格式的数据 (use)

3)寻求帮助 (在线帮助、搜索帮助、人肉帮助)

4)DOS命令 (cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等)

5)Winexec调用windows系统 (播放音乐、打开、关闭浏览器等)

6)Copy命令 (文件转移、文件重命名、网络文件读取、网页源代码读取)

7)常用命令 (常用的30个命令:keep、drop、use save table browse等)

8)日期定义 (Stata可识别的日期和时间格式、主要日期函数、时间函数等)

9)函数 (数学函数、字符串函数、随机函数、编程函数等)

10)egen函数 (egen与bysort结合、egen与常见统计量结合等)

11)读入TXT、CSV文件 (万德交易数据为例)

12)Excel文件 (单个Excel文件、单个Sheet的读入与保存)

13)固定宽度的txt文件 (构造固定宽度数据,用命令读入)

14)分行显示的txt文件 (构造分行显示的固定宽度数据,用命令读入)

15)基金经理变更案例 (不规则数据的整理、数据搬家与填充)

第二部分:宏与循环

1)Local概念与基本操作 (如何定义local)

2)global概念与基本操作 (与local的区别)

3)宏扩展函数 (将dis结果、dir结果等赋值给local)

4)while 循环

5)forvalue 循环

6)跳出循环的continue 和continue, break

7)NBER工作论文下载案例 (forvalue循环与copy命令)

8)上交所年报抓取案例 (forvalue循环,日期函数、容错命令cap、循环过程中的终止)

9)foreach循环, 读入多个csv文件 (以wind交易数据为例)

10)获取文件夹中文件名列表 (fs命令) 并对多个文件循环

11)获取一个变量的取值列表 (levelsof命令) 并对变量的多个取值进行循环

12)读入多个Excel的多个Sheet案例 (以csmar交易和财务数据为例)

第三部分:数据库操作

1)数据的纵向合并 (CSMAR交易数据为例、cntrade命令、工企数据库运用)

2)数据的横向合并 (财务数据为例)

3)数据长宽变换 (wind财务数据、多列变一列reshape,stack命令)

4)美国流行歌曲目录案例 (reshape命令长变宽)

5)起死回生 (preserve restore命令)

6) CSSCI期刊目录案例 (preserve restore一列变多列)

7) label(文件label、变量label、观测值label)

8)用label找变量 (labelsof、label 的宏扩展函数)

9)字符串处理 (长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一)

第四部分:Post命令与网络爬虫入门

1)post 原理

2)定义post

3)用post计算同步性和Beta

4)基于网络数据的事件研究

5)股本变更数据

6)新浪公告数据抓取

7)新浪高管任职数据抓取

第五部分:绘图

1)基本统计图形的绘制:

a)      散点图:twoway scatter

b)     折线图:twoway line

c)      连线图:twoway connected

d)     连线阴影图:twoway area

e)     柱状图: twoway bar

f)      直方图: twoway histogram

g)     条形统计图:graph bar

h)     饼图:graph pie

2)基本统计图形的属性:颜色、形状、大小、标签、位置、坐标轴、图例等

3)复杂图形的绘制 (多个图形在同一个图形中的显示,多个坐标轴的绘画等)

4)透明图片的绘制

5)命令grss的运用

6)图形的保存、合并和输出

7)中国地图的绘制

8)DID的平行性趋势检验图形绘制

9)断点回归的图形绘制

第六部分:回归分析及结果输出

1)输出表格或图形到WORD文档、EXCEL文档和PDF文档:putdocx、putpdf、putexcel

2)基本统计信息:sum2doxc

3)分组检验:t2docx

4)相关系数矩阵:corr2docx

5)简单线性回归:reg2docx

第七部分:论文实证重现 (如果时间允许)

1)知识产权保护与企业创新

2)分析师跟踪与盈余管理

高级班培训内容

第一部分:正则表达式

1)正则表达式基本函数介绍:

a)     ustrregexm()

b)     ustrregexs()

c)     ustrregexrf()与ustrregexra()

2)正则表达式元字符介绍:

a)     基本元字符

b)     数量元字符

c)     位置元字符

d)     前后查找

e)     特殊字符元字符

f)      回溯引用

g)     unicode编码

3)正则表达式匹配模式

a)     贪婪模式

b)    懒惰模式

4)正则表达式例子

a)     邮编提取

b)     英文姓与名的拆分

c)     CSSCI数据预处理

d)     百度新闻数量

e)     城市名称提取







请到「今天看啥」查看全文