经济学的量化趋势使得数据在日常经济学研究中的地位愈加重要,经济学者们也越来越依靠数据库尤其是微观数据库进行学术研究。笔者参考了国内很多关于数据库知识的整理,发现很多关于数据库的简介过于粗略或者不够全面,遗漏了很多重要的数据库。
1.中国工业企业数据库
数据名称:中国工业企业数据库(China Industry Business Performance Data)
执行机构:国家统计局
开放数据年份:1998-2013
调查方式:下级企业单位按时报送
采用计算机辅助调查:是
数据类型:面板数据
抽样方式:根据国家统计局拟订的工业企业报表制度抽样
覆盖省份:中国大陆地区销售额500万元/RMB以上的大中型制造企业
分析单位:企业
核心问题:全国最为详细、所用最为广泛的微观数据库,主要研究工业企业的相关问题。
具体内容:数据内容中的工业统计指标包括工业增加值、工业总产值、工业销售产值等主要技术经济指标以及主要财务成本指标和从业人员、工资总额等。
代表文章:杨汝岱. 中国制造业企业全要素生产率研究[J]. 经济研究, 2015年02期.
网站链接:
http://www.allmyinfo.com/data/zggyqysjk.asp
2.海关数据库
数据名称:海关数据
执行机构:中国海关
开放数据年份:1994-2014年
调查方式:企业申报
采用计算机辅助调查:是
数据类型:面板数据
抽样方式:企业主动上报汇总
覆盖省份:全国各种类型进出口企业汇报
分析单位:企业
核心问题:主要是海关履行进出口贸易统计职能中产生的各项进出口统计数据,专注企业进出口情况。
具体内容:数据具体到各企业、各海关口岸的商品具体进出口情况。
网站链接:http://new.ccerdata.cn/Home/Special
3.CPES
数据名称:中国私营企业调查 (Chinese Private Enterprise Survey)
执行机构:中国社会科学院私营企业主群体研究中心
开放数据年份:
1993、1995、1997、2000、2002、2004、2006、2008、2010、2012、2014
调查方式:抽样调查
采用计算机辅助调查:否
数据类型:截面数据
抽样方式:在全国范围内按一定比例(0.05%左右,每次的比例略有差别)进行多阶段抽样。
覆盖省份:针对中国大陆31个省、自治区、直辖市203万户私营企业和企业主
分析单位:私营企业和企业主
核心问题:针对私营企业和私营企业主的综合状况进行调查,内容详细,关注和研究我国私营企业发展。
具体内容:本调查是目前国内关于私营企业的全国性调查中对于私营企业主个人特征,尤其是社会和政治特征的调查最为集中的一项,且运用全面、系统、翔实的调查数据,对私营经济与私营企业主阶层的成长过程做了记录。
代表文章:政治资本、人力资本与行政垄断行业进入——基于中国私营企业调查的实证研究[J].中国工业经济,2012年09期
网站链接:http://finance.sina.com.cn/nz/pr/
4.世界银行中国企业调查数据
数据名称:企业调查数据(Enterprise Surveys Data)
执行机构:世界银行
开放数据年份:2002、2003、2005、2012
调查方式:抽样调查、面对面调查
采用计算机辅助调查:否
数据类型:截面数据
抽样方式:主要针对一些国家的非农企业进行抽样调查,调査样本根据企业注册域名采用分层随机抽样的方法获取。
覆盖范围:中国大陆
分析单位:企业
核心问题:主要关注一个国家的商业环境变化以及公司效率和性能特征
具体内容:以2012年的数据为例,调査涉及企业位于大连、北京、石家庄、郑州、深圳、成都等25个城市,涵盖中国东、中、西三大区域; 调查对象为企业总经理、人力资源经理、会计师或者其他职员。调查涉及食品制造业、纺织业、服装业、基本金属制造业、电子工业、交通设备制造业等2 0 多个行业;调查内容包括企业基本信息、城市基础设施和公共服务、销售和供货、市场竞争程度、用地和行政许可、创新和技术、融资、政商关系、用工、商业环境及企业绩效等多个方面。
代表文章:吕铁,王海成,劳动力市场管制对企业技术创新的影响——基于世界银行中国企业调查数据的分析[J].中国人口科学,2015年04期
网站链接:
http://www.enterprisesurveys.org/data
5.中国专利数据库
数据名称:中国专利数据库
执行机构:国家知识产权局和中国专利信息中心
开放数据年份:1985-2015年
调查方式:企业申报
采用计算机辅助调查:是
数据类型:面板数据
抽样方式:企业主动上报汇总
覆盖省份:全国各种类型企业专利申请
分析单位:企业
核心问题:准确地反映中国最新的专利发明
具体内容:该系统收录了中国自1985年实施专利制度以来的全部中国专利数据,具有较高的权威性,网上数据每周更新一次,是国内最好的专利数据库检索系统之一。
代表文章:庄涛,吴洪,基于专利数据的我国官产学研三螺旋测度研究——兼论政府在产学研合作中的作用[J].管理世界,2013年08期
网站链接:
http://new.ccerdata.cn/Home/Special#h3
http://202.107.204.54:8080/cnipr/main.do?method=gotoMain
6.农村经济研究中心农村固定观察点
数据名称:农村经济研究中心农村固定观察点数据
执行机构:农业部农村经济研究中心
开放数据年份:不开放,需申请
调查方式:固定点观察
采用计算机辅助调查:否
数据类型:追踪调查
抽样方式:内部统计制度,1990年由国家统计局正式批准。
覆盖省份:目前有调查农户23000户,调查村360个行政村,样本分布在全国除港澳台外的31个省(区、市)。
分析单位:农户
核心问题:通过观察点对农村社会经济进行长期的连续调查,掌握生产力、生产关系和上层建筑领域的变化,了解不同村庄和农户的动态、要求,从而取得系统周密的资料。
具体内容:其主要工作是:一是常规调查:每年底按统一口径全面收集所有样本村、户数据;二是专题调查:根据上级领导的指示及有关部门的安排,针对农村发展、农业生产和农户生产生活中的焦点、重点问题,每年开展多项专题调查;三是动态反映:省、县两级调查机构及时反映当地农村中出现的新情况和新问题。
代表文章:林本喜,邓衡山,农业劳动力老龄化对土地利用效率影响的实证分析——基于浙江省农村固定观察点数据[J].中国农村经济,2012年04期.
网站链接:
http://www.moa.gov.cn/sydw/ncjjzx/gcdgzdt/gzdtg/201302/t20130225_3225848.htm
7.CFPS
数据名称:中国家庭追踪调查(China Family Panel Studies)
执行机构:北京大学中国社会科学调查中心
开放数据年份:
2008/2009(测试调查)、2010/2011/2012/2014(全国调查)
调查方式:面访、电访
采用计算机辅助调查:是
数据类型:追踪调查
抽样方式:多阶段、内隐分层和与人口规模成比例抽样
覆盖省份:25个省
受访者:家庭户中的所有成人及少儿成员。基因成员为长期追踪对象。
分析单位:个人、家庭、社区
核心问题:中国家庭及个人的各种经济性与社会性的福利及其变迁。
具体内容:村/居概况、家庭结构及关系、家庭经济、个人的工作、迁移、教育、婚姻、健康、态度观念、认知能力和社会交往等。
代表文章:胡枫,陈玉宇. 社会网络与农户借贷行为——来自中国家庭动态跟踪调查(CFPS)的证据[J]. 金融研究,2012,12:178-192.
网站链接:http://www.isss.edu.cn/cfps/
8.CHARLS
数据名称:中国健康与养老追踪调查( China Health and Retirement Longitudinal Study)
执行机构:北京大学国家发展研究院
开放数据年份:
2008、2012(两省)、2011、2013、2014(全国)
调查方式:面访
采用计算机辅助调查:是
数据类型:追踪调查
抽样方式:多阶段抽样,县/区和村居抽样阶段均采取PPS抽样方法
覆盖省份:甘肃、浙江(2008/2012);28个省(2011/2013)
受访者:适龄家户至少一名年满45岁的中老年人及其配偶(动态增加样本)
分析单位:个人/家庭
核心问题:养老与健康
具体内容:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,以及社区基本情况等。
代表文章:姚瑶,刘斌,刘国恩,臧文斌. 医疗保险、户籍制度与医疗服务利用——基于CHARLS数据的实证分析[J]. 保险研究,2014,06:105-116.
网站链接:http://charls.ccer.edu.cn
9.中国家庭金融调查(CHFS)
数据名称:中国家庭金融调查( China Household Finance Survey)
执行机构:西南财经大学中国家庭金融调查与研究中心
开放数据年份:2011、2013
调查方式:面访
采用计算机辅助调查:是
数据类型:追踪调查
抽样方式:多阶段抽样,县/区和村居抽样阶段均采取PPS抽样方法
覆盖省份:25个省(2011)、29个省(2013)
受访者:家庭中选取一名18岁以上且了解家庭财务状况的成人
分析单位:个人/家庭
核心问题:家庭经济与金融
具体内容:住房资产和金融财富;负债和信贷约束;收入;消费;社会保障和保险;代际的转移支付;人口特征和就业情况;支付习惯等
代表文章:尹志超,宋全云,吴雨. 金融知识、投资经验与家庭资产选择[J]. 经济研究,2014,04:62-75.
网站链接:http://chfs.swufe.edu.cn/
10.CHIPS
数据名称:中国家庭收入调查(China Household Income Projects)
执行机构:北京师范大学
开放数据年份:1988、1995、2002、2007
调查方式:面访
采用计算机辅助调查:否
数据类型:截面数据
抽样方式:国家统计局城乡居民收入调查的样本
覆盖省份:19个省(1995);22个省(2002)
受访者:抽中家庭户中全部18岁以上人员
分析单位:个人/家庭
核心问题:收入水平
具体内容:收入、消费、就业、生产等方面
代表文章:赵西亮,梁文泉,李实. 房价上涨能够解释中国城镇居民高储蓄率吗?——基于CHIP微观数据的实证分析[J]. 经济学(季刊),2014,01:81-102.
网站链接:http://www.ciidbnu.org/chip
11.CHNS
数据名称:中国健康与营养调查( China Health and Nutrition Survey)
执行机构:北卡罗来纳大学人口研究中心、美国国家营养与食物安全研究所和中国疾病与预防控制中心
开放数据年份:
1989、1991、1993、1997、2000、2004、2006
调查方式:面访
采用计算机辅助调查:否
数据类型:追踪调查
抽样方式:多阶段整群抽样
覆盖省份:辽宁、黑龙江、江苏、山东、河南、湖北、湖南、广西和贵州9个省(不同调查年份不同)
受访者:家庭户成员
分析单位:个人、家庭、社区
核心问题:人口健康和营养状况
具体内容:住户、营养、健康、成人、儿童、社区等
代表文章:尹志超,甘犁. 香烟、美酒和收入[J]. 经济研究,2010,10:90-100+160.
网站链接:
http://www.phsciencedata.cn/Share/ky_sjml.jsp?id=15883803-f005-408e-b4c9-f13697f5a19f
12.CGSS
数据名称:中国综合社会调查( Chinese General Social Survey)
执行机构:中国人民大学社会学系
开放数据年份:
2003、2005、2006、2008、2010、2011、2012、2013
调查方式:面访
采用计算机辅助调查:否
数据类型:截面数据
抽样方式:多阶段分层PPS随机抽样
覆盖省份:28省
受访者:在选取的家庭中随机抽取1名18岁以上的成人
分析单位:个人/家庭
核心问题:社会变迁
具体内容:价值观、健康、家庭、教育、劳动力、职业、心理、个性等
代表文章:刘军强,熊谋林,苏阳. 经济增长时期的国民幸福感——基于CGSS数据的追踪研究[J]. 中国社会科学,2012,12:82-102+207-208.
网站链接:http://www.chinagss.org/
13.RUMIC
数据名称:中国城乡流动数据库(Rural-Urban Migration in China)
执行机构:澳大利亚国立大学、北京师范大学
开放数据年份: 2008、2009
调查方式:面访
采用计算机辅助调查:是
数据类型:追踪数据
覆盖省份:本项目主要在人口流出或流入的大省进行调查。其中,农村住户调查是在以下9个省(直辖市)进行:安徽,重庆,广东,河北,河南,湖北,江苏,四川,浙江;城市流动人口调查是在以下15个城市进行:蚌埠,成都,重庆,东莞,广州,合肥,杭州,洛阳,南京,宁波,上海,深圳,武汉,无锡,郑州。城镇住户调查是在19个城市进行,包括城市流动人口调查以外的四个城市:安阳市,建德市,乐山,绵阳。
分析单位:个人/家庭
核心问题:人口流动的福利问题
具体内容:调查问卷涉及个人和家庭层面的信息如家庭构成、成人教育、成人就业、家庭资产等。
代表文章:温兴祥. 城镇化进程中外来居民和本地居民的收入差距问题[J]. 人口研究,2014,02:61-70.
网站链接:
https://www.iza.org/organization/idsc?page=27&id=58
14.UHS
数据名称:中国城镇住户调查数据(Urban Household Survey)
执行机构:国家统计局
开放数据年份:不开放
调查方式:面访
采用计算机辅助调查:否
数据类型:追踪数据
覆盖省份:现在大家使用的是六个省份的数据(北京、广东、浙江、辽宁、陕西、四川)。每年大约有3500-4000户的数据。
分析单位:个人/家庭
核心问题:这是现有的最全的全国范围的微观变量数据,主要研究教育回报率、收入不平等、家庭消费、家庭金融等问题。
具体内容:调查主要包含个人和家庭层次的变量。如与户主关系,性别、年龄、家庭总收入、家庭消费等。
代表文章:谢洁玉,吴斌珍,李宏彬,郑思齐. 中国城市房价与居民消费[J]. 金融研究,2012,06:13-27.
网站链接:无
15.CLHLS
数据名称:中国老年健康影响因素跟踪调查(Chinese Longitudinal Healthy Longevity Survey)
执行机构:北京大学
开放数据年份:1998-2012
调查方式:面访
采用计算机辅助调查:否
数据类型:追踪数据
覆盖省份:CLHLS基线调查和跟踪调查涵盖了中国31个省中的23个。涵盖区域总人口在1998年基线调查时9.85亿,在2010年总人口为11.56亿,大约占全国总人数的85%。我们在22个调研省份(不包括海南省)中随机选择大约一半的市/县作为调研点进行调查。
分析单位:个人
核心问题:本项目的研究目标旨在更好地理解影响人类健康长寿的社会、行为、环境与生物学因素,为科学研究、 老龄工作与卫生健康政策信息依据填补空白。
具体内容:主要搜集老人死亡年月、死因、死前健康与生活自理能力等信息。在2008年调查中,我们还从大约14,000位年龄在40-110岁的自愿受访者中收集了唾液DNA样本,在2009年和2012年的8个健康长寿典型调研地区的调研中,我们采集了约4800位被访者的血液和尿样样本。另外,在1998年的基线调查中,我们搜集了4,116名80+岁高龄老人的指尖血样样本。
代表文章:顾和军,刘云平. 教育和培训对中国城镇劳动力就业的影响——基于CLHLS数据的经验研究[J]. 人口与经济, 2013年01期.
网站链接:
http://web5.pku.edu.cn/ageing/html/datadownload.html
注:来源于“管理学季刊”
写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭(戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群信息。