专栏名称: 量化研究方法
以量化之思想认识世界,体会量化之美。
目录
相关文章推荐
51好读  ›  专栏  ›  量化研究方法

几种常见的概率抽样方式

量化研究方法  · 公众号  ·  · 2017-08-12 23:46

正文

概率抽样是按照概率原理进行的,它要求样本的抽取具有随机性。前面已经提到,概率抽样有若干种不同的形式,每一种具体的形式有着各自不同的特点。而在研究中对不同抽样方式的选择将涉及研究问题的性质、完善的抽样框的获得、研究经费的多少、样本精确性的要求,以及资料的收集方法等因素。下面我们就结合这些因素,对几种基本的概率抽样方法逐一进行介绍。

一、简单随机抽样

简单随机抽样(simple random sampling)又称纯随机抽样,是概率抽样的最基本形式。它是按等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(N>n)。常用的办法类似于抽签,即把总体的每一个单位都编号,将这些号码写在一张张小纸条上,然后放入一容器(如纸盒、口袋)中,搅拌均匀后,从中任意抽取,直到抽够预定的样本数目。这样,由抽中的号码所代表的元素组成的就是一个简单随机样本。

比如,某系共有学生300人,系学生会打算采用简单随机抽样的办法,从中抽取出60人进行调查。为了保证抽样的科学性,他们先从系办公室得到一份全系学生的名单,然后给名单中的每个学生都编上一个号(从001到300)。抽样框编好后,他们又用300张小纸条分别写上001,002,…,300。他们把这300张写好不同号码的小纸条放在一个盒子里,搅乱后,随便摸出60张小纸条。然后,他们按这60张小纸条上的号码找到总体名单上所对应的60位同学。这60位同学就构成了他们本次的样本。这种方法简便易学。但当总体元素很多时,写号码的工作量就很大,搅拌均匀也不容易,因而此法往往在总体元素较少时使用。

对于总体元素很多的情形,我们则采用随机数表来抽样。本书后就附有一张随机数表,表中的数码和排列都是随机形成的,没有任何规律性(故也称为乱数表)。利用随机数表进行抽样的具体步骤是:

(1)先取得一份总体所有元素的名单(即抽样框);

(2)将总体中所有元素一一按顺序编号;

(3)根据总体规模是几位数来确定从随机数表中选几位数码;

(4)以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;

(5)根据样本规模的要求选择出足够的数码个数;

(6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。

按上述步骤选择出来的元素的集合,就是所需要的样本。举例来说,某总体共3 000人(四位数),需要从中抽取100人作为样本进行调查。首先,我们要得到一份总体成员的名单;然后对总体中的每一个人从1到3 000进行编号;再根据总体的规模,确定从随机数表中选择四位数。具体的选法是从随机数表的任意一行和任意一列的某一个四位数开始,按照从上到下的顺序,或者从左到右的顺序,以3 000为标准,对随机数表中依次出现的每个四位数进行取舍:凡小于或等于3 000的数码就选出来,凡大于3 000的数码以及已经选出的数码则不要,直到选够100个数码为止;最后按照所抽取的数码,从总体名单中找到它们所对应的100个成员。这100个成员就构成一个随机样本。表6—2就是对3 000人的总体进行抽样时,我们采用随机数表对四位数码进行取舍的例子(采用后四位数,并按从上往下的顺序)。表6—2随机数表抽样例随机数表中的数码选用的数码不选用的原因843299090609061053873020后面四位数大于300094274100410041013902250725079361404310后面四位数大于30001359866042后面四位数大于3 000632191268326839420582507与所选的第三个数码重复27256511761176

如果采用前四位数字,仍按从上往下的顺序,那么从表6—2中我们又可以抽取出1 053、0 139、1 359、2 725这四个号码;如果取中间的四位数字,所得到的则是2 990、1 404、1 912和0 582这四个号码了。

二、系统抽样

系统抽样(systematic sampling)又称等距抽样或间隔抽样。它是把总体的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。它和简单随机抽样一样,需要有完整的抽样框,样本的抽取也是直接从总体中抽取个体,而无其他中间环节。

系统抽样的具体步骤是:

(1)给总体中的每一个个体按顺序编号,即制定出抽样框。

(2)计算出抽样间距。计算方法是用总体的规模除以样本的规模。假设总体规模为N,样本规模为n,那么抽样间距K就由下列公式求得:

K(抽样间距)=N(总体规模)n(样本规模)

(3)在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A),它称做随机的起点。

(4)在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A+K,A+2K,…,A+(n-1)K。

(5)将这n个个体合起来,就构成了该总体的一个样本。

例如,要在某大学总共3 000名学生中,抽取一个容量为100的大学生样本。我们先将3 000名学生的名单依次编上号码,然后按上述公式可求得抽样间距为:

K=3 000/100=30

即每隔30人抽一名。为此,我们先在1~30的数码中,采用简单随机抽样的方法抽取一个数字,假如抽到的是12,那么就以12为第一个号码,每隔30名再抽一个。这样,我们便可得到12,42,72,…,2 982总共100个号码。我们再根据这100个号码,从总体名单中一一对应地找出100名学生,这100名学生就构成本次的一个样本。

从上面的过程中我们不难看出,系统抽样较之于简单随机抽样来说,显然简便易行多了,尤其是当总体及样本的规模都较大时更是如此。这也正是社会研究较少采用简单随机抽样而较多采用系统抽样的原因。

值得注意的是,系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布;否则,系统抽样的结果将会产生极大的偏差。因此,我们在使用系统抽样方法时,一定要注意抽样框的编制方法。特别要注意下列两种情况:

一是总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况。比如,我们要抽取若干家庭的样本进行消费状况调查。而家庭户的名单是按每个家庭总收入的多少由高到低顺序排列的。这样,如果有两个研究者都采取系统抽样的方法从这个总体中进行抽样,假设抽样间距为40,一个抽到的随机起点号较靠前为3;而另一个抽到的随机起点号较靠后为38。那么,从前一个研究者所抽样本中算出的家庭平均收入,一定大大高于后者所抽样本中算出的家庭平均收入。因为第一个样本中的每一个家庭都要比第二个样本中的每一个家庭在收入等级中靠前35个位置,即前者中的每一个家庭都比后者中的每一个家庭在总收入上高出35户家庭。如果我们事先注意到这种情况,就可以采用抽取中间位置,即20号的方法。

二是总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。比如,前面关于大学生一例中,我们计算出间距为30。如果此时总体名单是按教学班排列、每班也是30个左右的学生,并且每班的名单都是按学生学习成绩高低排列,或是按班干部、一般学生、较差学生的顺序排列的。那么,当所抽的随机起点号靠前时,样本就由各班上成绩优秀的学生组成,或是全由各班的班干部组成;而当所抽的初始号靠得较后时,样本就会由各班中成绩较差的学生或是各方面表现较差的学生组成。显然,无论是哪种情况,都不符合总体的全面情况,都是一个有着严重偏差的样本。此时,就应打乱原来的总体排列顺序,比如按姓氏拼音顺序进行排列。

三、分层抽样

分层抽样的概念

分层抽样(stratified sampling)又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次;然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本;最后,将这些子样本合起来构成总体的样本。例如,在一个企业抽取职工样本时,我们可以先把职工总体分为工人、干部和技术人员三大类;然后,采用简单随机抽样或系统抽样的方法,分别从这三类职工中抽取三个子样本;最后,将这三个子样本合起来构成全体职工的样本。

分层抽样的优点

分层抽样方法的一个优点,就是在不增加样本规模的前提下降低抽样误差,提高抽样的精度。前面我们曾经指出,总体的同质性程度越高,样本就越容易反映和代表总体的特征和面貌;而总体的异质性程度越高,样本对总体的反映和代表就越困难,对抽样的要求也越高。采用分层抽样的最基本目的,正在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到更好的抽样效果。用统计的语言来说,通过分层,使得各层内元素之间的变异程度变小,各个层内的方差变小(比总体的方差要小),因而在样本规模相同时,分层抽样的抽样误差往往比简单随机抽样的抽样误差要小。

分层抽样方法的另一个优点,就是非常便于了解总体内不同层次的情况,以及对总体中不同的层次进行单独研究,或者进行比较。比如,在《中国妇女社会地位调查》中,研究者为了能分析比较城乡差别,提高抽样精度,并能保证城市分析具有足够的样本容量,他们采取了各个省在省内进一步按城乡分域(实际上是作为研究域的层),分别进行抽样的做法,并使城乡两域的样本规模相等。这表明,该调查采用的是不按比例的分层抽样方式。

分层抽样的运用

在实际运用分层抽样的方法时,研究者需要考虑下列两个方面的问题。

(1)分层的标准问题。同一个总体可以按照不同的标准进行分层,或者说,根据不同的标准可以将一个总体分成不同的类别或层次。那么,在实际抽样中究竟应该按什么标准来分层呢?通常采用的原则有:

第一,以所要分析和研究的主要变量或相关的变量作为分层的标准。比如,若要研究居民的消费状况和消费趋向,可以以居民家庭人均收入作为分层标准;又如,要了解社会研究中不同职业的人员对社会经济改革的看法,就可以以人们的职业作为分层的标准。

第二,以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。比如在工厂进行,可以以工作性质作为分层标准,将全厂职工分为干部、工人、技术人员、勤杂人员等几类来进行抽样。

第三,以那些已有明显层次区分的变量作为分层变量。比如在社会研究中,性别、年龄(当然是分段以后,如老、中、青)、文化程度、职业等等,就经常被用作分层的标准;其他如学生按年级、专业、学校类型分层,城市按人口规模分层等等。

(2)分层的比例问题。分层抽样中有按比例和不按比例分层两种方法。按比例分层抽样是指按总体中各种类型或层次的比例来抽取子样本的方法。即在单位多的类型或层次中所抽的子样本就大一些,在单位少的类型或层次中所抽的子样本就小一些。比如,某厂有工人600人,按性别分层则有男工500人,女工100人。总体中两类工人人数的比例为5∶1。因此,若要抽60人作样本,那么,按比例的抽法就是根据上述比例,分别从500名男工中随机抽取50人,而从100名女工中随机抽取10人。这样,样本中男女工人之比与总体中男女工人之比完全相同,均为5∶1。可以说,样本的性别结构是总体中性别结构的一种缩影。

采取按比例分层抽样的方法,可以确保得到一个在某种特征上与总体结构完全一样的样本。但是,在有些情况下,又不宜采用这种方法。例如,有时总体中有的类型或层次的单位数目太少,若以按比例分层的方法抽样,则有的层次在样本中个案太少,不便于了解各个层次的情况,这时往往要采取不按比例抽样的方法。比如上例中,样本中女工人数过少,此时我们可以采取不按比例抽样的方法,在500名男工中抽30人,在100名女工中也抽30人。这样,样本就能较好地反映出男女两类工人的一般状况,我们也能很好地对男女两类工人的情况进行比较和分析。

需要但注意的是,我们采用不按比例分层抽样的方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较,但若要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,即通过调整样本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。比如上例中,若要用30个男工、30个女工的收入资料去推断全厂工人的平均收入时,就需要在男工的收入后乘以5/3,而在女工的收入后乘以1/3,再加总平均,否则就会导致推断的偏误。

四、整群抽样

整群抽样(cluster sampling)是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成样本。这种小的群体可以是居民家庭,可以是学校中的班级,也可以是工厂中的车间,还可以是城市中的居委会等等。整群抽样中对小群体的抽取可采用简单随机抽样、系统抽样或分层抽样的方法。总之,整群抽样与前几种抽样的最大差别在于,它的抽样单位不是单个的个体,而是成群的个体。

举例来说,假设某大学共有100个班级,每班都是30名学生,总共有3 000名学生。现要抽300名学生作为样本。如果我们采用整群抽样的方法,就不是直接去抽一个个的学生,而是从全校100个班级中,采取简单随机抽样的方法(或是系统抽样、分层抽样的方法)抽取10个班级,然后由这10个班级的全部学生(300名)构成样本。

采取整群抽样的方法,不仅可以简化抽样的过程,更重要的是它可以降低收集资料的费用,同时还能相对地扩大抽样的应用范围。在简单随机抽样和系统抽样中,都要求有一份总体所有成员的名单,即抽样框。但在实际过程中,这样的名单往往难以获得。有时即使可以获得,真正运用起来也十分麻烦。因此,上述两种抽样方法的应用范围受到一定限制。例如,要在一个有10万户家庭的城市中抽取1 000户家庭进行调查,若按上述两种方法,就必须首先弄到一份这10万户家庭的名单。而在实际调查中,这样的名单往往是很难弄到的。这时,如果采用整群抽样的方法,就可以省去这种麻烦,使抽样变得简单易行。比如说,我们可以按居民委员会(以下简称居委会)来编制抽样框,假设全市共有200个居委会,每个居委会有500户左右的家庭,那么我们只需弄到一份200个居委会的名单,并按上述第一种或第二种抽样方法,从中抽取两个居委会,然后将这两个被抽中的居委会中的所有家庭户作为我们的样本就行了。从这一例子中,我们不难看出整群抽样所具有的优点。许多较大规模的社会研究往往从节省经费、人力以及从研究的可行性等方面考虑,而采用整群抽样的方法。例如,20世纪80年代中期由中国社会科学院社会学所等单位组织进行的《五城市婚姻家庭调查》,就是采用这种整群抽样的方法,从五个城市中抽取了八个居民点,以这八个居民点所包括的总共4 385户家庭作为样本进行的。

但是,应该看到,整群抽样所具有的简便易行、节省费用的优点,是以其样本的分布面不广、样本对总体的代表性相对较差等缺点为代价的。由于整群抽样所得样本中的个体相对集中,而涉及的面相对缩小,故在许多情况下会导致样本的代表性不足,使得结果的偏差较大。拿上面的例子来说,由200个居委会中任何两个居委会所包含的1 000户家庭,显然受着具体的地理、职业等社区条件和环境的限制,往往难以体现出整个城市的不同地段、不同职业区、不同生活区居民家庭的特点。这1 000户家庭对全市家庭的代表性,比起用简单随机抽样或者系统抽样和分层抽样的方法抽取的1 000户家庭来说,往往要差一些。

为了更好地理解整群抽样的特点,我们可以将整群抽样与前述几种抽样方法,特别是分层抽样方法作些比较。假设我们的总体是全国(除台湾地区、香港和澳门特别行政区外)所有城市的集合,我们要抽取一个规模为40个城市的样本。若按简单随机抽样或系统抽样的方法,则首先需要弄到一份全国城市的名单,然后根据随机数表或通过计算抽样间距,直接从抽样框中抽取城市;若按分层抽样的方法,则可以先按城市规模将总体分为特大城市、大城市、中等城市和小城市四类,然后分别从每一类中抽取若干城市,并将这些城市合起来构成样本;而如果采用整群抽样的方法,则可以以省(自治区、直辖市)为抽样单位,从全国31个省(自治区、直辖市)中随机抽取三至五个省(自治区、直辖市),再以所抽中的这些省(自治区、直辖市)中所包含的全部城市的集合作为样本。

整群抽样方法的运用,尤其要与分层抽样的方法相区别。当某个总体是由若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差别很大、而每个子群内部的差异不大时,则适合于分层抽样的方法;反之,当不同子群相互之间差别不大、而每个子群内部的异质性程度比较大时,则特别适合于采用整群抽样的方法。

五、多段抽样

多段抽样(multistage sampling)又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。在社会研究中,当总体的规模特别大,或者总体分布的范围特别广时,研究者一般采取多段抽样的方法来抽取样本。多段抽样的具体做法是:先从总体中随机抽取若干大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直至抽到最基本的抽样元素为止。

本文节选自风笑天:《社会研究方法》(第四版),中国人民大学出版社,2013。