分组问题最为重要,它与地权分配基尼系数的精确度、户人计(折)算、研究空间尺度等问题密切关联。学界对地权分配基尼系数的计算方法讨论较多,兹不赘述。从严格意义来讲,在统计数据完整又有相关电脑运算程序便利的情况下,可采取不分组计算方法,比分组计算的基尼系数更精确。在没有电脑运算程序的情况下,分组是为了便于计算,此外,分组受到已有调查数据分组的限定。拙文《流动的土地与固化的地权——清代至民国关中东部地册研究》、拙著《流动的土地——明清以来黄河小北干流区域社会研究》(以下简称《流动的土地》)有山陕地册记载业户及其占地的全部数据,故采取不分组计算,有感于已有研究缺乏计算数据而无法检验之弊,为便于学界了解山陕地册所记录的地权分配状况,故而在出版《流动的土地》时,以占地面积分组及对应户数的形式附录各表于书后,因此,不了解此情者利用书中附录各表计算的基尼系数与书中计算的基尼系数不同,前者低于后者。这提示本人应就此专门予以说明。
历史学界虽然借用收入分配基尼系数来研究地权分配,也讨论过分组问题,但仅限于分组数量多少,却未能注意分组所占户(人)数、占比过大这一关键问题。国内外经济学界对分组问题与基尼系数计算已有相当多的论证,研究发现,在关注组别之间的差异时,同时要关注组别内部的差异,由于我们一般只能取每组的平均值作为该组的估计值,数据分组对总体的基尼系数有时影响较大。当某组内部差异较大时,应尽量减少对应的人口比例、收入比例,尤其是要减少该组人口占总人口数的比重。一般而言,差异较大的组存在于高、低两端,这提醒研究者应对高、低端的两个组进行细分,以减少组内差距对总差距的影响。经济学界比较一致的看法是,当组数达到30组时,组内差距对总差距的影响可以忽略不计。从事近代地权的研究者均未注意经济学界的这一重要认识,没有考虑分组户数过多、比例过大对基尼系数误差的影响程度,而是直接利用历史时期土地分配的数据,从而导致计算的基尼系数距离实际值偏差较大。下面结合自己地权分配的一些研究来谈谈分组问题。
(一)无地户问题。无地户处于地权分配的最低端,分组是否包含无地户,对基尼系数计算值影响颇大。例如,笔者曾利用1932年国民政府内政部土地调查资料,计算出山西、河北、山东三省按户分配的地权分配基尼系数分别为0.515、0.519、0.499。这一调查资料的最低分组是10亩以下,缺乏无地户数据,因此实际地权分配基尼系数应该更高。
再如,1936年马玉麟调查的武功县地权分配资料。“关中模式”由此计算出按户分配、按人分配的基尼系数,并采用它作为折算、修正土改前关中地权分配基尼系数的关键依据,因此,有必要仔细考辨。阅读《武功县土地问题调查之研究》发现,马玉麟调查武功县土地问题时并没有涵盖全县所有农户。武功县全县总户数为18052户,各区接受调查的仅有2917户;全县农户约为17361户,接受调查的农户2684户,仅占全县农户总户数的15.46%。全县有耕地面积555544.72亩,调查所涉及的耕地面积为50652.2亩,仅占9.12%。由此可知,这个调查资料属于抽样性,很不全面,运用这些数据来研究武功县地权分配,不能确保其结论的全面性、客观性。
更为重要的是,武功县各区域地权分配调查资料并不包含无地户数据。调查资料具体情况可参考第四章的头道塬、二道塬、三道塬、三厂的7个调查表,马玉麟指出“武功县农民所有之土地面积,多在三十亩以下,约占全县农地之百分之八十,其中尤以五亩未满者居多,约占有百分之二十一以上”。对比调查资料中四个区域《调查农户其经营面积及户口表》可知,“五亩未满”并不包含无地户。
武功县有无地户吗?有。按照马玉麟的分类,雇农属于无地户,“雇农是指农村中对于土地既无所有面积又无使用面积之农民”,其在武功县之分布情况,在头道塬每266户有雇农1户,在二道塬每56.87户有雇农1户,在三道塬每21.74户有雇农1户,在三厂镇每7.67户有雇农1户。若以全县言之,每38.38户有雇农1户。马玉麟只调查了2917户,其中雇农76户。就所调查农户而言,武功县的无地户占2.61%。由于是抽样调查,武功全县有17361户农户,到底有多少无地户?无地户占多大比例?我们无从知道。当然,也不能用这些抽样调查的无地户数据来重新计算地权分配基尼系数,因为我们不清楚马玉麟抽样调查的标准是什么。由于缺乏无地户数据,“关中模式”按户计算的地权分配基尼系数就会偏低,这一点是无可争议的。
“关中模式”特别强调马玉麟调查资料的客观性,认为不必怀疑他对土地问题的尖锐性做了“掩饰”。因为他采取的是抽样调查,我们并不能猜测、怀疑他调查时带有的政治立场、个人主观性,但从调查资料的结果来看,也不能否认这种猜测、怀疑并非没有道理。
(二)分组问题。近代地权分配调查数据多采取分组形式统计,受限于此,只能根据既定的分组计算基尼系数。分组大体分为两类:一类是按占地面积分组,有对应的户(人)数(比例)、占地面积(比例);一类按阶级阶层分组,例如地主、富农、中农、贫农、雇农等。有的研究者认为,同一样本,按面积分组比按阶级分组计算的地权分配基尼系数更精确,但影响其精确度的因素在于分组数量的多少以及每组内户数所占比例的大小程度,其实质是重视组内各户之间的差异。
无论是按占地面积、阶级划分分组,在计算基尼系数时都会存在一定缺陷,从而导致基尼系数相对偏低。具体原因是,在相同组内,每户的地权分配不是平均的,而研究者按分组计算(或自己分组),则选取了该组平均值作为估计值,实际默认组内每户分配是平均的。所以,在同样的样本下,分组越少,计算值越小;组内统计单位越多,则计算值越小。
同一研究对象,分组在8组左右,每组内户数比例不大于15%,基尼系数相对精确。当然,如果说每组内户数比例不大于10%时,基尼系数会更精确,但是两者之间的差距不太明显。如果分组较少,就必然使得每组内户数的比例大于15%甚至达到40%以上,或者有两组的数据大于30%,就会增加基尼系数严重偏小、严重偏离其实际值的可能性。在有数据的情况下,可计算其偏离程度,反之,则不容易计算其偏离程度。可用赵渡镇《滩地事务公所民国17年东滩丈册》所载的业户统计表,再细分为3组、4组、6组、12组来说明这一问题。
有的研究者承认分组越少、基尼系数越小的问题,但没有具体揭示其原因。这里着重考察分组(或合并)对基尼系数计算的影响。
1.占地面积区间分组
随着分组的减少,基尼系数计算值越来越小。从表1可以看出,随着分组由12组减少为11组、9组、6组、3组,基尼系数计算值越来越小。
为什么随着分组的减少,基尼系数计算值越来越小?从表1可以看出,随着分组的减少,每组内的户数增加,则默认更多的户数的土地分配相对平均,从而使得基尼系数计算值偏小。这需要对与每组对应的户数的统计学意义进行说明。与每个占地组别对应的户数,其统计意义是组内所有户数的土地分配是默认选取组内平均值,因此每组内所有户数土地分配平均。如12分组中,组别“1亩以下”对应的户数是127,则说明127户分配是平均的;组别“1—4.9亩”对应的户数是232,则说明232户分配是平均的;11分组中,组别“4.9亩以下”对应的户数是359,则说明359户分配是平均的;12分组与11分组的区别,仅在于将12分组中的组别“1亩以下”(平均值0.349亩)和“1—4.9亩”合并为组别“4.9亩以下”(平均值2亩),从而将本来分配不是平均的359户统计为平均的359户,导致基尼系数计算值偏小。从11分组到9分组也可以看出,随着组别的合并,将原来不是平均的73户统计为平均,将原来不是平均的6户统计为平均,从而使得基尼系数计算值偏小。这说明某一组或某几组的组内户数过多,会减小组内各户之间的差别,从而降低基尼系数。
上述结论还可以用图加以说明。由表2可导出图1。
图1中,6分组基尼系数计算值=封闭曲线OABCDEFO的面积/0.5,3分组基尼系数计算值=封闭曲线OBDFO的面积/0.5,两者之间产生差距的原因在于3分组没有计算图1中阴影部分的面积。图1中线段OA统计意义是40%的户数分配是平均的(2亩/户),线段AB统计意义是42%的户数分配是平均的(8.43亩/户),但40%的户数与42%的户数,其分配不是平均的。线段OB的统计意义是82%的户数分配是平均的(5.32亩/户)。随着组别“4.9亩以下”和组别“5—14.9亩”合并为组别“14.9亩以下”,使原本不是平均分配的40%和42%的户数成为平均分配的82%的户数,从而使得分配平均程度增加,基尼系数计算值偏小。
从以上讨论可以看出,对相同样本的数据,随着分组减少,每组内户数增加、所占比例增加,基尼系数计算值偏小。因此,为了使得计算尽量准确,第一,对相同样本的数据,应尽量细分更多的组;第二,若分组数不变,随着样本数的增加(也就是统计范围的扩大),若所占比例增加,基尼系数计算值将偏小。
地权分配研究是为了计算出更精确的基尼系数。刘志一方面认为“分组多计算更精确”,另一方面又推测“关中模式”按照3—6组分组计算基尼系数,将本人的分组一律合并、压缩为6个分组,其结果必然会降低基尼系数。这种做法是错误的,与他所讲的分组不能太少、“分组多计算更精确”自相矛盾。
《流动的土地》与“关中模式”的讨论,不仅是基尼系数计算方法的问题,根本在于对资料特性、关键概念、区域社会的理解不同。譬如,山、陕黄河滩地册具有独特的生态和社会背景,有些地册属于村庄口岸册,无法计算基尼系数;“份子地”按户均分,地权分配基尼系数为0;地权分配基尼系数高的地册未加利用,客观上存在资料取舍问题。
2.阶级分组
一般而言,阶级分组也是按占地面积划分,但并不清楚划分的具体标准,各地不尽相同。隋褔民等发现,按阶层或占地规模计算的基尼系数可能造成农村土地分配不平等程度偏低的假象。按户计算的基尼系数要明显大于按照阶层计算的基尼系数。如果用阶层数据计算,实际上是假定阶层内部没有差距,或者说忽略了这一阶层的内部差距。他们对很多学者根据阶层或者占地规模计算基尼系数来判定中国近代农村的土地占有关系的集中程度提出反思,“如果我们认为中国近代农村的土地分配关系是相对良性的,那么我们就要审慎地思考,这一判定是不是低估了实际分配的不平等程度”。
为便于讨论,仍以赵牟云、刘志利用过的《战前山西省各阶级阶层占有土地表》为例。
抗战前山西省49.29%的贫雇农占有16.16%的土地,组内户数累积比由4.33%增加至53.62%,占地面积累积比由1.46%增加至17.62%,在图2中显示为线段AB。由图可知,由于缺乏85694户贫雇农的每户占地数据,在计算每户占地面积时,默认85694户贫雇农占地是平均的,即用其相对应的443681亩/85694户,每户平均占地5.177亩,因此,线段AB表现为组内的一条相对平均线。同样,BC、CD、DL分别代表中农、富农、地主占地,在各组内都表现为一条相对平均线。事实上,每个阶层内部的各户占地面积不是平均的。因此,按阶级分组计算,不论是按户还是按人,默认每个阶级内部各户占地面积相等,在某一阶级或某两个阶级的户数比例特别高的情况下,计算的基尼系数严重偏低的可能性很大。
为说明这一问题,我们再以中农分组为例。39.62%的中农占有56.24%的土地,户数累积比从53.62%突增至93.24%,占地累积比从17.62%突增至73.86%,也就是从B点到C点,C点意指最顶端6.76%的户数占有26.14%的土地,然而我们想知道的是最顶端的20%的户数占有多少土地?在E点,20%的户数占有44%的土地,若在F点,20%的户数占有60%的土地,G点是20%的户数占有75%的土地。但问题是这个点在EH之间的哪个点?因为户数比例直接从B点53.62%到C点93.24%,所以只能在E点。E点的意义是什么?顶端20%的户数至少占有44%的土地,高于44%多少?不知道。如果我们要更精确的了解,则需要进一步对中农组进行细分。
这说明,在阶级分组过少、组内样本又大的情况下,很可能会严重偏离地权分配的实际,导致基尼系数偏低。80%的农户所占有的土地比例,若在F点,则偏差为S△BFC;若在G点,则偏差为S△BGC,显然,S△BGC大于S△BFC,也就是说,分组中是否有占80%左右的一个点是很重要的一个点。△AJB和△BIC面积越大,严重偏离基尼系数真实值的可能性越大,越不能准确地计算基尼系数。这是从统计学角度说明在计算阶级分组土地分配时,所谓“从总、从大”原则并不适合。
由上可知,不论面积分组还是阶级分组,为使基尼系数计算相对准确,分组的原则一般应该是“最少在8组左右,每组户(人)百分比在20%左右”,这样计算出的基尼系数相对接近真实值。如果有可能,还应该再细分,每组户(人)百分比在10%左右。如果统计样本有每户的占地面积,则可以采取不分组的方法,避免分组所产生的问题,即降低实际基尼系数。
不论是按户还是按人,不同分组应用折线法算出的基尼系数都低于真实值,因此取较大值才更接近于真实值。
3.“关中模式”及相关研究户、人基尼系数偏低的原因
“关中模式”根据一些土改调查资料,计算出土改前关中各县按人为单位的地权分配基尼系数,绝大多数在0.23以下,因此认为是相当平均的分配。但这些按人的地权分配基尼系数是如何计算的?按人的地权分配数据具体是什么?土改以前,关中的地权分配基尼系数属于推算性质,而不是计算得出。“关中模式”指出书中“表2及图1均以下列所收报表数据为依据推算得出:渭南地区档案:地委全宗,96卷,第21—22、32—38页;宝鸡市档案馆:专区土改委,第13全宗,1目,1卷,第80页,14卷,第19—29页”。渭南地区的土改档案,按土地占有阶层划分为地主、半地主式富农、富农、小土地出租者、中农、贫农、雇农、工商业家、其他等。由表可知,中农、贫农两个阶层的户数分别占到总户数的43.32%、44.73%,占有土地比例分别为56.7%、24%。渭南专区13县第一期土改区内,土改前中农占50.77%,贫农占34.0%。在第二、三期土改区内,中农占50.9%,贫农占37.3%。西部的宝鸡专区13县1市(老区半老区除外),土改前中农占49.73%,贫农占35
.4
8%,该专区土地占有最“集中”的是山区的麟游县,中农占55%。
土改时期按照这样的阶层划分统计当然没有什么问题,但研究者利用这个统计数据来计算基尼系数,则可能存在非常大的问题,因为贫农、中农均占有总户数的40%以上。正如上文所述,每个分组包含的户数占比最好在20%以下,若条件允许尽量在10%左右,才可能较准确地计算基尼系数。统计表看似划分了多个阶层,形成了8个以上的分组,但贫农、中农两个阶层占总户数的百分比均超过了40%,不论是采用折线计算法还是其他方法,都可能导致计算的基尼系数严重偏低,这是“关中模式”地权分配基尼系数普遍偏低的根本原因。
因此,不论是关中各县,还是渭南、宝鸡专区,整体的地权分配数据都存在中农、贫农户数多,占比例高的情况,不宜用来计算基尼系数。中农、贫农由于没有对应的占地面积分组,无从得知同一阶级内部各户之间的占地差异,事实上同一阶级内部地权分配存在较大差异,户数多、占比过大则掩盖了这些差异。中农、贫农占地多,不等于地权分配基尼系数低。
再来看《近代地权分配研究方法刍议》中山东省的两条统计资料。一是抗战前山东省19个县8个典型乡和41个典型村,中农占总户数的39.23%,占有土地46.45%;贫农占总户数的46.95%,占有土地21.72%;雇农占总户数的6.4%,占有土地1.1%。二是1936年山东全省中农占人口的43.1%,占有土地46.4%;贫雇农占人口的46.1%,占有土地22.8%。刘志认为,这两组数据应该比民国时期政府的统计数据更准确可靠。但二者的统计分组不同,前者是按占地面积分组,后者则按阶级分组。从统计学角度来看,前者更适于计算基尼系数。抗战前山东省的土地占有统计资料与关中的土改资料存在共性问题,即贫雇农、中农占总户数的比例过大,接近或超过了40%,由此计算的基尼系数可能严重偏低。
另外,赵牟云、刘志利用《战前山西省各阶级阶层占有土地表》计算地权分配基尼系数,存在与“关中模式”同样的问题。长期以来,多数研究者未认识到“关中模式”所利用的土改档案资料存在计算基尼系数的分组缺陷,或者已经发现却不予考虑,一直沿用其计算方法,这是导致近代地权分配研究中按户计算的实际基尼系数严重低估的根源所在。“关中模式”利用的土改调查资料反映了土改前关中地区贫雇农、中农占有较高比例土地的现象,但这与地权分配基尼系数低并不存在必然的对应关系。“关中模式”按户计算的地权分配基尼系数普遍偏低,是因为阶级分组中贫雇农、中农组别的户占比、人占比、土地占比太高,不宜用于计算基尼系数,或者说严重偏离实际的基尼系数。拙文《近代华北乡村地权分配再研究——基于晋冀鲁三省的分析》所要重点说明的,就是基尼系数与洛伦兹曲线可能不是唯一对应关系,基尼系数相等(或相近)可能反映了不同的地权分配状况,自耕农多并不等同于地权分配基尼系数低,这是两个不同的概念。这一认识同样适用于民国时期的关中地区。
为了说明分组过少、分组内户数过多导致基尼系数严重偏低,可以赵牟云《抗战前山西土地问题新探》为例进行分析。据赵文表2,山西省阳曲县西村有240户,按户计算的基尼系数为0.587,表3阳曲县西村240户、1180人,按人口计算的基尼系数为0.355。赵文对此表的分组存在两方面问题:一是很随意,分组太少,只有5组;二是分组的面积区间划分错误。1—4亩组,实际上包含了人均0亩以上至未满5亩;5—9亩组,其实包含了人均9.83亩的1户,3人占地29.5亩。
笔者对照原始表格进行了更为细致的分组统计。一是按照人均占地分组。由赵文可知,1—4亩组,人口占到村庄总人口的66.69%。前文已经指出,采用折线法计算,分组太少,会导致基尼系数偏低。由于采取人均占地面积分组,人均占地规模已经不同于以户为单位的占地规模,1—4田亩阶段,组内相差就已经达到4倍,而5—9田亩阶段组内相差2倍,10—14、15—19田亩阶段的组内则相差1.5倍。因此,他的分组处理并不合理。
二是按人口百分比分组。尽可能按每10%分为一组,但无地户162人,使每组并未完全能达到10%,略有出入。经过计算,按人均占地分组计算的基尼系数为0.4543,按人口百分比计算的基尼系数为0.4545,二者几乎相同。这一数据比赵牟云计算的数值高0.1,相对于0.355而言,误差达28.17%。由此可知,如果资料允许,一是分组不能太少,二是各组别内的户(人)数不能太多,如果组内户(人)数太多,应考虑对该组再细分。
再如,赵牟云讲抗战前山西占农村人口10.03%的地主、富农占有总土地的26.13%,45.48%的中农占有56.22%的土地,40.73%的贫雇农占有16.15%的土地,他按人口计算的基尼系数为0.333,刘志利用同样的资料、同样的方法,按人计算的基尼系数与赵牟云相同。
对此,想要说明的是:(1)为使得计算值更接近于真实值,数据分组一般遵循的原则是:“每组中人口比例应小于20%左右”,而赵文表中贫雇农组40.73%,中农组45.48%,远大于20%。所以从分组是否合理的角度来讲,0.333不仅偏低,而且严重偏离真实值的可能性很大。在不能重新细分组的情况下,不能简单地用0.333来说明当地的地权分配状况。(2)如果不认可上述分组原则,有两种方法可以使这一值更小。一是划分2组,山西省农村人口的10.03%,占有土地26.13%,89.97%人口,占有土地73. 87%,计算的基尼系数会小于0.333。二是划分1组。农村人口的100%,占有土地100%,计算的基尼系数为0。