作者简介:
李连江,
1963年生于河北沧县农村,五谷能分,四体不勤。手无缚鸡之力,少年常为生存担忧。幸好遇到大学重开,得以跻身78级之列。此后四十一年,辗转五所大学,五次变换身份,十年前落户香港中文大学,兼职华政、南开与浙大。专著半本,论文十数篇;译文三百万字,“三分尘土,七分流水”。近几年受虚荣心驱使,偶尔侈谈治学,奉行启功先生的良心话哲学,不弄玄虚,知有不言,言必有据。
《戏说统计续编》
李连江 著
当代世界出版社2019年7月版,下文收录于该书第九章
本文收集的是我在微信公众号“在学术界谋生存”和微信群“戏说统计”“也戏说统计”中讲的一些想法。我没什么高深见解,但既然有朋友提出了相关的问题,我相信他们特别善于思考也特别善于表达,应该还有不少人有相似的疑问。这些只言片语不成系统,我简单罗列在此,共三十三节。
第一节
树立方法意识
掌握研究方法,固然要学很多技术,但最重要的是培养方法意识。方法意识有三个要点。首先是意识到做事有门道、有窍门、有捷径、可以事半功倍,这是正面看。负面看,就是意识到有些做事方法是歧路、是傻功夫、是舍近求远、可能事倍功半。其次是意识到每个人有自己独特的方法,没有普遍适用的方法。最后一点最重要,就是为了找到最适合自己的方法,要自觉地把自己一分为二,一个自己做事,另一个自己观察并分析如何做得更有效、更好。同时,比较自己的做法与他人的做法,评估不同做法的效果。棋圣聂卫平小时候学棋,师父过惕生先生教导他:棋是两个人下。树立“棋是两个人下”的意识,就是树立了“围棋意识”,不树立这个意识,不可能成为围棋高手。同样,树立了研究是自己一分为二在做的意识,就是树立了研究方法意识,就可以把研究做好。
第二节
如何回应对案例研究的诘难
案例研究,就是近距离、深入详细考察一个事物或事件以及相关的环境。案例可以是特定时间、地点、环境中的个人、组织、事件或行动。案例研究可以是单案例研究,也可以是比较案例研究。案例研究方法包括实地观察、参与观察、深度访谈、话语分析、制度分析。有些学者喜欢质疑案例研究的典型性或代表性。对这个诘难,我建议这样回应:发现一只大熊猫,意义是从无到有,即使只得到一张皮也很重要,不必考虑是否典型或是否有代表性。也可以这样回应:研究一只发生基因突变的果蝇,比研究千千万万正常果蝇更重要。学术会议中,问这类问题的,多数是抖机灵,做个案研究的不要被他们唬住,应该客客气气地反问一句:您的小孩刚学会说话时,您是更关心“孩子说的是什么”,还是更关心“孩子说了多少个字”?关于案例研究,真正有意义的诘难是:这是什么的案例?(
Of what is this a case?
)
第三节
设计问卷就是把课题设计操作化
设计问卷,就是把课题设计操作化。设计研究,首先得有值得解释的题目,即可以做因变量的问题。没有这样的题目,就如人没有脊梁,站不起来。自己设计问卷,一定先想清楚要测量的究竟是什么,然后设法想出有效可靠的测量指标。社会科学研究,测量是短板,而统计分析假定测量精准。为了补短,我们经常求助于多指标测量,希望多个指标聚合成的潜在标尺更准确。
测量因变量的指标,可以问实然,可以问应然。问应然的问题,可以测量绝对价值,可以测量相对价值。可以只正面问,只反面问,正方两面都问。可以二选一,分优先次序。应然的问题,得到的答案,可能是固有的,可能本来没有,是被激发的。可以提供场景。可以集中问。分散问得到的答案更可能是被激发的临时反应,而不是深思熟虑的。但集中问的缺点是比较容易被应答者猜出意图,从而作伪。测量自变量的指标,同理。
设计问卷就是设计课题,无论如何都不可能完美,但前期投入越多,后期遗憾越少。使用其他学者做的数据,要重新构建他们的研究设计和思路,否则很难把握他们设计的诸多问题究竟测量什么。在这个过程中,有可能实现创造性的重构,即发现原设计者没有清晰意识到的信息。
第四节
学量化方法很像学一门外语
学量化方法,很像学一门外语。要掌握基本词汇,学会语法,才能听懂、看懂。听懂、看懂是最基本的要求。进一步,是能用。相当于把外语从被动的消极的语言变成主动的积极的语言,可以说,可以写。任何语言都是无底洞,要精通,得花费毕生精力。但如果只是应用,特别是消极应用,语言又很容易,只会一点,就能顶大用场。季羡林先生早就注意到了这一点,他说,有个驻德国的中国外交官,只会一个德语词,
das
(意思是“这个”或“那个”),就能指挥仆人开窗关窗。
外语如此,统计方法也如此。想当统计专家,数学必须好,还要花一辈子的时间和精力。但如果满足于当合格的用户,数学不强,可以用哲学、逻辑、日常语言理解量化方法体现的思维方式。如果确实需要使用量化方法,而且确实没有时间和精力学足够多的数学,把量化方法当成一种思维方式,当成一门外语,也行得通。用数学语言能精确描述的,用哲学语言、日常语言也能说清楚。
学外语不能靠简单积累知识碎片,背单词不如记例句,记例句不如背课文。同样,学量化方法,基本学习单位不是术语,而是概念。例如,概率思维的起点不是“正态分布”,而是“万有不齐天地事”。学量化方法不靠记公式,而是靠领悟公式背后的思路。学会一种语言,思维就得到一种新的载体。学会量化方法,就获得一种新的思维方式。套用欧博文教授关于写作论文的高见,可以这样说:量化方法是一种精密的语言,每个词汇都不那么难懂,但是,善用这种语言,需要记住每个词的意思,又能把每个词放在一个句子里应该出现的位置,把每个句子放在一段话里边应该出现的位置,把每段话放在一篇文章里边应该出现的位置。
第五节
分析单位与测量单位
分析单位(
unit of analysis
)指的是一个课题中的研究对象的基本单位。比如,同样是研究一个从中国人当中抽出的样本,分析单位可以是“中国公民”,可以是“中国公务员”,可以是“中国大学教师”。“单位”这个词含义太丰富,如果译成“分析单元”可能就容易理解了。
测量单位(
unit of measurement
)指用什么度量衡测量变量的变化或变异。例如,测量重量,可以用公斤、市斤,市斤还有十两秤与十六两秤。测量概率,测量单位可以是发生比,还可以用发生比的自然对数。弄清测量单位,对于理解回归系数至关重要。不清楚“测量单位”是什么,就不能准确理解“一个单位的变化”(
a unit of change
)指的是什么。
第六节
统计分析是猜测的艺术
谦虚的统计学家发明了一个词,
guestimate
,把
guess(
猜测
)
与
estimate
(估计)合二为一。他们认为,统计分析是猜测的艺术(
statistical analysis is an art of guestimating
)。与他人打交道,时时刻刻必须猜测。既然猜测是必要的生存手段,善于猜测就是一大优势。即使不做统计分析,也不妨以猜测雇员的年薪为例,体会一下猜测如何从不着边际到有根有据,锻炼猜测能力,提高猜测艺术。告诉某人有个大公司,不提供任何其他信息,让他猜某个雇员的年薪,他只能胡猜乱猜,野猜(
wild guess
)。借助统计分析,可以把野猜变成文猜(
educated guess
),进而变成精致的猜(
sophisticated guess
)。
这个转变过程有三步。第一步,按照抽样程序从雇员总体中抽取一个概率样本,算出样本中雇员的最低年薪与最高年薪,猜测就如野马进了围栏。给某人提供这些信息,让他猜公司某个员工的年薪,如果他的猜测低于样本的最低年薪或者高于样本的最高年薪,说明他更适合当天马行空的艺术家。
第二步,分析样本数据,得知年薪的分布大致是正态分布,算出平均年薪与标准差,猜测就如野马带上了笼头。给某人提供这些信息,让他猜公司某个员工的年薪,如果他不是每次都以平均年薪为答案,说明他更适合当投机取巧的股神。
第三步,做多元最小二乘回归。检验每个自变量的显著度,决定是否该把这股绳编入缰绳;检验回归模型的显著度,判断鞍鞯是否牢靠;检验模型是否有严重的共线性问题,避免自变量发生严重内讧。缰绳鞍鞯配备齐全,野马就成了战马,能协助骑士建功立业。给某人提供了这些信息,让他猜公司某个员工的年薪,如果他不按照截距、各个显著自变量的偏回归系数和该员工在各个显著自变量的分值进行计算,说明他创意太强。
第七节
为什么计算标准值
简单说,计算标准值就是采用标准差作为统一的量纲。量纲就是测量尺度,例如测重量用的千克、测距离用的千米。量纲有很多种,测重量,除了千克,还可以用市斤,市斤还有十六两秤与十两秤。测量变量的变异,有很多测量单位,相当于很多量纲。例如,同样是测量年龄,可以采用的量纲有好几种,可以用人生阶段,例如幼、童、少、青、中、壮、老;可以用年龄段,例如
1-10
岁、
11-20
岁、
21-30
岁等;可以用年、月、天。这些不同的量纲测出的结果无法直接比较,标准化相当于秦始皇统一度量衡,让这些测量结果变得可以直接比较。例如,衡量学生成绩可以采用的量纲就很多,可以两分为及格、不及格,可以四分为优良中差,可以用从
A+
、
A
、
A-
,一直到
F
的字母成绩(
letter grade
),可以用百分制。成绩终归是相对的,如果不同的学校采用不同的量纲,要比较学生之间的相对距离,就要把成绩标准化。当然,标准化的前提是假定学生成绩正态分布,更准确点说,是假定学生成绩测量的那个潜在的“学术能力”正态分布。
《戏说统计续编》内封书影
第八节
z
值、
t
值与
p
值
z
值和
t
值都是量纲,也可以称为标杆或标尺,上面的刻度告诉我们的是一个观察值与平均值之间的距离。例如,假设有个衡量中国成年男子身高的
t
值标尺,用这个标尺量姚明,他的身高是
4
,意思就是他的身高距离平均身高有
4
个标准差。
z
值与
t
值的区别是,
z
值的计算假设总体平均值与标准差是已知的,
t
值只假定样本的标准差是已知的。当样本量足够大(超过
1000
)时,
z
值与
t
值基本相同。在现实世界中,总体参数往往可望而不可即,所以
t
值应用得更多。计算
z
值与
t
值,是为了把它们当成衡量
p
值的标尺。
p
值,是犯一类错误(即放弃一个真的零假设)风险的标尺。换言之,用标准差作为量纲或测量单位(
unit of measurement
)测量观察值与平均值的距离,仍然是手段,把这些距离再转化成相应的发生概率,就走到了目的地。再换言之,
p
值是显著度水平,也就是犯一类错误的概率。
t
值、
z
值与概率的关系是表里关系:
t
值、
z
值是表,概率是里,
t
值、
z
值是“概率指标值”。
第九节
关于
p
值
也许是为了炒作,被誉为顶级期刊的
Political Analysis
挑起了一场关于
p
值的争论。这争论由来已久,还是让专家们继续讨论下去。作为量化方法的用户,不妨我行我素。
p
值说的是,如果零假设成立,获得现有样本的可能性有多大。虽然不能直接证实零假设是真是假,但在反复检验的科学研究过程中,还是能起到一定作用的。
p
值有其价值,谨慎对待就好,不用盲目排斥。没有布鞋,更没有皮鞋,为了攀高枝放弃穿了多年的草鞋,恐怕不算明智。
第十节
共线性问题是“严重共线性问题”
最小二乘回归和对数回归都不假定自变量之间彼此完全独立。但是,当一个自变量与另一个或另几个自变量“高度”相关甚至“完美”相关时,回归分析产生的回归系数会被歪曲。
统计学家说的“没有共线性”(
nocollinearity
)是个简略说法,完整的说法是“没有严重的共线性”(
no seriouscollinearity
)或“没有完全的共线性”(
no perfect collinearity
)。为了保险起见,用
SPSS
做最小二乘回归时,可以指令它做“
collinearity diagnostics
”,
SPSS
的默认设置不输出这个检验结果。然后根据学术界关于
Tolerance
和
VIF (Variance Inflation Indicator)
“临界线”(
thresholds
)的约定,判断回归模型是否存在严重的共线性问题。不过,除非简单目测自变量就能发现它们可能高度相关,研究者一般不做这类检验,即使做也很少报告检验结果。
第十一节
稳健的标准误
稳健的标准误,英文是
robust standard error
,比不加“稳健”这个形容词的标准误大一点。“稳健”的意思如下:回归系数保持不变,标准误增大,得到的
t
值相应减小,
p
值相应增大。计算稳健的标准误时,会考虑到回归模型往往不尽合适,比如可能通不过某些检验,或者选用的链接函数不完全恰当。计算稳健标准误的方法很多,各有各的用途,也各有各的争议。
第十二节
单边检验与双边检验
单边检验(
one-sided test
),亦称单尾检验(
one-tailed test
)。双边检验(
two-sided test
),亦称双尾检验(
two-tailed test
)。“尾”和“边”,都是正态分布图的两端。正态分布两端是较小的概率,越靠边,出现的概率越小。检验,就是看标志发生一类错误概率的那个指标值是否出现在两端足够偏远的地方,出现的地方离平均值越远(距离的衡量单位是标准差或标准误),说明这个指标值出现的概率越小,也就是犯一类错误的概率越小。
SPSS
默认的显著度检验是双边检验,就是看正态分布的两端。如果是做单变量分析,例如分析平均值,双边检验的研究假设是:总体参数不是
0
,可能是正数,也可能是负数。与此相应,零假设是:总体参数是
0
。如果是做双变量分析,双边检验的研究假设是:总体中两个变量之间的关系不是
0
,可能是正相关,也可能是负相关。与此相应,零假设是:总体中两个变量之间的关系是
0
。如果是做多变量分析,双边检验的研究假设是:控制总体中其他变量之间的关系,总体中这两个变量之间的关系不是
0
,可能是正相关,也可能是负相关。双边检验的零假设是:控制总体中其他变量之间的关系,总体中这两个变量之间的关系是
0
。
有的时候,做双变量或多变量分析,通不过双边检验,研究者又有很强的理论基础或经验观察相信两个变量之间有一个方向的关系(正相关或负相关),做显著度检验时,可以做单边检验。单边检验的研究假设和零假设有两种。
第一,研究假设:总体中两个变量之间的关系是正相关。零假设:总体中两个变量之间的关系小于
0
。如果是做多变量分析,单边检验的研究假设是:控制总体中其他变量之间的关系,总体中两个变量之间的关系是正相关。零假设:控制总体中其他变量之间的关系,总体中两个变量之间的关系小于
0
。
第二,研究假设:总体中两个变量之间的关系是负相关。零假设:总体中两个变量之间的关系大于
0
。如果是做多变量分析,单边检验的研究假设是:控制总体中其他变量之间的关系,总体中两个变量之间的关系是负相关。零假设:控制总体中其他变量之间的关系,总体中两个变量之间的关系大于
0
。
包括
SPSS
在内的统计软件默认做双边检验。做单边检验,把统计软件计算的
p
值除以
2
即可,但要小心看清相关系数的正负号。做单边检验,研究假设不是简单地假定变量之间有关系,而是明确假定正相关还是负相关。例如,你的研究假设是教育程度与年薪正相关,零假设是相关系数小于
0
,相关系数是正数,
p
值等于或小于
0
.
10
,就可以在
95%
水平上放弃零假设。如果研究假设是教育程度与年薪负相关,零假设是相关系数大于
0
,相关系数是负数,
p
值等于或小于
0
.
10
,就可以在
95%
水平上放弃零假设。
第十三节
量表的可靠度与有效度
量表的可靠度(
reliability
)可以用例如
Cronbach
s alpha
之类的指标衡量。顺便说一句,关于
alpha
值达到多大量表才可靠,方法论专家有不同的看法。在社会科学研究中,
0
.
7
比较容易得到接受,
0
.
8
以上没有问题,
0
.
6
就比较勉强。此外,构建量表用的指标问题越多,指标问题的测量单位越细,
alpha
值越高。构建量表,不要一味追求高可靠度,还要追求可解释度,追求理论意义。
量表的有效度(
validity
)无法用技术手段测量。不要对使用量化技术检验量表的“效度”抱不切实际的想法。效度,不管是“表面效度”(
face validity
)还是“构建效度”(
construct validity
),归根结底是主观判断,准确说是主观际判断(
intersubjective judgement
),由学术共同体决定。效度问题无法用技术手段检测,只能靠理论思辨和经验分析。只能用人脑判断的问题,无法委托给电脑。
第十四节
社会科学研究关于定序变量的约定
最小二乘回归(
OLS
)要求因变量是连续变量,默认的检验方法是
t
检验。社会科学研究经常把超过
7
个层级的定序变量或定距变量视为“等同”连续变量。使用计量方法,既要小心不违反特定方法的预设,也不必过分看重这些预设。
第十五节
条件期望
条件期望(
conditional expectation
),意思是在特定条件或情境下的预期值。理解这个概念,最简单的方法是设想一个二乘二表,例如雇员数据中“少数族裔”与“是否经理”构成的二乘二表。这个二乘二表有四个单元格,每个单元格的“预期值”取决于两个要素:一是零假设,二是边数。零假设是假设两个变量之间没有系统的关系。零假设是所有“预期”的根据,是普遍的,不是“特定条件”。但是,在雇员数据中,这个二乘二表的每个单元格的“预期值”,除了“零假设”,还取决于所在的那一行的“行边数”(
row marginal
)与所在的那一列的“列边数”(
column marginal
),即“白人员工中有多少经理”“白人员工中有多少非经理”“少数族裔员工中有多少经理”“少数族裔员工中有多少非经理”,这些边数就是条件。总的员工数不变,边数不同,单元格的“期望值”也不同。根据这些条件,再根据“零假设”,计算出的各个单元格的预期值就是有些晦涩的“条件期望”。计算公式是:行边数乘以列边数除以总数(
row marginal*column marginal/grand total
)。算出来的四个预期值,可以是频次,也可以是百分比,百分比就是“概率”。这样,条件期望值(
conditional expected count
)与条件概率(
conditional expected probability
)以及条件发生比,就好理解了。
第十六节
t
分布中的自由度
t
检验的自由度有两种情况。第一,如果根据一个样本估计总体的一个参数,例如根据样本一个变量的平均值估计总体的平均值,那么自由度是样本量减
1
,即
n-1
。比如,雇员数据的样本量是
474
,根据样本中雇员的平均年薪(样本统计值)估计雇员总体的平均年薪(总体参数),自由度是
474-1=473
。
第二,如果根据一个样本估计总体的
k
个参数,那么,
t
检验的自由度等于样本量减
k
,即
n-k
。比如,雇员数据的样本量是
474
,做多元线性回归,根据样本中雇员的教育程度与是否少数族裔对于雇员年薪的影响,估计雇员总体中教育程度与是否少数族裔对年薪的影响,是用两个样本统计值(教育程度与年薪的偏回归系数,少数族裔与年薪的偏回归系数)估计总体的两个参数,即
k=2
,自由度是
n-k
,即
474-2=472
。
自由度超过
20
,
t
值的分布就近似正态分布;自由度越大,
t
值的分布越近似正态分布。由于我们使用的样本一般在
1000
左右,而估计的总体参数一般不超过
10
,自由度一般有几百,所以做
t
值检验时一般不需要考虑自由度问题。这与分析定类变量与定序变量之间关系时使用卡方检验不一样,使用卡方值时需要注意自由度。顺便提一句,最大似然估计中使用“负二倍”,即
-2 loglikelihood
,作为测量回归模型“拟合优度”的指标,理由是“负二倍”的分布与卡方值的分布近似,这时也需要考虑自由度。