对蒙昧未开的幼儿、未经世事的少年来说,好奇无疑是把双刃剑,既驱动他们探险求知,也可能让他们遭遇危险。然而,一旦常识已有根基,阅历足以自保,好奇心就成了人生最稀缺、最宝贵的资源。对成年人而言,英语的“好奇心害了猫”(curiosity kills the cat)只是句俏皮话,造成伤害的,十有八九是貌似好奇的贪、嗔、痴,甚至愚昧,不是“老顽童”的纯真好奇。天资相同(用统计行话说:控制住天资!),好奇心的有无、多寡、强弱、短长,是切实可靠的指标,标示精神力量的大小,正是这力量,驱动人的智力成就在正态分布线上滑动。
听人讲到“数据库”,在电脑屏幕看到数据库,在计量实验室看到电话簿一般厚的“编码本”(codebook),平平的好奇心,也会刺激出一系列疑问。当然,有疑问是一回事,能否克服虚荣,出口发问,另当别论;忍不住发问,能否得到可以听懂的回答,更须另当别论。我比较虚荣,当然也许只是内向,很少问人,但常常问自己。下列问题,都曾令我大惑不解:什么是数据?“数”和“据”放在一起是什么意思?data不是材料、素材吗,怎么变成数据了?data是复数,为什么不用单数datum?单数的datum(数据点)是什么?罗素的逻辑经验主义有个关键术语,sense data(感觉材料),能不能译成“感觉数据”?什么是数据库?数据库的“库”是超市仓库的“库”、图书馆书库的“库”,还是堆放矿石的露天仓库的“库”,或者干脆是“矿”而非“库”?电脑屏幕上的数据库,纵横交错的格子里密密麻麻都是数字,怎样才能看懂它(how to make sense of it)?
SPSS及其雇员数据
方法论讲起来很热闹,听起来很好玩,但是如果不实际应用,就只是看热闹,学不会。很多研究方法,就像数学,一听就懂,一做题就错。学游泳,不管教练多么高明,只听讲,不下水,永远学不会;学做菜,不管师傅多么开明,只听讲,不下厨,永远学不会。学统计分析,像学游泳,也像学做菜。关于统计分析的视频课不少,但只相当于电视上的厨艺节目;书店里系统的统计教材很多,但也只像琳琅满目的菜谱。本书的最高范本,是陆文夫先生的《美食家》,用文字调动馋虫,让馋虫驱动好美食的人下厨。要学做菜,得亲自下厨,真刀实料,做好了,自己先品尝。这一章介绍的,一是SPSS统计软件,是装备齐全的厨艺工作坊,锅灶俱备,炊具齐全,菜谱(recipe)完备;二是SPSS自带的一个数据,相当于食材。
SPSS是缩写,全称是Statistical Package for the Social Sciences,为社会科学量身定做的的统计软件包。在流行的统计软件里,它最早采用Windows介面,易学好用。当然,因为容易学,常被以专家自居的人认为是业余水平的工具。对此,我不介意,业余水平,也是很高的水平,票友的水平,未必比专业差。我讲课,一直用SPSS。除了图省事,也有理论根据:无论学什么,除非是超天才,像莫扎特那样出手不凡,否则总是先业余,后专业。一开始就以“专业人士”自居,摆出“专家”姿态,是自套枷锁,自讨苦吃。有的学生把SPSS叫做“斯巴思”。这个名字好,德语词Spaß(施巴斯),意思就是好玩、乐趣、开心,跟英语的fun等同。当然,开会或者写论文,不妨声称自己是使用Stata,甚至R。统计软件,越难学的越灵活,越好学的越死板。专家用户喜欢Stata,因为它内码开放,用户可以自己写程序,还可以卖程序。有的老师喜欢用很专业的软件教初等统计分析,我有保留。我看过一个中央电视台的书法节目,有个书法家用《九成宫醴泉铭》讲欧体楷书,开篇就讲一个“青”字写得不规范,很怪诞,显然是玩深沉。
SPSS的中文教程很多,都能用,都不简明,让人头大。SPSS的英文用户手册更吓人,十来个软件包,每个软件包一本手册,每本编写得像百科全书,面面俱到,包罗万象,像原始森林,漫无目标地探索,很容易迷路。这一章提供一张SPSS主要功能的极简图。自学统计分析,务必以实用为导向,需要什么,就学什么;不妨遵循林副主席的教导:“急用先学,立竿见影”,其他一概忽略不计。学研究方法,实用主义是不二法门。微软的WORD,超过90%的功能,是我们平常不用的。用文艺点儿的话说,对待任何方法,都得认真兑现宝玉对林妹妹的承诺:“任凭弱水三千,我只取一瓢饮。”
SPSS是完整的统计软件,录入数据、转变数据、分析数据、制作图表,各种功能应有尽有,包打天下。SPSS的菜单跟微软的WORD(Microsoft Word)非常接近,最左边的选项是“文件”(file),“文件”下第一个选项是“新建”(new),又有四个子选项:第一个是“数据”(data),第二个是“句法”(syntax),即指令,第三个是“输出”(output),就是分析结果,第四个是“脚本”(script)。毫不奇怪,这里有个术语障碍。搞专业的人喜欢给非专业的俗人(layman)立障碍、设绊子,好像生怕别人掌握自己的专业知识。syntax在英文里指句法,这里指“命令”或“指示”。(Stata把指令命名为do file,操作文件,比较好懂)。至于script指什么,我现在也不清楚,从来没用过。结论:专家求严谨,创造“黑话”,我们只求会用,要把术语转换成日常语言,把“黑话”变成“白话”。
第一,新建数据文件,就是录入数据(data entry),说得堂皇些,就是构建新数据库。选择“data”。先输入变项信息,例如,受访人编号:ID。变项信息包括“名称”、“类型”、“标签”、“值”、“缺失”、“测量”等信息。温馨提示:构建新数据库(以及每次转变数据),要耐心细致地把这些后台信息准确完整地输入,不能马虎,否则真正做数据分析时很容易出问题,浪费很多时间。这些信息里面最重要的是变项名称,要简明易记。不要拖延,一拖就忘,忘了再回忆,事倍功半。做计量分析,千头万绪,千万不要过分相信自己的记忆力。
把全部变项信息输入完以后,开始根据问卷调查结果和编码,逐一输入收集的信息。例如,第1号受访人:1。“1.00”看起来有点怪。SPSS默认精确到小数点后两位,可以在变项视图修改。
数据录入很容易出错,所以需要清洗数据(data cleaning)。检查数据是否干净,最简便的办法就是看看频次表,看有没有异常值。发现异常,就得查找原始问卷核对。大型调查,往往找很多人分别录入数据,最后要“合并文件”(merge files),需要格外小心。我有次帮朋友分析数据,觉得结果很怪诞,怀疑是数据合并时出了错,复核了一下,果然有错。
第二,已经建好的数据文件,有两个视图。SPSS有个自带的雇员数据,很简单,很好玩。雇员数据(Employee Data)在这里。
数据库分前台与后台。data view,数据视图,相当于前台,SPSS程序读的是这些数字,计算机只懂得数字。从左往右看,每一行记录一个案例(case),也就是一个个体,或客体,或主体,或对象,SPSS称之为观测或观察(observation)。从上往下看,每一列记录一个variable,变项。这个数据是雇员数据,从左往右的一行,是一个雇员(非雇主),记录了九个属性,性别、年龄、教育程度、工作岗位,等等。这九个属性,构成一个观察,一个个案。
变项视图,variable view,相当于后台信息,告诉我们数据库的数字到底是什么意思,是研究者的备忘录。
第三,转变数据(data transformation),相当于做菜时切菜。重新编码,取对数,算平方,都是切菜。把数据库比作数据矿,开采出的原矿石如果块儿太大,冶炼前得先打碎。把数据分析比作做菜,做菜还讲刀工,把菜切好。切法很多,每个切法都有菜单。最常用的是“重新编码”(recoding)。例如,设计问卷时,为了避免“引导”应答人,问:“你对这个事情是很满意、满意、不满意、还是很不满意”。为了减少数据录入出错的概率,把四个答案依次编号,1,2,3,4。但是,分析数据时,我们关心的是满意度,按照我们习惯的思维方式,关心满意度,那么最大数字就标记最满意。这时,可以重新编码,把原来的编码颠倒过来,把1,2,3,4,分别改为4,3,2,1。信息没有变,处理的时候不容易把自己绕进去。两个温馨提示。第一,保留原来的数据,尽量不要使用“recode into same variables”,因为这个功能会覆盖原始数据。原始数据务必单独保存,所以,覆盖了也不是世界末日,不过,还是尽量避免麻烦,使用recode into different variables。第二,及时更新变项标签等后台信息。计算新变项(compute variable)也常用,例如,数据中有年龄这个变项,为了检验年龄与某个因变量是否曲线相关,要用年龄的平方,这时候用“计算”来生成一个新的变项。举个具体例子,人从小到老,从零岁到一百岁,需要的关照量跟年龄是U形曲线相关:很小时,需要很多照顾;在一个转折点前,年龄越大,需要的照顾越少;但是,过了某个转折点,年龄越大,需要的照顾越多。构建简单相加量表(simple summation index)时,也需要用“计算新变项”这个功能。
第四,graphs,制图。第一个选项是“图构建程序”(chart builder)。还有一个是“遗产对话”(legacy dialogs),就是较早版本的制图菜单。新版本的菜单功能强大,自然就比较啰嗦。SPSS比较体谅年龄大、不愿意学新东西的用户,比如本人,把这些画图命令保留下来了。当然,称其为legacy,也许不无调侃之意。