对属性的测量应该既有效(切实)(valid),又可靠(reliable)。切实,指的是被测量的属性确实是想测量的属性;可靠,指的是测量结果经得起重复检验。测量是否既有效又可靠,首先取决于测量工具。用磅秤量体重,测量切实,因为磅秤是切实的称体重工具;用磅秤量身高,测量就不切实。用磅秤量体重,磅秤必须可靠。第一次站上去,70公斤,隔一分钟再站上去,还是70公斤,好,这磅秤可靠;第一次站上去,70公斤,隔一分钟再站上去,80公斤,不好,这磅秤不可靠。到市场买菜,用商家的秤称重,得到一个分量,用政府的市场管理部门提供的“公平秤”称,得到同样的分量,商家的秤可靠,标志着商家人品可靠。
这么简单的事,被有些人搞得很复杂。有些教科书把“validity”译成“效度”,把“reliability”译成“信度”,难以理解。把“validity”译成效度,有些离谱,英语的valid,在这个语境中的意思就是切实,跟中文的“效率”、“效果”,相距很远,不过至少不误导。validity,译成“切实度”比较好懂。不过,在这个语境下,约定俗成,沿用“效度”或“有效度”,无伤大雅,还显得有几分“高大上”。把“reliability”(可靠性、可靠程度)译成“信度”,就不是一般的离谱,简直是恶作剧,有故意误导的嫌疑,因为“信度”更接近“validity”。这样的译法,应该是出自不懂统计分析的人。如果出自专家之手,那么专家一定是想刺激他的读者学好英语。勉强从俗,代价未免太高。
与社会科学相比,自然科学的巨大优势是测量工具的有效度与可靠度都很高。可以说,自然科学的发展史,就是测量工具的有效度与可靠度不断提高的历史。相比之下,社会科学的测量工具还很原始,有效度总是有疑问,可靠度也没有保障。所以,用量化方法研究社会科学问题,固然要尽最大努力保障测量切实可靠,同时也要承认局限,不要表现得过于自信。要做到不过度自信,不妨从对问卷的称呼开始。用量化方法做社会科学科学研究,起点是对人的某些社会属性进行量化,量化就是做社会调查,也就是问一系列问题,这些问题放在一起,就构成一张问卷(questionnaire)。有些做定量分析的专家可能嫌“问卷”太平常,喜欢用术语,把问卷叫做“调查设备”或“调查工具”(survey instrument)。当然,称为设备、工具,比“问卷”更准确。不过,我第一次听到这个术语,没听懂,过了几分钟才反应过来。
社会科学研究中,测量的效度问题比较普遍,换言之,切实的测量工具不多。在我们能看到的社会调查数据中,性别,测量切实;年龄,除了遇到某些政府官员和运动员,测量基本切实;其他测量都很难说切实。比如,教育程度,以上学年数算,切实度就没有保障。这个人上了12年学、那个人上了10年学,哪个教育程度更高?上了12年学,教育程度不一定更高,他可能留级三年,实际上了9年。其他测量方法,比如,小学、初中,更是模糊。同样上9年学,文革期间是高中毕业,文革后变成了初中毕业。至于收入,可以说各种测量都不切实。张中行先生有篇文章讲北大录取学生,说作文给分最主观,一位先生给80分,另一位先生可能只给60分,为了公平,就请两位先生分别给分,然后平衡。给分不切实,计分时斤斤计较,这是考试中常见的现象。我们用计量方法做社会科学研究,最好掌握个平衡。一方面,分析时当然得斤斤计较。另一方面,不要太把分析结果当回事。例如,社会科学研究中的回归系数,精确到小数点后三位,甚至更多,就显得过分。我们写文章时不能不随俗,但要清楚自己是随俗,不是在汇报精确的研究结果。
测量所谓的“人口学背景”(demographic backgrounds)已经很困难,测量态度、信念、价值观念,要做到既切实又可靠,当然更困难。知难而上,正确的做法就是做好定性分析,尽量准确界定想测量的属性,实事求是在具体的文化语言情境内设计切实、可靠的测量工具(measures)或测量指标(indicators),就是问卷中的问题。先想清楚自己到底想测量什么,为了保证设计的测量指标切实测量自己想测的属性,还要认真琢磨问题的字面意义和深层意义。字面意义契合,深层意义不一定契合,因为深层意义取决于文化背景、政治环境、社会环境。在一个国家切实的测量指标,到了另一个国家可能不切实。
为了提高测量的切实度,有个好办法是做试调查。试调查就像调试设备。社会学、政治学问卷调查,有些问题是从国外的问卷中翻译过来的,更要认真调试,防止水土不服。有些学者,可能主要是为了在学科期刊发论文,喜欢借用欧美学者设计的问题,我对这个做法有保留。设计问题,最好还是根据定性研究,追求实质等值(substantive equivalence),比较有学术价值。追求字面意义等同(verbal equivalence),可能有利于发表文章,但发表的文章可能无人理会。如何取舍,见仁见智。
议论问卷设计,不举例子是空对空,举列子可能得罪人,我还是举个例子。有一张问卷有这么个问题:“我们想知道您对下面各种说法的意见,您是非常同意、同意、不同意、还是非常不同意?1)我觉得自己很有能力参与政治”。在美国,测的可能是内在政治效能感(internal political efficacy),就是觉得自己有参与政治的能力。但是,那个测量,假定了有选举、有竞选。觉得自己有能力参与政治,无非就是觉得有能力判断候选人是否能代表自己的利益、能去投票、能帮候选人拉票、能参选当候选人,参与政治,主要就是这些内容。拿到中国来,语境不同,语义也就不同。说实话,我不大肯定这个问题测的是什么。比如,一个普通农民,说他觉得很有能力参与政治,表达的固然是内在政治效能感,但也许还有其他内容,比如政治雄心(企图心)。如果不做具体分析,简单认为美国公民与中国公民对这个问题的相同回答不仅字面等同,实质也等同,得出的结论也许就不成立。