测量如何稳和准？

量化研究方法 · 公众号 · · 2017-06-07 23:39

正文

对属性的测量应该既有效（切实）（valid）,又可靠（reliable）。切实，指的是被测量的属性确实是想测量的属性；可靠，指的是测量结果经得起重复检验。测量是否既有效又可靠，首先取决于测量工具。用磅秤量体重，测量切实，因为磅秤是切实的称体重工具；用磅秤量身高，测量就不切实。用磅秤量体重，磅秤必须可靠。第一次站上去，70公斤，隔一分钟再站上去，还是70公斤，好，这磅秤可靠；第一次站上去，70公斤，隔一分钟再站上去，80公斤，不好，这磅秤不可靠。到市场买菜，用商家的秤称重，得到一个分量，用政府的市场管理部门提供的“公平秤”称，得到同样的分量，商家的秤可靠，标志着商家人品可靠。

这么简单的事，被有些人搞得很复杂。有些教科书把“validity”译成“效度”，把“reliability”译成“信度”，难以理解。把“validity”译成效度，有些离谱，英语的valid，在这个语境中的意思就是切实，跟中文的“效率”、“效果”，相距很远，不过至少不误导。validity，译成“切实度”比较好懂。不过，在这个语境下，约定俗成，沿用“效度”或“有效度”，无伤大雅，还显得有几分“高大上”。把“reliability”（可靠性、可靠程度）译成“信度”，就不是一般的离谱，简直是恶作剧，有故意误导的嫌疑，因为“信度”更接近“validity”。这样的译法，应该是出自不懂统计分析的人。如果出自专家之手，那么专家一定是想刺激他的读者学好英语。勉强从俗，代价未免太高。

与社会科学相比，自然科学的巨大优势是测量工具的有效度与可靠度都很高。可以说，自然科学的发展史，就是测量工具的有效度与可靠度不断提高的历史。相比之下，社会科学的测量工具还很原始，有效度总是有疑问，可靠度也没有保障。所以，用量化方法研究社会科学问题，固然要尽最大努力保障测量切实可靠，同时也要承认局限，不要表现得过于自信。要做到不过度自信，不妨从对问卷的称呼开始。用量化方法做社会科学科学研究，起点是对人的某些社会属性进行量化，量化就是做社会调查，也就是问一系列问题，这些问题放在一起，就构成一张问卷（questionnaire）。有些做定量分析的专家可能嫌“问卷”太平常，喜欢用术语，把问卷叫做“调查设备”或“调查工具”（survey instrument）。当然，称为设备、工具，比“问卷”更准确。不过，我第一次听到这个术语，没听懂，过了几分钟才反应过来。

社会科学研究中，测量的效度问题比较普遍，换言之，切实的测量工具不多。在我们能看到的社会调查数据中，性别，测量切实；年龄，除了遇到某些政府官员和运动员，测量基本切实；其他测量都很难说切实。比如，教育程度，以上学年数算，切实度就没有保障。这个人上了12年学、那个人上了10年学，哪个教育程度更高？上了12年学，教育程度不一定更高，他可能留级三年，实际上了9年。其他测量方法，比如，小学、初中，更是模糊。同样上9年学，文革期间是高中毕业，文革后变成了初中毕业。至于收入，可以说各种测量都不切实。张中行先生有篇文章讲北大录取学生，说作文给分最主观，一位先生给80分，另一位先生可能只给60分，为了公平，就请两位先生分别给分，然后平衡。给分不切实，计分时斤斤计较，这是考试中常见的现象。我们用计量方法做社会科学研究，最好掌握个平衡。一方面，分析时当然得斤斤计较。另一方面，不要太把分析结果当回事。例如，社会科学研究中的回归系数，精确到小数点后三位，甚至更多，就显得过分。我们写文章时不能不随俗，但要清楚自己是随俗，不是在汇报精确的研究结果。

测量所谓的“人口学背景”（demographic backgrounds）已经很困难，测量态度、信念、价值观念，要做到既切实又可靠，当然更困难。知难而上，正确的做法就是做好定性分析，尽量准确界定想测量的属性，实事求是在具体的文化语言情境内设计切实、可靠的测量工具（measures）或测量指标（indicators），就是问卷中的问题。先想清楚自己到底想测量什么，为了保证设计的测量指标切实测量自己想测的属性，还要认真琢磨问题的字面意义和深层意义。字面意义契合，深层意义不一定契合，因为深层意义取决于文化背景、政治环境、社会环境。在一个国家切实的测量指标，到了另一个国家可能不切实。

为了提高测量的切实度，有个好办法是做试调查。试调查就像调试设备。社会学、政治学问卷调查，有些问题是从国外的问卷中翻译过来的，更要认真调试，防止水土不服。有些学者，可能主要是为了在学科期刊发论文，喜欢借用欧美学者设计的问题，我对这个做法有保留。设计问题，最好还是根据定性研究，追求实质等值（substantive equivalence），比较有学术价值。追求字面意义等同（verbal equivalence），可能有利于发表文章，但发表的文章可能无人理会。如何取舍，见仁见智。

议论问卷设计，不举例子是空对空，举列子可能得罪人，我还是举个例子。有一张问卷有这么个问题：“我们想知道您对下面各种说法的意见，您是非常同意、同意、不同意、还是非常不同意？1）我觉得自己很有能力参与政治”。在美国，测的可能是内在政治效能感（internal political efficacy），就是觉得自己有参与政治的能力。但是，那个测量，假定了有选举、有竞选。觉得自己有能力参与政治，无非就是觉得有能力判断候选人是否能代表自己的利益、能去投票、能帮候选人拉票、能参选当候选人，参与政治，主要就是这些内容。拿到中国来，语境不同，语义也就不同。说实话，我不大肯定这个问题测的是什么。比如，一个普通农民，说他觉得很有能力参与政治，表达的固然是内在政治效能感，但也许还有其他内容，比如政治雄心（企图心）。如果不做具体分析，简单认为美国公民与中国公民对这个问题的相同回答不仅字面等同，实质也等同，得出的结论也许就不成立。