专栏名称: 政治学人

从这里开始自由的理解政治，自由的感悟政治。在这里为学术与公共生活搭建起平台。你的公民身份从这里再一次启程。

利维坦的潜在维度: 测量比较政治研究中的国家能力

政治学人 · 公众号 · · 2024-08-08 09:30

正文

国家能力一直是政治学关注的重要议题，国家能力对于经济发展、政治稳定、民主巩固等等具有重大影响，但是学者对于国家能力的定义和衡量方式存在分歧。本文从汲取能力、强制能力和行政能力三个维度来界定国家能力，并使用贝叶斯潜变量分析法，结合与这些维度相关的指标来估算全球各国家的国家能力，本文对于国家能力的估算具有良好的有效性，为国家能力研究提供了一个良好的指标。（政治学人编辑部）

乔纳森·K·汉森，密歇根大学杰拉尔德·福特公共政策学院讲师；

蕾切尔·西格曼，丹佛大学约瑟夫·科贝尔国际研究学院助理教授。

国家能力是政治学研究中的核心概念之一，人们普遍认为国家机构对经济发展、国内冲突、民主巩固和国际安全的结果具有重大影响。然而，这一研究领域的学者在国家能力的概念化和测量方面面临着共同的问题。本文探讨了这些概念性问题，确定了国家能力的三个核心维度，并预估这些维度是相互支持、相互联系的。随后，作者使用贝叶斯潜变量分析法，结合与这些维度相关的指标来估算国家能力。作者发现这三个维度之间存在紧密的相互关系，并得出了一种新的、通用的国家能力测量方法，其有效性已得到证明，可进一步用于广泛的实证研究。希望本文能为研究国家能力相关原因与结果问题的研究人员提供有效的指导与工具。

点击放大查看思维导图

文章来源：乔纳森·K. 汉森，蕾切尔·西格曼：《利维坦的潜在维度: 测量比较政治研究中的国家能力》，《国家研究》2023年第1辑。

彼得·埃文斯、特里希·鲁施迈耶和斯考切波在《找回国家》这一有影响力的书中指出，将国家视为一个行动者的研究旨趣正在学界兴起，近些年来这一态势也并未减退。人们普遍认为，国家机构对经济增长、人类发展、国内冲突、国际安全以及民主巩固等结果具有重大影响力，然而，随着将国家能力作为解释变量的理论不断涌现，国家能力的概念化也出现了分歧，这阻碍了我们对研究结果的比较和国家能力作用的理解。而进一步加剧了此问题的是，无论如何概念化，都很难从经验上对国家能力进行测量。

研究国家能力的学者们面临的一个核心问题在于，如何处理这一概念的多维性。尽管国家能力已有许多理论上的基本维度，但学界对这些维度之间在概念和实证上的相互关系仍知之甚少，从而导致了许多潜在的测量问题。首先，如果没有明确界定国家能力的基本概念，研究人员可能会选择一些与他们研究问题并不相关的维度和测量方法，或诉诸更广义的国家能力概念。其次，测量指标经常会和经济发展或政体类型等相关概念混淆。最后，许多国家能力衡量指标的地理和时间覆盖范围较小，可能会阻碍研究人员使用最佳衡量指标。

在本文中，我们从理论和实证两个方面应对这些挑战。首先，我们借鉴了国家能力领域内激增的文献，确定了现代国家最基本的职能，并概述了国家组织为了履行这些职能必须具备的三项核心能力。其次，我们利用一系列精心挑选的指标，使用贝叶斯马尔可夫链蒙特卡洛模型，将国家能力作为一个潜变量进行分析。结果有力地证明了这三个维度之间的相互关系，有效性检验也证明了这一变量在国家能力综合评估中的效用。

因此，本研究的核心成果是一种建立在国家能力产生于公认基本维度的相互联系这一理念之上的通用型实证工具。相较于这一领域中的其他工作，该估计方法在实证分析方面有两大优势。首先，该方法通过纳入与国家能力的多个维度相关的指标，比针对单一维度的度量方法更为全面。其次，通过对每个国家1960—2015年的政体数据进行年度评估，该方法相较于其他试图全面衡量国家能力的项目，涵盖了更长的时段和更广阔的地理覆盖范围。因此，这一评估方法适用于各类比较分析，尤其是战后和后殖民时代的跨国比较研究。

一

定义国家能力

在政治学及相关学科的文献中，“国家能力”一词的用法差异很大，而这种差异可能对国家能力作为一种“富有成效的分析概念”进行运用以及测量产生混淆。“国家能力”用法的复杂性还来自于大量与之密切相关，且具有国家属性的概念：国家力量、脆弱性、失效国家、有效性、效能、绩效、合法性、自主性、范围等。由于概念的使用范围之广泛，国家能力“仍然是一个需要精确定义和衡量的概念”也就不足为奇了。

我们认识到，许多著作从能够进行比较测量，并且避免与其他概念混淆这一角度出发，对国家能力进行定义，其核心思想都是国家能力意味着国家实施其目标或政策的能力。然而，在这一共识之外，对于“国家拥有这种能力意味着什么”这一问题，还存在两个关键领域的分歧：一个是对国家权力的性质的关切，另一个则涉及对国家能力进行评估的一系列职能的界定。在本节中，我们将探讨这些争论，并概述国家能力的定义，这一定义包含不同分析路径之间的交集。

国家能力包含国家权力，即一个行为体（国家）让另一个行为体（社会成员）做他们本不会做的事情的能力。与该领域的其他研究者一样，我们寻求一个既不与其他概念混淆的国家权力概念，也避免讨论何为合法行使国家权力的规范性信念。我们不妨从迈克尔·曼的基础性权力概念入手，即国家渗透社会并“在整个领域执行其政治决策”的制度性能力。

正如希勒尔·索伊弗所言，学者们从三个方面思考基础性权力：国家的物质实力、国家对社会的影响以及国家的领土性。在定义国家能力时，为了建立一个适用于比较研究的衡量标准，更有建设性的做法是关注国家组织结构中存在的能力以及这些能力的领域范围，而不是关注国家行动对社会关系和身份认同的影响。根据国家对社会的影响来评估国家能力，存在将“不部署国家权力的决定”与“无力部署国家权力的决定”相混淆的风险。此外，在政治科学研究中，上述结果往往是因变量。

国家能力包括国家内部的物质资源和组织能力，这独立于如何部署这些能力的政治决策。例如，吉登斯指出，“资源是权力行使的媒介”。同样，伦德瓦尔和特奥雷尔将国家权力描述为资金、人力和信息资源的获取。还有人直接聚焦于国家机构的组织和官僚能力，这种能力来自于资源与专业化。国家的领土范围同样是其能力水平的核心，我们注意到，涉及国家能力在次国家层面的差异的学术研究十分活跃。

最后，我们认为曼的专制性权力概念——“精英有权在不与公民社会团体进行制度化协商的情况下采取一系列行动”——与政治体制的特征和国家自主性问题密切相关，且这些特征和问题应该与国家能力概念区分开来。正如伦德瓦尔和特奥雷尔所言，国家能力发挥着所投射的权力的作用，在概念上也有别于社会参与政治决策的机制，即国家应该追求什么样的结果（如民主）；也有别于公民社会反击国家的力量。

定义国家能力的第二条文献脉络是：一个有能力的国家应该履行哪些职能？有能力做些什么？与这一问题相关的是，我们是否可以将国家能力视为与国家核心职能相关的一般性特征，或者是否需要采用某种分类方法。

在光谱的一端是根据国家最基本的特征和职能来定义国家能力的方法。例如，一些国家能力研究关注“国家性”概念，这涉及国家在多大程度上符合韦伯定义的在其领土上合法使用暴力的垄断权，有时候可与国家能力概念互换使用。这样的表述会掩盖现代国家的复杂性，使度量方法无法捕捉当代国家能力的重要变化。要研究现代、后殖民时代的国家，就必须认识到国家的预期角色不仅仅是建立对合法使用武力的垄断。

光谱的另一端则认为，国家的职能范围要广泛得多。该视角下的研究认为国家之手将在无形中影响一切，如经济体系的发展和维护，公共物品的提供以及司法行政。例如，贝斯利和佩尔松在其对国家能力的定义中包含了广泛的财政、行政、公共服务提供和法律能力。

概念和测量问题源自于上述范围争议。正如玛格丽特·列维所言，“好的分析需要区分国家的各种特征，以评估其相对重要性；国家变得小于其各个部分的总和”。据此逻辑，国家能力需要根据特定的功能或目标进行全面评估。斯考切波在其奠基之作中使用了“国家能力”的复数形式，指出了国家能力可能在不同政策领域或部门之间存在不均衡性。近期的实证研究探讨了国家内不同部门和地区间能力的差异，在这一观点的基础上进行了富有成效的拓展。

然而，在细分国家职能的基础上定义国家能力，可能会偏离“国家达成其目标的能力”这一核心理论重点，转而捕捉“国家内部以及国家与行动者之间就干预社会的程度、类型和形式进行协商”的结果。换言之，这些方法有可能将国家在特定部门或地区执行政策的能力问题与优先考虑这些职能的政治决策混为一谈。为此，福山区分了国家范围和国家力量，他解释到，美国国家的活动范围相对有限，但“在这个范围内，国家制定和执行法律和政策的能力非常强”。

为了进一步明晰概念，考虑到现代国家具备多种职能的现实，并促进跨国测量的可比性，我们在这些观点之间寻求一个中间地带。因此，我们将国家能力定义为国家履行现代国家公认所需的核心职能的能力，这些核心职能包括：抵御外部威胁、维护内部秩序、基础设施建设以及收入汲取能力。这种进路不仅规避讨论国家应该做什么的规范性问题，还避免了将能力与决策优先事项混为一谈，并为比较分析建立了一个可行的框架。它为如何测量提供了基础，该度量方法侧重于国家能力的关键维度，而不是将这一概念分解为愈发细微的职能角色。

二

国家能力的维度

即使关注的是国家的核心职能，所涉及的国家能力的理论维度仍然很多。这一系列潜在的维度引发了研究人员在使用这一概念和选择适当的度量方法时的困惑，同时引发了一个更大的问题：在如此众多的基本维度下，国家能力这一概念是否具有足够连贯性以便进行测量？在本节中，我们将讨论现有研究是如何处理国家能力的多重维度，并从众多维度中提炼出三个基础性的、相互区分的维度。在此基础上，我们考虑到这些维度之间相互作用的性质，并提出了“国家能力可作为位于这些维度交叉点上的潜在概念来测量”这一论点。

在对国家能力研究的文献回顾中，辛戈拉尼指出了学界至少使用了七个不同的维度来理解国家能力：强制能力、财政能力、行政/执行能力、转型/工业化能力、相关性/领土能力、法律能力和政治能力。我们在此基础上又增加了几个维度，并阐述了各种文献中大相径庭的术语。贝里克和克里斯蒂亚在另一篇综述中指出，研究人员在描述国家能力时往往只涉及他们在特定研究中的面向，不但导致了一系列令人困惑的维度，而且对具体维度与广义的国家能力概念之间的关系问题缺乏关注。

国家能力的多维性在文献中以三种基本方式出现。第一，许多方法或直接或间接地将这些维度视为彼此独立的方面。例如，阿尔伯特和梅纳尔多论证强制性能力会严重破坏民主化，因为它存在着有效镇压民主运动的可能。与此同时，在一项有关国家遵守国际人权条约的研究中，柯尔主张有且只有行政能力有助于有效执行此类条约。这类研究强调了以分解的方式测量国家能力及其维度的可取性。

第二，许多方法通过运用国家能力的单一维度，作为国家能力整体概念的有力代表。例如，许多研究指出，因为征税有赖于广泛的基础性能力，政府的征税能力能够很好地代表国家能力的整体水平。在近期其他的研究中，布兰博等人、达西、尼斯托茨卡娅和埃利斯以及Lee和Zhang制定了“可读性”和“信息能力”的衡量标准，指出信息作为国家的一种资源，在税收、征兵、促进增长和行政管理方面发挥着至关重要的作用。因此，这两组研究都表达了这样一种观点：国家能力存在某个关键的、支持并联系着其他维度的单一维度。

第三，其他方法将国家能力不同维度的相互关系进一步推进，将其视为一系列相互依存的基本要素，它们协同作用使国家能够履行更广泛的职能。蒂利关于欧洲国家建构的论述就体现了这一流派的精神，根据他的论述，捍卫和征服领土的需要推动了有能力加强税收、建设军队和提供公共产品的国家的发展。同样，贝斯利和佩尔松观察到国家财政和法律能力的发展的极强互补性，指出“对国家某一方面的投资强化了对其他方面投资的动力”。

我们注意到，对国家能力进行分类的实证努力产生了模棱两可的研究结果。例如，亨德里克斯区分了军事能力和行政能力的概念，但在因子分析中发现，军费开支等指标与高质量的官僚机构在同一维度（因子）上的负荷很大。在另一项研究中，福廷－里特伯格考察了以下两个维度之间的关系：基础性能力（结合了汲取能力和行政能力的指标）和强制能力。她的研究结果也指出了衡量这些维度，尤其是强制能力的难度。她发现，大规模武装力量在基础设施能力较低和较高的国家中分布相同，因此增加了区分这两个维度的复杂性。因此，我们认为，研究人员应该更加关注国家能力是否应该作为一个单一的概念来构思和衡量，或者思考聚焦于国家能力的具体维度是否会获得更多研究成果。

为了解决聚合问题，在遵循上一节的定义的同时，我们对国家能力分析的重点在于：（1）履行当代国家职能所必需的能力的最小值；（2）不同维度之间尽可能互斥。根据这些标准，我们确定了三个维度：汲取能力、强制能力和行政能力。这三个维度符合斯考切波所认为的“国家能力的普遍基础要素”；丰富的资源、对领土的“行政—军事”控制以及忠诚而富有经验的官员。

国家能力的汲取、强制和行政方面是现代国家的基本要素。增加税收收入不仅是国家支持自身所有活动的关键功能，还包括国家广泛行使其权力所依托的一系列特定能力。尤其是国家必须能够接触到其国民，收集并保存经济信息，任命可信赖的代理人管理税收，并以强制执行能力保证服从。诺斯将国家的边界定义为其税收机构可覆盖的范围，而列维和蒂利更是将国家税收与延续统治的可能性直接关联。经验表明，税收与财产权、国家的覆盖范围和国家可读性相关。

与汲取能力一样，强制能力也是国家概念的核心，特别是韦伯式的传统中将国家定义为在其领土内合法垄断武力使用权的组织。强制能力直接关系到国家维护边界、抵御外部威胁、维持内部秩序以及强制遵守法律的能力。为了履行其他职能，包括征税，国家必须拥有在其境内遏制威胁所需的武力，或者至少让政敌相信情况确是如此。虽然强制并不是维持秩序和唤起国民服从的唯一方式，但它却是国家赖以生存和施政的一个重要方面。

行政能力是一个涵盖面很广的维度，与国家在发展政策、提供公共服务以及规制商业活动等方面的组织能力息息相关。有效的政策执行是在有能力的国家代理人、技术能力、数据收集和记录保存、监督和协调机制以及有效深入国家领土与社会群体这些要素共同作用的结果。马克斯·韦伯尤其强调了职业化官僚在国家权威合法化确认、管理复杂事务以及确保效率方面的重要性。但是非韦伯式的官僚组织形式也能有效发挥作用。

因此，虽然人们可以通过基于不同的概念视角的维度有效地思考国家能力，但有理由相信，在实践中这些维度是相互建构和相互关联的。蒂利认为，正是对强制能力的追求促使国家领导人采用税收制度并提供公共物品和服务。例如格尔主张，强制能力涉及强制手段的制度化，这需要有能力的人员和国家机构的职能专业化。列维认为，有效征税的关键在于统计、监督和执行能力，而在现代国家，这往往需要以强制机器为后盾的税收机构。最后，正如费耶尔德和德·索伊萨所述：“政府依靠税收对军队、警察和官僚机构进行投入，这一投入反过来又促进政府累积权力，以进一步渗透和扩大国家统治。”

如果国家能力的强制能力、汲取能力和行政能力之间存在重要的联系，我们就应该预设它们在实证意义上具有相关性。这一逻辑为预测国家能力这一潜变量的方法提供了基础，而国家能力是由国家的汲取、强制和行政能力三者共同作用而产生的。这项调查结果有利于增进我们对国家能力的了解，如果国家能力的各个维度在实证上是不可分割的，那么聚焦于国家能力单一维度的研究事实上可能捕捉到了更广泛的现象。反之，如果国家能力的各个维度不能结合成一个更广泛的概念，研究人员就必须审慎选择那些能反映狭义概念的度量方法。

三

度量方法和挑战

作为一个潜在概念，国家能力（或其基本层面）是无法直接观察到的，但它与一系列指标相关联，我们可以据此了解有关国家能力水平的信息。在本节中，我们将考虑与上述三个维度相关的指标。对于每个维度，我们都讨论了一系列可能的度量方法并解释我们对指标的选择。

我们采用以下标准来决定将哪些指标纳入潜变量模型。首先，我们考虑的是与国家能力三个核心维度的概念吻合度，避免与其他概念过于重叠的指标。其次，我们的目标是收集足够的信息以便捕捉大量国家在50年来国家能力的变化，因此我们寻求广泛的地理和时间跨度。最后，我们避免使用综合指数，因为它们可能包括我们模型中单独使用的指标或与其他概念联系更紧密的指标。

（一）汲取能力指标

汲取能力的测量通常有两种方式。首先，许多研究者使用政府税收数据来衡量国家能力。大多数国家的税收数据始于20世纪70年代初，通常来自国际货币基金组织的《政府财政统计》，不同类型的税收数据通常以原始金额、占GDP的比例或占总税收的比例表示。正如李伯曼所解释的，在选择符合特定目的的收入指标时需要考虑诸多因素。

例如，总收入对于汲取能力来说是一个噪声指标。对于汲取能力相对较高的国家，税收水平反映的是政策选择而非汲取能力。此外，不同类型的税收在管理复杂程度上也有很大的差异。正如李伯曼、罗杰斯和韦勒所主张的，最有可能反映国家能力相关概念的收入来源包括所得税、财产税和国内消费税。与其他税收来源相比，这些税收在管理上更为复杂，需要更高级别的记录保存、透明度和更复杂的行政机构。其次，国际贸易税则更容易征收，而且像从矿产资源中收取租金一样，并不需要更强的执法能力。在某些情况下，研究人员试图评估有关预期收入的税收额。虽然这种“相对政治能力”的度量方法在某些应用中非常有效，但我们认为它在概念上不同于国家能力，并且在实证检验中发现它的相关性很弱。

我们通过以下两种路径测量财政收入数据。首先，我们使用税收总额占GDP的比重反映总体汲取能力。基于李伯曼的观点，我们排除了非税收收入。其次，我们认为税收收入的总和——尤其是所得税和贸易税——提供了有关国家汲取能力和行政能力的信息。在税收水平一定的情况下，所得税在税收中的占比越高，预期的行政能力水平就越高，贸易税在税收中的占比则应该与此相反，因为贸易税就其管理方式而言易于征收。因此，我们用税收收入（而非税收占GDP的比例）中所得税和贸易税的占比来衡量国家向外界汲取的行政能力。

我们还将专家编码指标纳入指标体系，如世界银行的国家政策和体制评估对税收动员效率的评级。根据科普奇等人的研究，我们使用了国家财政能力的衡量指标，该指标反映了国家通过行政程序上更复杂的税收，为自身提供资金的能力。最后，我们假设一些在逻辑上与强制能力和行政能力相关的指标也将提供有关汲取能力的信息，如国家收集公民信息的能力与汲取能力相关，我们将在下文中详细讨论。

（二）强制能力指标

为了测量强制能力，研究者可能会将注意力转向军事规模或复杂程度，以及被认为有助于维护国家秩序的因素。有关军事开支、军事人员和安全部队的数据可从世界发展指标、斯德哥尔摩国际和平研究所以及战争关联项目数据库中获得。1960年至今，这些测量方式在大多数国家的覆盖范围广泛、可靠性高。然而，强制力和一个国家的强制能力之间的关系并不一定是直接的。尽管也有一些国家仅靠少量军队或没有军队就能维持秩序，但有能力维持秩序的国家可能拥有高效的军队和/或安全部队。此外，庞大的军事力量可能是战争或危险的征兆，这两种情势都可能损耗国家能力。我们使用每百万人口军事支出的对数值和每千人口中军事人员的数量作为军事能力指标。我们还采用了联合国毒品和犯罪问题办公室提供的警察部队规模指标。

鉴于人员或支出相关指标的潜在问题，我们还纳入了由专家编码的其他强制能力指标。根据贝塔斯曼转型指数，我们采用了一种评估国家垄断使用武力程度的指标。我们还采用了政治风险服务中的国际国家风险指南对“法律与秩序”的评级，以评估法律体系的力量和公正性以及民众遵守法律的程度。

另外，有两个指标通过反映国家在疆域上的制度化水平或在领土上的存在程度（即国家性）来体现强制能力维度。首先，我们使用多样民主数据库的国家领土权威指标来衡量中央政府控制的领土比例。其次，我们扩展博克斯特特、昌达和普特曼开发的古代国家指数，对另外27个国家进行编码，以反映1950年后的领土和主权的变化情况。这一度量方法基于表明国家在其领土上的历史根源重要性的研究成果。

（三）行政能力指标

由于行政能力是国家能力的一个广泛的维度，因此有许多不同的衡量方法。首先，衡量行政能力的一种常见方法是考察公共产品和服务提供的结果，如小学入学率、婴儿死亡率或识字率。这些衡量标准因其覆盖面广和可比性而具有吸引力，但根据此类衡量标准来评估行政能力会带来一些问题。首先，如上文所述，一个国家可能不会优先考虑所测量的具体结果，如入学率、健康水平或基础设施。其次，因为这些类型的结果与经济发展、政治制度的性质或参与有政策条件的国际项目密切相关，使用这些测量标准可能会带来分析杠杆。

在行政能力指标中，最受欢迎的两个指标是全球治理指标的政府效能评级和国际国家风险指南的官僚质量评级。这两项标准都受到了严格审查。一方面，WGI经常因其聚合程序以及模糊不同政府治理指数的分析界限而受到批评。在我们的案例中，使用WGI分数将是重复的，因为其组成指标集与我们使用的其他指标重叠。另一方面，ICRG的官僚质量评级可能出现基于分析人员对经济或社会结果的主观看法而非源自官僚质量本身的测量误差。不过，我们还是将ICRG的官僚质量评级纳入了我们的分析，因为它是为数不多覆盖面相对较广、侧重于官僚机构实力（包括招聘和培训机制）的衡量指标之一。我们预计在测量过程中各成分指标中会出现一些干扰项。

我们还纳入了不同来源的行政能力衡量指标：行政效率、韦伯式科层制指数，以及世界银行CPIA指数对预算和财务管理质量以及公共行政质量的评级。虽然这些指标所涵盖的时间都不长，但这些指标的组合覆盖了1960—2015年中的大部分时间。最后，我们纳入了由V-Dem开发的衡量公共行政公正性的指标，该指标基于专家对公职人员遵守法律的程度的调查评级。

此外，我们还纳入了一系列旨在衡量各国信息收集能力的指标。首先，我们利用美国人口普查局提供的国家人口普查频率。正如森特诺和索伊弗所指出的，能够进行人口普查的国家不仅有能力收集，而且还具有更高的领土覆盖率。这些数据涵盖了173个国家在1960—2015年的人口普查频率。其次，我们使用布兰博开发的信息能力衡量指标，该指标涉及一个国家是否拥有统计机构、民事登记机构、人口登记机构，以及其编制人口普查和统计年鉴的能力，该指标涵盖了1960—2015年的70个国家。最后，我们纳入了世界银行的统计能力衡量指标，该指标从2004年至今每年对多达139个国家的统计系统的广泛性进行评估。

（四）总体指标

我们总共采用了21个与国家能力的三个关键维度相关的指标（见表1）。这些指标时间跨度达56年，涉及163个国家，共有94135个数据点。在99%的“国家—年份”数据中，至少有6个指标是存在的，指标数量的中位数为12个。通过潜变量分析法，我们可以利用这些对相同基本概念的多重测量，来了解产生观测指标的潜在参数的分布情况，这与评估民主和治理的度量方法类似。

四

潜变量分析

我们采用了文森特·阿里尔－邦多克和梅巴内开发的潜变量估计法，该方法使用贝叶斯马尔可夫链蒙特卡洛技术来识别潜在因子。该技术以李的早期工作为基础，与传统因子分析相比具有许多优势，包括对缺失数据的稳健性。通过整合多种来源的国家能力指标，我们试图提供“Polity数据集”中出现的所有国家从1960—2015年的国家能力年度测量指标。

具体而言，i国在时间t上的每个观测指标x_k是J个潜变量和干扰项ε_k的线性函数：

在方程式（1）中，ξ_jit是时间t中i国国家能力第J个维度的潜在值，是第J个维度对观测指标x_k的线性效应。因此，总的来说，各类观测指标是以下指标的线性函数：

在每个维度上测量国家能力的潜在值都存在一定误差。由于有k个观测值是在多个国家的多个年份中测量的，因此我们有多个数据点来获得潜在参数的后验分布的潜在参数，并将标准正态先验分配给潜在因子。截距c_k具有独立的扩散正态前验，扰动项ε_k具有独立的均值为零的均匀前验。一般来说，每个λ_kj都使用扩散正态前验。

为便于识别，在分析中，J个维度中的每个维度的参数λ_kj都固定为1。在这些情况下，截距c_k被固定为0。此外，截断（阳性）正态先验被用于促进识别，因为我们有强烈的先验假设，即给定指标x_k和代表能力的参数ξ_j之间是正相关的。在我们的主要模型（J=1）中，截断正态先验适用于以下情况：人口普查频率、古代国家指数、所得税、韦伯式科层制、世界银行的统计能力指数、信息能力、V-Dem公共行政衡量标准、PRS法律与秩序以及阿德尔曼和莫里斯的行政效率评级。

MCMC是通过Ｒ语言中的软件包rjags在JAGS中实现的。该算法在方程式（1）所代表的方程组指定的参数空间中进行抽取，连续抽取会产生对其余参数后验分布的描述，从而获得可观测的国家能力指标。典型的MCMC运行包括5个链，适应阶段为5000次，磨合阶段为10000次迭代，采样阶段为5000次迭代。样本稀释度设置为5，以缓解内存/存储限制。

为了测试这三个理论维度是否能独立地在数据中体现出来，我们进行了多次分析，维度J的数量从1到3不等。选择特定维度数量所得出的参数估计与我们所描述的理论维度可能不存在特定的关系。与传统的因子分析一样，我们将依靠分析那些与结果参数相一致的指标来解释该维度。一种可能的情况是，每个连续的维度都能捕捉到观测指标中更多的边际变化，而不是清晰的维度。

五

隐变量分析结果

在重复测试中，我们发现一维模型（J=1）是唯一能持续收敛的模型。试图识别第二或第三维度的尝试没有取得成果。通常情况下，不同的序列都无法收敛。然而，某些参数的后验分布会表现出很强的非正态性。当MCMC程序无法为各种参数生成静态分布时，就会出现这些结果。换句话说，给定一组特定的观测指标，以及与这些指标相关联的多个国家能力维度的说明，该程序不会产生这些维度中不同国家能力水平的相对概率信息，以及将水平与观测指标相关联的参数信息。因此，在接下来的章节中，我们会展示反映单一潜在维度的结果，将其称之为“综合能力”。

因此，我们认为研究结果与理论假设是一致的，即国家能力的汲取、强制和行政方面虽然在表面上截然不同，但事实上是相互关联的。汲取能力既支持强制能力，又能提供维持复杂的行政官僚体系所需要的资源。同样，缺乏强制力和行政能力的国家很可能发现汲取税收将变得举步维艰。最后，尽管国家可以采取多种形式进行强制，其中有些形式非常简易，但一个组织严密、层级复杂的强制机构会为国家的压制权力提供便利。这些相互关联性使我们很难根据经验将国家能力分解为不同的维度，这一点在过往文献中已有提及。

六

探索整合度量

作为一个处于国家能力核心维度交集处的隐变量，“综合能力”比以往只关注单一指标或维度的研究更全面地覆盖了这一概念。此外，与战后和后殖民时代研究中最常用的国家能力一般指标相比，“综合能力”预测值的覆盖范围更广，共有8254个观测值。因此，该指标可以填补涉及国家能力的跨国比较研究的一个重要空白，特别是在大样本分析方面。“综合能力”测量的结果范围为从－2.31到2.96，平均值为0.26，标准差为0.95。

为了解哪些因素影响了对“综合能力”的评估，我们首先考察了其与测量方法中观测指标的相关性，如表2所示。总体而言，“综合能力”似乎是衡量国家能力的通用指标，它集三个理论性维度指标所长。

与“综合能力”相关性最高的是世界银行的“统计能力”指标（r=0.83）、PＲS的官僚质量指标（r=0.81）、V-Dem的严格和公正的公共行政管理（r=0.80）、PＲS的法律和秩序评估（r=0.77）、CPIA的公共行政质量评价（r=0.74）、BTI的垄断使用武力层级评价（r=0.74）以及V-Dem的国家财政能力指标（r=0.73）。大多数指标与“综合能力”的相关性达到0.5或更高（贸易税的相关性低于－0.5）。

与“综合能力”相关性最低的是与军事和警力有关的指标。由于其他衡量强制能力的指标与“综合能力”密切相关，因此这种“低相关”现象似乎也只限于国安人员领域。以下几种解释具有一定可信度：首先，“综合能力”衡量标准忽略了国家部署安保人员所产生的强制力。其次，弱国家或卷入冲突的国家的统治者往往会扩大其安保部队以应对这种弱点，从而进一步削弱这种关系。最后，重要的不是安保人员的数量，而是以其行政组织或技术先进性衡量出的能力水平。

七

有效性检验

为了使模型运转良好，覆盖国家越广泛与时间跨度越长越好。我们的目的是研究对“综合能力”的度量方法是否符合预期，以及它是否有助于研究国家能力的理论问题。借鉴阿德科克和科利尔麦克曼等人（即将出版）以及西赖特和科利尔的经验，我们从表面效度、内容效度、收敛效度和名义效度等方面对新的度量方法进行了研究。

图1显示了2015年各国“综合能力”后验分布的平均值和标准差的降序排列。从表面效度来看，我们可以预测国家能力强的国家得分较高，而那些正在经历或最近经历过战争的国家或弱国家得分较低。新加坡跻身“综合能力”得分最高的25个国家之列，这帮助我们理解到这些测量方式捕捉到了与能力本身更接近的概念，而不是民主治理问题。在得分较低的国家中，我们看到索马里、也门和中非共和国这些或陷入冲突，或缺乏国家结构，或两者兼而有之的国家。

利维坦的潜在维度: 测量比较政治研究中的国家能力

正文

请到「今天看啥」查看全文