摘要
:
数据区域化允许对总体进行空间推断。
必须更新统计区域以考虑人口变化,但此更新过程比从头开始的区域化更具限制性和迭代性。
这就需要一种算法解决方案,最大限度地减少人口驱动的区域化中人的参与。新方法必须满足基本的区域化标准——连续性、紧凑性、同质性、等数性和时间一致性。我们提出了一种新颖的验证指标来评估基于这些标准的分区质量。
我们开发了一种新颖的混合聚合算法(HeLP),结合了分层和图论方法的元素,其主要目的是重新分区。
该算法的平均计算时间复杂度为Oðn log nÞ
。
HeLP 在模拟数据和澳大利亚统计地理标准上进行了测试。
该方法可以成功地模拟人类操作员,在重新分区基于地块的系统(例如地籍)中提供具有统计意义的结果。
CONTACT:
[email protected]
研究背景
本研究提出了一种新颖的算法 (HeLP) 以及随附的验证指标,用于自动重新分区基于宗地(例如地籍)的空间框架。
虽然有很多算法可以从头开始进行区域化,但更新过程的自动化仅在选举区的背景下完成。
基于地块的系统的重新分区仍然主要是手动过程。我们在第 2 节中提供了详细的讨论。
我们的方法将“主题单位”的社会学概念引入到区域化空间中,作为构建块地理和输出区域,这是当前可用的方法未考虑的。
进行数据区域化是为了对特定群体进行推断。因此,统计区域需要定期更新,以适应城市发展和人口增长,同时在未发生增长的情况下保持结构完整性(尊重现有边界),因为这可以实现准确的推论统计分析。这种“
时间一致性
”的做法是一些国家的既定方法。更新过程或维护统计区域只是重新评估构建块地理到特定统计区域的成员资格的过程,方法是将当前区域划分为更小的部分或将区域合并在一起。我们将这个过程称为“
空间分区
”。空间重新分区通常是手动的,本质上更受限制且迭代,而不是创建一个全新的方案,并且它是一个重要的过程,因为它可以影响任何后续的数据聚合,如以及不同国家框架之间的限制分析和比较。
由于生态谬误 、可修改的面积单位问题或学区边界问题等问题,不良的区域化可能会导致推理偏差。
现实背景
区域化的一个首要问题是缺乏国际共识、国家特定要求,甚至机构特定要求,以及当代方法在很大程度上缺乏透明度。
针对被认为是“最佳”区域的特定研究专家的参与。在澳大利亚,澳大利亚统计地理标准 (ASGS) 每 5 年更新一次,与人口普查一致,而在美国,每 10 年更新一次。国家框架之间的差异在于关于统计区域构成的决定。在丹麦或芬兰等国家,统计区域由形成国家网格系统的常规 100 m 单元组成,在美国,它是人口普查区,而在澳大利亚,最小的统计区域是一个网格块由严格选择的地籍地块作为其构建块地理组成。地籍的目的是对新的或变更的合法地块边界进行定义、识别、标定、测量和测绘。每个有界的合法地块都被定义为“一个连续的区域,或者更恰当地说是体积,由一组独特的同质产权来标识”。这些构成要素的差异以及区域应表现出的特征是国家统计机构持续存在的问题,因为它限制了国家之间的数据分析。
聚类标准
空间科学学者就最佳统计区域应表现出哪些属性达成一致,以支持无偏见的统计分析
。第一个标准是空间连续性。
第二标准是(人口的)等数性
,因为由于保密性的原因,必须汇总数据,从而防止发布个别家庭人口普查记录。
第三个标准是几何紧凑性
,要求区域的形状应尽可能类似于圆形,因为高度不规则的多边形形状会表现出负面特征。
第四个重要标准是土地利用的同质性,
更好、更简单的策略是选择同质性作为区域化的唯一基础,因为其他紧凑性和等数性标准不具有严格可比性。
第五个是“时间一致性”
,或者尊重先前的边界。这意味着每个新区域都应尽可能位于先前分区的区域范围内。这是对更新过程附加的附加标准。
案例研究 – 澳大利亚统计地理标准
HeLP 算法的众多用途之一是在政府系统领域执行空间框架的自动更新。这对于基于地块的系统(例如地籍)特别有用
。澳大利亚统计局当前的统计区域重新划分方法本质上是手动的,在人口普查发生后大约需要 2.5 年4 才能更新 ASGS 空间框架。使用与之前的案例研究相同的技术堆栈,我们利用了几个公开可用的数据集。澳大利亚统计地理标准 (ASGS) 统计结构中可用的最新数据集来自 2016 年人口普查。2011 年和 2016 年网格块边界 (.shp) 已从澳大利亚统计局 (2016) 获得。最新的地籍数据可从昆士兰州(资源部)检索(2023 年)。
土地利用属性是分区过程中的驱动因素之一,因为它决定了网格块分类(同质性标准)
。
由于 ABS 无法提供此信息,因此对土地利用进行了近似计算。
这是通过利用昆士兰州 (2022) 的公共图像、GIS 软件内的世界图像功能和 Google 地图来完成的。
值得注意的是,就像任何其他算法一样,数据越准确,结果就越好。
因此,如果无法获得如此详细的土地利用情况,则近似值足以让 HeLP 算法发挥作用。
此外,我们还使用历史网格块分类和土地利用数据来估计每个地块的土地利用。
我们为这项研究选择的目标地区是 Pimpama - 澳大利亚昆士兰州黄金海岸市以北的地区。
结论
所提出的算法解决了区域化文献中的空白,并通过实现地统计框架的自动更新做出了贡献,特别是在基于地块的系统(例如地籍)的背景下
。目前可用的重新分区算法侧重于防止不公正划分选区和政治重新划分。我们的方法解决了区域化中的一个领域,其中更新框架仍然主要是手动过程。
该算法的
关键贡献是引入“主题单元”
(
相同属性值的偶然几何图形)作为分区的构建块,这是空间分区中独特的中间步骤。
文章第 4 节中展示了我们
方法的普遍性
,但我们特别想强调其在
政府系统领域的潜力
,特别是在基于地块的系统中,这些系统使用地籍(或类似结构)作为其统计的基本空间构建块地区。
更高程度的紧凑性、同质性和等数性将确保公正的推理和空间统计分析。处理复杂要求的能力,例如禁止跨越边界,可以看到其在路线/运输(例如,不跨越主要高速公路的区域)或禁止合并条件(例如,医疗设施作为单独区域)中的应用,将为国家统计机构提供发布空间相关的描述性统计数据时具有更大的灵活性。
目前HeLP算法的实现仅考虑手动权重选择,没有具体的指导方针
,但是,在未来,我们希望探索其他自动或半自动选择权重方法的可能性,例如通过贝叶斯计算或凸函数优化。尽管我们的方法减少了搜索空间,但其迭代性质会产生较高的计算成本,从而限制了可处理的数据大小。渐进地,平均情况为 Oðn log nÞ,最坏情况为 Oðn2 log nÞ:
未来的研究有望通过考虑高性能并行计算技术或减少搜索空间的技术来解决这个问题
。