本推文来源:
地理与地理信息科学
[
1]陈菲,陈振杰,李飞雪,等.城市土地价格时空预测Stacking-GWR模型[J].地理与地理信息科学,2024,40(05):1-10.
城市土地价格时空预测Stacking-GWR模型
陈菲,陈振杰
*
,李飞雪,葛兰凤,杜嘉欣,聂北斗
(南京大学地理与海洋科学学院,江苏 南京 210023)
摘要:
城市土地价格影响国土空间规划决策、现代城市治理和土地市场调控,预测城市土地价格具有重要意义,但不同用途的土地价格变化趋势差异显著且具有空间异质性,很难用单个模型进行预测。该文提出一种城市土地价格时空预测Stacking-GWR模型,以常州市主城区为研究区,根据土地价格变化趋势分为工业用地和非工业用地两组,利用Stacking-GWR模型进行土地价格预测,并与单独使用Stacking、地理加权回归(GWR)、时空地理加权回归(GTWR)模型的预测结果进行对比分析。结果表明:①Stacking-GWR模型融合了地价数据中的特征、空间和时间信息,能提高预测精度;②根据土地价格变化趋势进行分组后,模型预测精度优于不分组时的预测精度;③工业用地和非工业用地土地价格的全局和邻域影响因子差异显著。
关键词:
土地价格;地价预测;集成学习;地理加权回归;常州市
0 引言
随着城市和房地产市场发展,城市土地价格对人民生活及经济发展的影响日益凸显
[1]
,全面、系统、准确地分析和预测城市土地价格的发展趋势是准确把握地价规律的重要手段,也是国土空间规划决策、现代城市治理和土地市场调控的重要参考依据
[2]
。
回归模型被广泛用于城市土地价格预测,如利用普通最小二乘(OLS)回归估计Hedonic模型中各影响因子的系数,可以建立城市土地价格与相关影响因子之间的定量关系
[3]
,但OLS回归仅考虑因变量与自变量的全局相关性,无法体现这种关系的空间差异
[4]
。地理加权回归(Geographically Weighted Regression,GWR)模型能兼顾土地价格与影响因子间的空间异质性
[5]
,半参数地理加权回归(SGWR)模型将变量的影响尺度分为全局和局部两部分
[6]
;多尺度地理加权回归(MGWR)模型不仅在不同层级空间变异性的参数上表现较佳,而且提供了不同尺度信息
[7]
;时空地理加权回归(GTWR)模型将时间信息纳入GWR模型,以捕捉价格的时空异质性
[8]
,多尺度GTWR(MGTWR)也被广泛用于房价的时空变化分析或房价与影响因子间关系的拟合
[9,10]
。
近年来,机器学习对于非线性关系的拟合能力强大,逐渐用于预测城市房产或土地价格
[11]
。例如:Derdouri等基于地统计学和机器学习算法,对2015年日本福岛县土地价格空间预测进行比较研究,证明了随机森林算法的优越性
[12]
;Selim比较多元线性回归和人工神经网络(ANN)模型的预测性能,发现ANN能更好地预测土耳其的房价
[13]
;Mora-Garcia等基于Boosting和Bagging的集成学习算法量化新冠疫情对西班牙城市房价的影响,发现机器学习算法的性能优于传统的线性模型,更能适应房地产市场等复杂数据的非线性特征
[14]
;张鹏等组合RBF-SVR、ETR和RFR模型生成Stacking集成回归模型,用于揭示武汉市住宅地价分布特征
[15]
。也有学者尝试将机器学习与地理加权结合,如吴森森建立了地理神经网络加权回归(GNNWR)的理论与方法体系,具有更高的估计精度和预测能力
[16,17]
,Li等比较多个机器学习模型的准确性,最后选择XGBoost-GTWR模型预测浙江省每小时PM1水平
[18]
。
综合看,地理加权回归及其扩展模型仍为线性回归模型,故非线性预测精度受限,且受多重共线性影响较大,多用于解释影响因子对地价的驱动机制;而机器学习模型则无需满足数据正态分布且不存在多重共线性等前提假设,具有更好的非线性预测能力
[19]
,但由于仅根据影响因子进行数值预测,忽略了土地价格与影响因子关系的空间异质性。相比数据驱动的机器学习模型,结合地理加权的方法既能更有效地拟合土地价格与影响因素关系的空间异质性,又能很好地处理数据集中的非线性因子,可用于地理空间建模和预测
[20,21]
。因此,本研究考虑邻域与时间趋势对土地价格的影响,综合Stacking集成学习模型、GWR模型和趋势预测模型,构建一种城市土地价格预测Stacking-GWR模型,根据地价变化趋势差异分组建模,可预测未来各类城市土地价格。
1 研究区与数据
1.1 研究区概况
常州市地处长江中下游地区,隶属经济最活跃、城市化进程最快的长三角城市群,社会经济发展快速、土地市场活跃,对其城市土地价格进行预测研究具有一定的典型性。本文研究区选取常州市原市区,包括武进区、新北区、天宁区、钟楼区和江苏常州经济开发区(简称“经开区”,位于武进区东北部)(图1),总面积1 862 km
2
(金坛区相距较远,不纳入研究区)。其中天宁区和钟楼区位于常州市老城区,是常州市的商业、金融、文化中心,土地价格稳中有升;新北区是市政府所在地,区域内交通设施完善,高新区、滨江经济开发区等产业园区为该区提供良好的商业发展环境,土地价格涨势明显;武进区和经开区在“两湖创新区”规划的加持下,经济结构向高科技产业转型,土地价格稳步上涨。
图1 研究区地理位置
Figure 1 Location of the study area
1.2 数据来源与预处理
本文研究数据包括矢量数据、栅格数据、统计数据和土地价格数据(表1),以2020年国土变更调查数据为底图,将空间数据统一至该坐标系
[22]
。①地价交易样点数据来源于常州市自然资源网上交易系统,共涉及2016—2020年常州市商服用地、住宅用地、工矿仓储用地(即工业用地)和商住用地交易案例953个。样点价格均采用地面地价,仅考虑使用年限为法定的最高土地出让年限,即商服用地40年、住宅用地70年、工业用地50年。安置房、定销房和回购房项目参照“限房价、竞地价”的商品房模式供地,有别于普通商品房的土地价格,故剔除,进一步剔除缺失容积率、建筑限高、绿化率、建筑密度的交易地价样点,最终得到有效样本687个(表2)。②基准地价数据来源于中国地价信息服务平台(https://www.landvalue.com.cn),自该平台获取的基准地价信息地图的时间为2021年,由此可以对常州市区的基准地价级别按照商服用地、住宅用地和工业用地分别进行可视化(图2)。商服用地(图2a)和住宅用地(图2b)基准地价级别均为同心圆分布模式,即街道或建制镇的中心区域基准地价级别高于非中心区域;工业用地基准地价等级(图2c)由中心城区向外递减,按照街道或行政村划分级别。③POI数据来源于百度地图开放平台(https://lbsyun.baidu.com/),通过Python编程爬取,并按照百度地图一级、二级行业分类对POI进行分类,时间为2021年。经过坐标变换、清洗去重等整理后共得到有效数据325 251个。为获取具有不同时段特征的POI数据,采用位于历年城镇建设用地上的POI数据代表相应年份的POI数据,该数据在反映城市发展和土地利用变化的同时,也能反映城市结构的演变和用地需求的变化趋势。④夜间灯光数据是对NPP-VIIRS年度数据进行投影转换、校正、裁剪,并重采样至500 m空间分辨率
[23]
。对异常值进行如下处理:以同时段中心城区的灯光亮度最大值作为阈值,若研究区像元的DN值大于阈值,则该像元赋值为最大阈值;后一年影像像元的DN值应不小于前一年对应像元的DN值,以2016年为基准对影像进行时间序列上的连续性校正。
表1 数据源
Table 1 Data sources
表2 2016—2020年常州市土地交易样本点数量
Table 2 Number of sample points for land transactions in Changzhou from 2016 to 2020
图2 2021年常州市基准地价分布
Figure 2 Distribution of benchmark land prices in Changzhou in 2021
2 研究方法
2.1 土地价格影响因子
在城市地价预测建模时,为保证预测结果的科学性和准确性,需遵循以下原则
[24]
:①相互独立原则,避免因子之间存在内涵重复;②主导因素原则,注重影响力较大的因素,舍弃影响较弱的因素;③采集便利原则,保证数据来源可靠,并能方便地获取和量化。基于上述原则,本研究从结构、区位和邻域三方面选取城市地价的影响因子(表3)
[25]
。其中,结构因素主要考虑出让土地的自身条件,如容积率
[26]
、绿化率
[27]
、建筑密度、建筑限高等;区位因素从整个城市范围角度考虑地块所处位置的交通便利程度以及市中心影响程度等
[28,29]
;邻域因素则考虑出让土地附近范围内影响地价的因素
[30]
,如公共服务设施集聚度等。对各指标线性归一化后进行多重共线性检验,本研究设置的方差膨胀因子(VIF)阈值为7.5,基于ArcGIS 10.6中OLS汇总报告所提供的VIF对影响因子进行剔除,工业用地与非工业用地在后续实验中所使用的因子如表3所示。
表3 常州市土地价格影响因子
Table 3 Influencing factors of land price in Changzhou
注:容积率、绿化率、建筑限高和建筑密度根据样本项目调查数据得到;邻域因素均通过核密度分析计算得到;“全部”表示商服用地、住宅用地、工业用地和商住用地;□表示后续实验工业用地所使用的影响因子,△表示后续实验非工业用地所使用的影响因子。
2.2 Stacking-GWR模型
城市土地价格呈现空间异质性与时间变化趋势,且不同土地用途的价格趋势存在显著差异。将多个机器学习算法以Stacking方式集成能较好地捕捉地价影响因子之间的相互作用,在提高土地价格预测精度方面有一定优势
[23]
,但机器学习算法仅基于特征的交互作用做出数值预测,构建的回归关系很难在空间上解释
[21]
,而GWR模型能较好地捕捉空间异质性,但需考虑多重共线性问题,且对数据的空间分布有一定要求,在边界地价点稀疏区域存在估值失真问题
[31]
。因此,本研究提出一种新的城市土地价格预测模型——Stacking-GWR模型,该模型以多元线性回归方式将Stacking集成学习模型、GWR模型和基准地价相结合,可分析土地价格时空数据中蕴含的特征、空间和时间信息,模型结构如式(1)和图3所示。
Z
(
u
,
v
,
t
)=
α
1
S
(
u
,
v
,
t
)+
α
2
G
(
u
,
v
,
t
)+
α
3
T
(
u
,
v
,
t
)+
c
(1)
图3 Stacking-GWR模型构建框架
Figure 3 Framework of Stacking-GWR model construction
式中:
Z
(
u
,
v
,
t
)、
S
(
u
,
v
,
t
)、
G
(
u
,
v
,
t
)、
T
(
u
,
v
,
t
)分别为在(
u
,
v
)位置和
t
时间的土地价格预测值、利用Stacking集成学习模型计算得到的预测值、利用GWR模型计算得到的预测值、利用趋势法(单位时间改变量等于历史数据的平均改变量)得到的基准地价预测值,
α
1
、
α
2
、
α
3
为系数,
c
为常数项。
2.2.1 Stacking集成学习模型 Stacking集成学习模型构建思路:基学习器使用训练集产生预测结果,元学习器结合上述预测结果进行预测
[32]
。首先利用网格搜索算法分别确定Lasso回归、LightGBM(Gradient Boosting Machine)、XGBoost (eXtreme Gradient Boosting)、随机森林回归(RFR)和支持向量回归(SVR)的超参数
[14,33]
,然后对基学习器和元学习器进行不同组合,根据精度/误差评价指标选择最优模型。由于元学习器只需对基学习器生成的预测结果提供一个平滑解释即可,故利用Lasso回归将基学习器与其余算法进行组合、选优。
2.2.2 GWR模型 GWR模型在每个样本点处构建一个局部回归模型,能很好地解释变量的局部空间关系与空间异质性
[5]
。公式为:
(2)
β
k
(
u
i
,
v
i
,
t
i
)=(
X
T
W
(
v
i
,
v
i
)
X
)
-1
X
T
W
(
v
i
,
v
i
)
Y
(3)
式中:
β
0
(
u
i
,
v
i
,
t
i
)为回归点
i
的截距项,
β
k
(
u
i
,
v
i
,
t
i
)为回归系数,
ε
i
为模型残差,
W
(
v
i
,
v
i
)为邻域中所有样本点对回归点的地理权重矩阵,本研究采用自适应高斯函数作为空间权重函数,自适应带宽定义为第
k
个最近邻距离,并采用最小AICc法选择最优带宽。
2.3 SHAP解释方法
SHAP (SHapley Additive exPlanations)是一种基于可加性特征解释方法框架,该框架通过提供SHAP值估计每个影响因子的贡献,用于分析各类因子对城市土地价格全局趋势的影响。假设第
i
个地价样本的第
j
个因子为
x
ij
,模型对第
i
个样本的预测值为
所有样本预测均值为
y
base
,则
x
ij
的SHAP值服从式(4),SHAP值为正值表示基于该影响因子的预测值高于平均值,每个变量的相对重要性用其平均绝对SHAP值表示。
(4)
式中:
f
(
x
ij
)为
x
ij
的SHAP值,
M
为输入影响因子的数量。
2.4 精度检验
为定量评估各预测模型的准确性,使用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、均方根误差(RMSE)和拟合优度(
R
2
)作为评价指标。
3 结果分析
基准地价通常由当地政府制定,能代表某区域内普遍的土地价格水平,常用作土地交易的参考依据。由图4可知,2016—2019年常州市工业用地、商服用地、住宅用地的基准地价差异显著,工业用地的基准地价基本平稳,最大增长率不超过10%,商服用地、住宅用地上升趋势明显,最大增长率超过30%。此外,2020年商服用地与住宅用地的地价样本数量分别只有9个和10个,而影响因子较多,单独进行预测缺乏统计意义,因此,本文根据工业用地与非工业用地分组后分别进行预测,并将分组和不分组的预测结果进行对比分析。将2016—2019年土地市场交易价格数据作为训练集,对2020年土地价格进行预测;从2020年的工业用地和非工业用地中各取60%对式(1)进行拟合得到系数,剩余40%的预测土地价格用于模型精度验证。
图4 2016—2019年常州市不同等级基准地价(来源于中国地价信息服务平台:https://www.landvalue.com.cn)
Figure 4 Different grades of benchmark land prices in Changzhou from 2016 to 2019
3.1 不分组时各模型预测精度评估
由表4可知:根据单个机器学习模型的MAE指标进行排序:LightGBM
R
2
=0.739±0.027)优于所有的单个机器学习模型,可有效纠正单个机器学习模型的预测偏差。相比GWR模型,组合模型S#1的MAE、MAPE和RMSE分别下降8.90%、22.47%和2.51%,
R
2
上升1.65%。GTWR模型虽然能进一步捕捉样本点的时空异质性,但其预测性能略低,且预测结果中易出现极端异常值,因此,在后续的分组实验中不予考虑。Stacking-GWR模型的MAE(2 100.40±190.56)、RMSE(4 181.99±322.78)和
R
2
(0.802±0.046)明显优于其他模型,虽然MAPE(39.32±13.67)%最大,但总体绝对误差小于其他模型,可见Stacking-GWR模型总体性能最优。
表4 各模型不分组时精度评价结果
Table 4 Accuracy evaluation results of each model for non-grouped prediction
3.2 分组时各模型预测精度评估
基于不分组时各模型的预测精度,使用Stacking集成学习模型、GWR模型和Stacking-GWR模型进行分组预测,并进行精度评估和对比分析(表5),可以看出各模型在分组预测时精度优于不分组预测精度,Stacking-GWR模型的预测性能依然最优。对工业用地和非工业用地分别使用单个机器学习模型进行预测,同样根据MAE指标进行排序组合,选择各自最优Stacking集成学习模型,其中工业用地使用RFR+XGBoost+SVR作为基学习器进行预测,非工业用地使用SVR+RFR+LightGBM作为基学习器进行预测。表5中的Stacking为工业用地与非工业用地各自最优的Stacking集成模型得到的预测值合并后的数据。分组后,GWR模型的预测精度优于Stacking集成学习模型,且精度提升最明显,MAE、MAPE和RMSE分别下降20.95%、25.43%和22.44%,
R
2
上升14.72%。Stacking-GWR模型的总体预测精度最高,其MAPE从39.32%降至20.04%。
表5 各模型分组时精度评价结果
Table 5 Accuracy evaluation results of each model for grouped prediction
3.3 城市土地价格影响因子分析
3.3.1 全局趋势性影响因子重要性分析 本研究使用基于Kernel的SHAP框架,适用于Stacking集成学习模型,并使用蜂群图对影响因子进行分析。蜂群图中,一个点代表一个样本,宽的地方表示有大量的样本聚集,颜色越红说明影响因子本身数值越大,颜色越蓝说明因子本身数值越小。对于土地价格有正向贡献的影响因子呈现出左蓝中紫右红的图像,负向贡献的影响因子则呈现出左红中紫右蓝的图像。将工业用地与非工业用地各自最优Stacking模型的前5个影响因子按照重要性从上到下排序(图5)。由图5a可知,对于工业用地,重要性最高的影响因子为容积率,容积率对土地价格有负向影响,特征值较低的样本点在SHAP值大于0的区域分布较分散,代表该影响因子对工业用地价格的负向作用较大;建筑限高、地铁和绿化率对土地价格有正向影响,即建筑限高和绿化率越高、距地铁站点越近,工业用地价格越高,且建筑限高中有一小部分特征值较大的离散样本点SHAP值较大,其余样本点的SHAP值在0值附近,这表明较大的建筑限高只对极小的一部分地区有正向影响;高速公路对工业用地价格有混合影响作用,且大部分样本点受影响较小。由图5b可知,对于非工业用地,基准地价等级的SHAP值分布具有对称性和分散性,基准地价为政府核定土地出让底价提供参考,其等级对土地价格具有重要影响。基准地价等级、商圈综合体和地表起伏对土地价格有积极影响,即基准地价等级越高、距离商圈综合体越近、地表起伏值越大,非工业用地价格越高。
图5 常州市工业用地、非工业用地价格影响因子SHAP值
Figure 5 SHAP values of the influencing factors of industrial and non-industrial land prices in Changzhou
3.3.2 邻域影响因子空间异质性分析 回归结果显示,工业用地的拟合系数
α
2
为0.54,非工业用地的拟合系数
α
2
为1.07,表明在Stacking-GWR模型中,GWR模型对最终预测结果的贡献较大,尤其是对非工业用地价格的预测贡献更大。GWR模型相比机器学习模型最大优势在于能形成系数估计值并将结果空间可视化,便于分析各因子对土地价格影响强度的空间模式
[34-36]
。GWR模型参数与土地价格样本点一一对应,因此回归系数数据量较大,本研究选择最小值、最大值、平均值和
P
值小于0.05的样点占比分析回归结果。①对于工业用地,建筑限高(100%)和主干道密度(64.20%)有超过50%的样点
P
值小于0.05,认为是显著性影响因子
[37]
(表6)。建筑限高回归系数均显著为正值,表明建筑限高对土地价格呈正向影响,与Stacking模型得到的建筑限高SHAP值分布一致。经开区东部靠近建成区,工业用地对建筑限高较敏感,建筑物越高,土地开发整体收益也越大,从而提高土地价格,而位于新北区北部与武进区南部的郊区建筑限高对土地价格的正向影响则较弱(图6a)。图6b仅展示了主干道密度回归系数显著的样本点,其回归系数均为正值,表明主干道密度越高,工业用地价格越高。由于道路的便捷程度关系到原料输入和产品输出的效率,因此,在规划工厂布局时往往会选择道路交通便利的区域
[38]
。②非工业用地中商服用地(100.00%)、基准地价等级(100.00%)、商圈综合体(70.21%)、地铁(100.00%)、火车货运站(85.11%)、坡度(100.00%)和地表起伏(61.70%)有超过50%的样点
P
值小于0.05,认为是显著性影响因子(表7)。在Stacking集成学习模型中重要性位居前五位的影响因子在GWR模型中均显著,并且正负影响效应与基于SHAP值得到的结论一致。其中,基准地价等级、商圈综合体、地铁、地表起伏的回归系数均为正值,对土地价格有正向影响。基准地价等级的回归系数平均值(1.609)和SHAP绝对平均值均最大,表明基准地价等级在全局或邻域中对土地价格均具有较强的影响力。由图7a可知,新北区南部与武进区北部的样本点具有相似的基准地价等级,但回归系数却出现新北高、武进低的情况,尤其是新北区北部的孟河镇和东北部春江街道样本点的基准地价等级更低,但回归系数却较高,这是由于新北区样本点非工业用地的单价普遍突破1万元/m
2
,远高于基准地价,在相同条件下,新北区基准地价等级的影响力更大;商圈综合体在新北区的影响力也最大(图7b),区内环球港与新北万达等大型商圈资源能很好地拉动非工业用地价值,而影响力较小的多位于商业欠发达地区,最小值所在区域正是横山桥镇的芳茂山所在地,这与王爱等
[36]
的研究结论一致;地铁的回归系数从西南向东北逐渐变大(图7c),对武进区中部的影响最大,该区域的样本点均为住宅用地,且职住空间相隔较远,因此通勤便利度很大程度影响住宅用地的价格,这与董冠鹏等
[34]
的研究结论一致,而新北区东南部出现低值是因为该区域职住空间距离较近且龙城大道及其相连的高架桥降低了该区域对地铁的依赖;地表起伏的回归系数西高东低,在天宁区西部与经开区出现低值的敏感区(图7d)。商服用地、火车货运站、坡度的回归系数均为负值,对土地价格有负向影响。其中,商服用地回归系数呈现东高西低的空间格局,新北区北部受商服用地类型的影响较大(图7e),缘于2020年商服用地的平均价格(4 522.99元/m
2
)小于住宅用地的平均价格(5 093.76元/m
2
),并且55.56%的商服用地交易样本点分布在新北区,导致新北区商服用地的回归系数较低;火车货运站对新北区非工业用地价格的负向影响较大,新北区只建有高铁常州北站,且沪宁高速路线穿过整个新北区,因此新北区具有交通优势,可以弥补缺乏货运站的影响,从而降低火车货运站对土地价格的重要性(图7f);坡度对土地价格有负向影响(图7g),这与周璐红
[30]
的研究结论一致,因为开发坡度较大地区要求投入更多的劳力和建筑成本,必然会导致地价降低,常州市外围的回归系数较小,是因为西北部孟河镇的小黄山、东部郑陆镇的舜山视野开阔且风景优美,更受开发商或购房者的青睐,能在一定程度上提高土地价格,从而减弱坡度对土地价格的影响。
表6 2020年常州市工业用地价格GWR模型回归系数统计结果
Table 6 Statistics of regression coefficients of GWR model for industrial land prices in Changzhou in 2020
表7 2020年常州市非工业用地价格GWR模型回归系数统计结果
Table 7 Statistics of regression coefficients of GWR model for non-industrial land prices in Changzhou in 2020
图6 常州市工业用地建筑限高、主干道密度回归系数分布
Figure 6 Distribution of regression coefficients of building height limit and main stem density of industrial land in Changzhou
图7 常州市非工业用地价格影响因子回归系数分布
Figure 7 Distribution of regression coefficients of influencing factors of non-industrial land prices in Changzhou
4 结论与讨论
本研究将Stacking集成学习方法、地理加权回归和趋势预测相结合,建立Stacking-GWR模型,以常州市区为研究区,利用2016—2020年土地交易数据,按照不同用途土地价格变化趋势分组预测城市土地价格,并与单独使用Stacking、GWR、GTWR模型的预测结果进行对比分析。结论如下:①Stacking-GWR模型融合了地价数据中的特征、空间和时间信息,能提高预测精度。在不分组预测中,该模型拥有最低的MAE和RMSE及最高的
R