专栏名称: 城市数据派
城市数据派Urban Data Party:专业的城市大数据媒体和知识服务平台。关注点:大数据、新数据、新技术、智慧城市、城市与交通规划、信息化。 网址:www.udparty.com
目录
相关文章推荐
国际旅游岛商报  ·  0比1,遭绝杀!U20国足止步亚洲杯八强 ·  8 小时前  
温州晚报  ·  巨头宣布:永不合作! ·  14 小时前  
天都新闻  ·  祝贺!中国男篮主场100:58战胜日本男篮 ... ·  2 天前  
天都新闻  ·  祝贺!中国男篮主场100:58战胜日本男篮 ... ·  2 天前  
体坛周报  ·  话题 | 尤文出局,莫塔全责 ·  2 天前  
体坛周报  ·  话题 | 尤文出局,莫塔全责 ·  2 天前  
51好读  ›  专栏  ›  城市数据派

如何构建多模型比选的机器学习框架,用于预测和挖掘人群出行规律?丨城市数据派

城市数据派  · 公众号  ·  · 2024-12-19 11:50

正文


写在前面:

提出一种通用的机器学习分析框架用于预测和分析人群出行规律。首先,基于重力模型、辐射模型和PWO模型选取可解释的关键影响因素作为模型的输入变量,构建多模型比选的机器学习分析框架以提升模型的泛化能力。然后,利用宁波市1 km栅格尺度数据和街镇尺度数据、东京都市圈交通普查区数据和区县数据、纽约市人口普查区数据和美国郡县数据、伦敦市人口普查区数据和英格兰郡县数据作为案例,检验分析框架的预测性能和泛化能力。结果表明,相较于经典理论模型,机器学习分析框架取得了更好的预测性能和泛化能力,其在不同场景下的平均预测精度较重力模型、辐射模型和PWO模型分别提高了96%,98%和54%。案例研究结果证明出行距离、起终点覆盖的人口数量在解释人群出行规律上的普适性,且终点人口数量的重要性显著高于其他因素。同时,行政边界的影响将随着分析尺度的增加而弱化,起点人口数量的作用机制在经济文化差异较大的区域之间表现迥异。这些发现为深入理解人群出行规律的复杂性提供了宝贵启示。



研究背景

城市或区域利用功能区划实现土地和设施的协同利用,从而满足居民多样化职住需求。个体通过出行满足其独特需求,进而导致车辆、经济和文化等要素发生时空分异。这一过程通常伴随拥堵蔓延、污染扩散和疾病传播等问题的产生,因此预测人群出行分布逐渐成为复杂行为领域的核心议题[1]。其应用领域涉及流行病控制[2]、城市规划[3]、交通工程[4]和应急管理[5]等。


人群移动通常以OD形式表达,即以一定尺度的分析单元为基础,描述人群从一个区域向另一个区域移动的过程。其重要性体现在,研究者可以更有效地揭示交通网络、设施需求、用地分布、社会文化以及经济发展之间的复杂联系,从而成为实践中不可或缺的重要数据。随着信息技术的快速发展,基于问卷调查的传统OD获取方法由于代价过高而逐渐被大数据手段[6]和OD估计手段[7]所替代。


OD估计是指以给定位置(如交通小区、地块等)的观测数据为依据,通过模型来推断该观测值背后的OD人流。OD估计的方法主要包括基于传统交通模型的方法和基于数据驱动的方法[7]。由于传统方法计算效率低而无法应用于大规模实践[7],因此近年来的研究逐渐转向大数据驱动的多尺度复杂模型的研究[8]。例如,深度重力模型[9]借助机器学习的非线性拟合优势来预测人群出行模式,并获得了显著优于重力模型的预测性能。尽管如此,既有理论成果的预测精度普遍局限于65%以内且波动区间较大[5, 9],存在精度偏低和泛化能力不强等问题,因此难以满足实际应用。


鉴于此,本文首先基于既有理论筛选出关键影响因子以构建多模型比选的机器学习框架,用于预测和挖掘人群出行规律。然后选取4个地区案例,用于检验框架的预测性能和泛化能力。这些案例包括中国宁波市1 km栅格尺度数据和街镇尺度数据、日本东京都市圈交通普查区数据和区县数据、美国纽约市人口普查区数据和国家郡县数据以及英国伦敦市人口普查区数据和英格兰郡县数据。


机器学习分析框架构建方法

为便于模型比选、解释和评估,构建机器学习分析框架需明确关键影响因素的选取、模型框架的逻辑设计和预测性能的评价标准。其中关键影响因素的选取是构建机器学习模型的核心环节,通常对模型性能产生决定性影响。机器学习模型框架的逻辑设计有利于保障输出结果的可靠性和便于验证模型的泛化能力。预测性能的评价标准应满足一定的通用性要求,便于多模型间、不同案例间以及不同研究成果间的比较。


1 关键影响因素选取

鉴于OD估计的重要性,自20世纪40年代以来许多模型被提出用于预测人群的出行模式[10]。其中影响力较大的理论包括重力模型、干涉机会模型和辐射模型[7],这些模型着重于刻画出行成本、机会分布和人口分布对OD出行的本质影响。重力模型源于对物理理论中万有引力定律的类比,其原理可解释为两地之间的人群出行规模与两地的人口规模成正比、与距离呈反比[11]。干涉机会模型最早可追溯至人类地理学家Stouffer提出的介入机会模型(Intervening Opportunity Model),它根据机会的空间分布来解释其与人群出行间的交互作用,典型的如人口权重机会模型(Population-Weighted Opportunities Model, PWO)[5]。辐射模型是由F. Simini等[12]在考察固体物理中的放射和吸收过程后提出,用以解释城市地区人口分布对于人群出行模式的影响。虽然3个理论模型关注的方向有所差异,但是依然存在一定的内在联系(见图1):当介入机会在空间中均匀分布时,OD流与距离便会呈现简单的反比关系,此时干涉机会模型便与重力模型达成统一。进一步,当介入机会与人口正相关时,辐射模型可用于解释OD流量与介入机会间的关系,此时干涉机会模型便与辐射模型达成统一。


图1 重力模型、干涉机会模型和辐射模型之间的联系


重力模型的计算公式为

式中:Tij为起点i与终点j之间的出行量/人次;K为常数;Pi为起点i的出行产生量/人次;Aj为终点j的出行吸引量/人次;f(rij)为摩擦系数,是距离rij的递减函数。

辐射模型的计算公式为

式中:Oi为起点i的出行总量/人次;mi和mj分别为起点和终点的人口数量/人,表示起点和终点的机会数量;M是区域总人口/人;sij为以起点i为中心,以rij为半径的圆所覆盖的人口数量(不包括起点和终点)/个;rij为起点i和终点j间的直线距离/km。

PWO模型的计算公式为


式中:Aji是终点j相对于起点i的吸引力;Aki是终点k相对于起点i的吸引力,且k≠i;Nki是区域内对应终点k的编号集;mj是终点j的总人口/个;Sji为以终点j为中心,以rij为半径的圆所覆盖的人口数量(包括起点和终点)/人。


由于重力模型、PWO模型和辐射模型具有良好的可解释性,因此本文以这3个经典模型为基础选取关键影响因素(见表1)。1)重力模型重点考察出行成本对于人群出行的影响,因此出行成本将作为关键影响因素进行考虑。简便起见,本文将这一因素量化为rij。2)辐射模型反映起终点人口数量及其对人群出行行为的作用,因此其关键影响因素可量化为mi,mj和sij(不包括起点和终点)。3)PWO模型反映终点的相对机会吸引力对人群出行行为的影响,而机会的度量又与终点辐射的人口规模相关,因此其关键影响因素可量化为Sji(包括起点和终点)和Aji。此外,由于人群的移动模式通常还受到所在行政区划的影响[13],因此起点所在的上一级行政区划Di也将被作为模型的输入变量进行考虑。例如,以中国城市的街镇尺度进行分析时,该变量代表的是街道所在的区县编码。按照惯例,为了将模型的计算过程限定在给定的客流规模下进行,Oi也将作为输入变量纳入模型的计算过程之中。


表1 模型关键影响因素一览


2 模型框架的逻辑设计

通过分析带有已知标签的样本数据,机器学习模型能够预测未知的数据标签。因其具有较好的非线性拟合优势而被广泛应用于复杂系统的分析。常用算法以集成类模型为主,包括Lightgbm,Random Forest,Extra Trees和Gradient Boosting等。但集成算法需要消耗较大的计算机资源,因此K Neighbors,Decision Tree等非集成算法也常被用于比选。


为增强框架的泛化能力,同时便于比较不同模型的性能差异,本文构建了多模型比选的机器学习分析框架(见图2)。其中,数据探索的目的在于审查数据集的结构、规律、异常值等,便于后续数据处理计划的制定。数据清洗的目的是处理数据中的错误值、缺失值和异常值等,使得数据能够符合建模的基本要求。特征工程是在保持变量的可解释性前提下筛选或构造高质量的输入变量,从而提高模型预测性能和泛化能力。这一步骤对应于本文的关键影响因素选取。基于此,本文选取了Lightgbm,Random Forest,Extra Trees,Gradient Boosting,K Neighbors和Decision Tree算法用于多模型预测和比较。


图2 机器学习分析框架

由于集成类机器学习模型具有良好的预测性能和泛化能力,因此本文以集成类算法为例阐述机器学习模型的主要原理。根据权重优化机制的不同,集成类算法可进一步分为Bagging模型[15]和Boosting模型[16]。其中,Bagging模型通常采用投票机制实现结果预测。具体而言,Bagging模型将对多组学习器进行迭代训练,并将每组学习器的预测结果作为投票权重,以少数服从多数的原则确定最终计算结果。基于这一理念,Bagging模型能够降低预测偏差以避免过拟合现象,其典型模型为Random Forest(见图3a)。Boosting模型则以残差优化为目标来实现模型预测性能的提升,通过对多组弱学习器的反馈训练和整合来降低残差的方差。为避免过拟合,Boosting模型通常利用相对稳健的损失函数以逐渐减少学习器产生的训练残差,其典型模型为Lightgbm(见图3b)。

图3 机器学习模型的原理

3 预测性能的评价标准

作为模型预测性能的评价依据,本文主要从两个方面进行考虑和选择。一方面,模型交叉验证过程中为获得高效便捷的性能评价,采用通用的机器学习模型评价指标R2,MAE和MSE等对模型的预测性能进行评价;另一方面,为便于研究成果间的横纵向比较,采用在本领域通用[5, 9]的SSI指数[14]评估预测值与真实值之间的相似性。

式中: N 为地点数量/个; T' ij 为模型预测的从起点 i 到终点 j 的出行量/人次; T ij 为出行量观测值/人次。显然,若 T' ij T ij 完全一致,则 SSI 为1;若所有 T' ij 都远离实际值,则 SSI 接近0。


基于全球出行数据的分析比较
1 数据来源
为验证研究方法的预测性能和泛化能力,本文所选案例尽可能包括不同区域、不同尺度和不同空间联系特征,并根据分析尺度的相对关系将这些案例分为三个层次:1)微观层面包括宁波市1 km栅格尺度数据、纽约市人口普查区尺度数据和伦敦市人口普查区尺度数据;2)中观层面包括宁波市街道尺度数据和东京都市圈交通小区尺度数据;3)宏观层面包括东京都市圈区县尺度数据、美国郡县尺度数据和英格兰郡县尺度数据。不同案例的数据概况见表2。

表2 不同区域数据概览和来源


考察不同地区的OD分布形态可以发现,不同区域间存在明显的空间组织分异特征。在城市层面,宁波市呈现“多中心组团”空间分布格局,纽约市呈现“链式多中心”空间分布格局,伦敦市则呈现“强中心”空间分布格局。在都市圈层面,东京都市圈呈现“强中心+多组团”的空间分布格局。在国家层面,美国呈现“多核心”空间分布格局,而英格兰则呈现“单级多核”空间分布格局。这些不同空间组织形态的案例为模型验证提供了良好基础。


2 模型预测效果比较

本文以宁波市1 km栅格出行数据为例进行分析,以说明机器学习模型和经典理论模型之间的差异。首先将原始数据按照7:3的比例拆分为训练集和测试集,并基于十折交叉验证对比了6个典型机器学习模型的预测效果(见表3)。可以发现,相较于非集成模型,Lightgbm,Random Forest和Extra Trees等集成模型均取得了较高的预测性能,R2值均超过0.8,表明集成模型具有较强的非线性拟合优势。


表3 不同机器学习模型在测试集上的评估指标一览


为考察机器学习模型与经典理论模型之间的差异,本文选取最优模型Lightgbm进行比较,利用相同的数据集训练Lightgbm、重力模型、辐射模型和PWO模型,并基于测试集数据评估4个模型的预测性能(见图4)。结果显示,与经典理论模型相比,Lightgbm的预测性能得到了显著提升,其SSI指数相较于重力模型、辐射模型和PWO模型分别提升了81%,53%和15%。进一步,比较各模型预测的出行距离构成(见图5)可以发现,在不同出行距离区间内Lightgbm的预测值与真实值更为吻合。而辐射模型的总体预测性能表现欠佳,其中短距离区间的预测值显著高于真实值,而长距离区间的预测值则显著低于真实值。相比之下,重力模型和PWO模型在中短出行距离范围的表现较好,但随着出行距离的增长均存在低估真实值的问题。


图4 各模型在测试集上的预测效果比较


图5 Log空间下各模型的出行距离构成比较


城市地区的长距离出行与城市空间发展的非连续性存在一定关系,例如城市郊区的居民往往需要到城市核心区才能满足就医、消费、娱乐等多样化需求。因此,本文选取宁波市内的一个城市核心区位置(标识为a)和一个郊区位置(标识为b)预测其客流来源分布以比较各模型的预测性能(见表4)。总体上,Lightgbm在城市核心区与郊区均表现出良好的预测性能,其预测的空间分布与真实情况较为接近。尽管PWO模型也展现出较好的预测性能,但在识别实际上并无关联的区域时更容易错误地认为这些区域之间存在联系,从而导致预测结果在空间分布上出现不必要的蔓延。重力模型在城市核心区表现出更为明显的空间蔓延倾向,但在郊区又倾向于低估真实值。辐射模型与PWO模型则正好相反,无论在城市的核心区还是郊区,均表现为低估真实值的倾向。显然,单一的经典理论模型难以完全揭示城市人群出行模式的复杂性。可能原因在于,人群出行模式通常受到城市环境和社会文化发展的交叉影响,内涵了城市系统的复杂性。因此,传统的、局限于特定视角的模型往往难以适应这种 “无序的复杂性”[17]现象。相比较而言,得益于强大的非线性拟合优势,融合了经典理论模型解释机制的机器学习分析框架则能较好地适应这种复杂性特征。


表4 各模型在城市核心区和郊区的预测效果比较


3 多场景比较

为进一步检验分析框架的泛化能力,本文结合所选案例以Lightgbm为参照,对比机器学习模型与经典理论模型之间的一般性差异(见图6)。总体上,Lightgbm在不同地区和分析尺度下均取得了良好表现,平均预测准确性较重力模型、辐射模型和PWO模型分别提升了96%,98%和54%,反映了较强的泛化能力。相比之下,经典理论模型的表现差异较大。其中,重力模型似乎更适用于“多核心”城市地区的中观尺度分析和国家层面的宏观尺度分析,这一特点在宁波市街镇尺度和美国郡县尺度案例中得到验证,其预测精度均达到0.6左右,显著优于辐射模型。PWO模型在不同分析尺度下的表现相对稳定,但在纽约市人口普查区尺度下的预测性能显著低于辐射模型,预测精度仅为后者的70%,表明PWO模型在处理机会分布极为不均匀的场景时可能存在局限性(纽约市为“链式多中心”空间组织结构)。辐射模型在不同场景的应用中表现出一定的不稳定性,尤其在“强中心”空间格局的东京都市圈和伦敦市表现较差,预测精度低于0.3。可能原因正如Yan X. Y. 等[5]所猜想的,辐射模型更适用于跨组团的出行分析,这要求区域内存在多个层次分明的组团。如果区域内仅存在过于强大的单一核心,辐射模型可能会低估跨组团出行量,进而导致预测结果的不准确。


图6 各模型在不同区域和分析尺度下的预测准确性比较


受限于本身的理论机制,经典理论模型在不同出行距离区间下可能难以取得稳定的预测性能,因此通过对比基于出行距离分布的模型预测值与观测值间的差异,能够提供关于模型性能的深入见解(见图7)。总体上,Lightgbm在不同场景下均获得了较好的预测性能,其不同出行距离下的预测值与真实值之间的差异较小。值得注意的是,在宁波的街道尺度、纽约的人口普查区尺度以及英格兰的郡县尺度下,重力模型和辐射模型均取得了较好表现。可能原因在于,这些地区人群的出行距离分布与幂律分布或指数分布更为吻合,一定程度上满足了经典理论模型的应用前提。既有研究指出,若实际出行距离分布趋近于指数规律,则重力模型能够获得优于机会干预模型的性能[20]。同时,若实际出行距离分布趋近于幂律分布,则理论上很容易获得适用于描述复杂系统的最优模型[21]。因此,经典理论模型受制于一定的理论适用前提而难以取得良好的泛化能力,相比之下机器学习模型则较好地克服了这一问题。

图7 各模型在不同出行距离下的预测性能比较



关于出行规律的讨论

尽管既有研究取得了丰硕成果,但关于人群出行规律的探讨仍然具有极大的挑战性。由于人群出行规律受到诸多因素的影响,不同因素的交互作用又进一步加剧了人群出行规律的复杂程度,因此普适规律的提炼成为难点。目前,除经典理论模型提出的成本、人口和机会成因外,其他研究还试图从社会分层所导致的居住空间分异[8]、土地利用的多样性[9]、所在区域社会文化边界效应[22]以及出行目的和出行频率的交叉影响[23]等角度进行剖析。但迄今为止学者仍未找出一种统一的理论来解释人群出行的普遍规律。这反而进一步证实了人群出行规律的复杂性。


鉴于此,本文提出的分析框架事实上为不同成因的解释提供了一种可横向比较的容器。在这一容器中,不同因素的影响权重将以统一的标准得到量化进而反映各自的相对重要性。以Lightgbm为例,其在训练过程中可通过记录自变量的分裂次数实现对特征重要性的量化,某个变量的重要性定义为它在所有学习器中出现的次数之和。于是,在不考虑起点出行总量的前提下,对其余变量的重要性数值做归一化处理,从而得到不同变量对于模型性能的贡献水平。依据这一思路,本文各案例得到的影响因素贡献水平如图8所示。主要结论如下:


1)出行距离(rij)、起点所覆盖的人口数量(sij)和终点人口数量(mj)3个因素在解释人群出行规律时表现出一定的普适性,在不同地区和分析尺度下其重要性排名均为前3,这与经典理论模型中关于出行规律的解释基本一致。值得注意的是,3个因素中终点人口数量的重要性显著高于其他变量,在东京都市圈区县尺度下其权重甚至达到44%,表明出行人员在选择目的地时将显著受制于目的地的人口集聚程度。可能原因在于,通常目的地人口越多,城市配套设施越为完善,因此吸引力越强。


2)行政边界对出行行为存在一定影响,但这种影响将随着分析尺度的增加而减弱。尤其涉及都市圈层面和国家层面的分析时,行政边界的影响几乎可以忽略,揭示了行政边界在中微观尺度下对跨区出行所产生的阻隔效应[24]。事实上,行政边界通常是城市规划、设施布局、经济发展规划和社会文化发展规划所依据的重要物理边界,因此必然内涵了对出行行为的潜在影响机制。







请到「今天看啥」查看全文