专栏名称: GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
目录
相关文章推荐
文明内蒙古  ·  内蒙古呼伦贝尔市满洲里市发生3.1级地震 ·  4 小时前  
草原云 北方新报  ·  内蒙古满洲里市发生地震 ·  4 小时前  
江西发改  ·  49条务实举措进一步降低我省物流成本 ·  18 小时前  
都市现场  ·  2月底截止!江西居民抓紧办理 ·  3 天前  
51好读  ›  专栏  ›  GISer last

【文献学习】遥感影像、社会感知和集成机器学习模型,进行城市洪涝灾害易发性制图

GISer last  · 公众号  ·  · 2025-01-15 21:46

正文

本推文来源: ENV Yuan



摘要






洪水易感性地图对城市灾害管理至关重要。然而,城市土地利用的异质性和地形的复杂性对洪水模型的准确性和泛化性提出了挑战。本文提出了一个城市洪水制图的EMF模型框架。具体而言,将社会传感和遥感用于洪水信息收集。使用XGBoost、支持向量分类器(SVC)、多层感知器(MLP)和多模态深度学习(MDL)作为预测模型,并使用随机森林模型对其结果进行集成以产生最终结果。结果表明,EMF模型优于独立模型,在训练集和测试集上的准确率分别为0.942和0.940。五个模型的精度排名为:EMF > MDL > XGBoost > SVC > MLP。洪水图表明,与城市中心城区相比,洪水对城市郊区和近郊的影响更大。农田是受影响最严重的土地类型,占被淹面积的54.8%。总体而言,拟议的框架能够快速准确地识别易受洪水影响的地区,为管理者制定有效的防洪策略提供技术支持。




研究背景






极端降水事件频发导致城市洪灾严重,但传统洪水监测方法和模型存在局限。传统方法依赖现场观测,无法提供实时全面数据且有风险;水文和水力模型数据要求高、参数复杂,数据驱动方法中的经验方法和单一机器学习模型在城市应用中也有不足,如准确性有限、受数据影响大等。社会感知可提供实时灾害信息,混合模型有望克服单一模型的局限性,因此本研究旨在提出更可靠的洪水区域提取方案,验证EMF模型性能并绘制洪水空间分布。




研究区域与数据






研究区域:天津是人口超1500万的沿海大都市,位于华北平原,是海河支流永定河河口,易受洪水侵袭,历史上多次发生严重洪灾,如1963、1996、2012年等,2023年7月31日的暴雨也造成了广泛洪灾,故选择天津作为研究区域。

卫星数据:使用Sentinel - 1SAR数据(分辨率10m)提取洪水区域,经校准和处理后从 GEE平台获取,提取VV、VH极化及组合信息;用Sentinel - 2影像(13个光谱通道,分辨率 10m)提取永久水体,采用DSWE算法计算水体范围。

洪水影响因素:选取NDVI、土地覆盖等土地利用因素和到河流距离、坡度等地形因素,通过相关性分析和随机森林特征重要性排名(FFIR)筛选输入变量,地形数据来自30m SRTM DEM影像,NDVI由Landsat8 - OLI影像计算得出。


图1  研究区域位置。(a) - (b)天津在华北的地理位置。(c) 2021年天津市土地利用图及样点分布情况。蓝点代表洪水点,橙点代表非洪水点。土地覆盖数据来源于https://zenodo.org/record/5816591


表1  Sentinel-1SAR数据中的各种极化组合




研究方法






社会感知:利用社交媒体平台(今日头条、YouTube、TikTok、快手)收集洪水信息,建立关键词系统,通过Python库获取帖子信息并提取地理坐标,依据时间、内容和来源可靠性等标准过滤数据。


图2  本研究使用的土地利用和地形数据集。(a) NDVI,(b)与河流的距离,(c)坡度,(d)海拔,(e) TWI, (f)土地覆被,(g)坡向,(h) Sentinel-1 VV偏振波段


图3  社会传感数据采集过程示例


ML模型:构建EMF集成模型,包括XGBoost、SVC、MLP、MDL 四个子模型和RFC集成模型。分别介绍了各模型的特点、适用场景、参数设置及目标函数,如XGBoost适合处理结构化数据,通过调整 n_estimators、learning_rate 等参数优化模型。

模型开发:包括数据集准备(获取洪水和非洪水样本地理坐标,处理数据,筛选特征并划分训练集和测试集)、集成模型构建(用训练集训练子模型,RFC拟合残差,测试集验证)和城市洪水范围提取(应用EMF模型分类,结合DSWE算法和过滤方法确定最终范围)三个步骤。


图4  基于遥感、社会传感和EMF模型的城市洪涝面积提取技术框架


图5  EMF模型的结构

性能评估指标:采用准确率、召回率、精度、误报率和F1分数评估模型性能,给出了各指标的计算公式及含义。




研究结果






模型特征选择:分析输入特征与洪水发生的相关性,确定VVVH、VV²VH²等极化波段和到河流距离等为关键特征,经FFIR方法筛选后作为最终输入变量。


图6  各输入特征与洪水发生的相关性,星号表示相关性显著(p <0.05)


图7  与洪水显著相关的因素的重要性排名。使用箱形图描述了100 (n)次模型迭代的结果,说明了中位数(每个箱内的竖线)和四分位数范围(箱的宽度)


表2  模型开发的最优特性


模型评估指标性能:EMF 模型在训练集和测试集上准确率分别为0.942和0.940,在五种模型(EMF、MDL、XGBoost、SVC、MLP)中准确率、精度和F1分数最高,召回率和MR *值适中。


图8  使用XGBoost、SVC、MLP、MDL和EMF模型对训练数据集(a)和测试数据集(b)进行性能评估。为了方便在统一尺度上对不同模型的分类精度进行视觉比较评估,通过添加0.8来调整所有模型的缺失率值。调整后的度量在图中用MR*表示


不同ML模型映射性能:在农田、山区和城市地区,各模型提取的洪水区域有差异。农田中一致性较高,但单一模型在小村庄和道路区域易低估;山区因阴影和地形复杂,单一模型低估山谷洪水;城市中由于水和路面反射及建筑物影响,单一模型低估更严重,EMF模型表现更优。


图9  四种独立ML模型与EMF模型在农田[(a) - (e)]、山区[(f) - (j)]和城市地区[(k) - (o)]的洪水面积提取比较。蓝色表示独立模型提取的洪涝面积。黄色表示EMF模型确定的其他受洪水影响的地区。(a)、(f)和(k)比较了XGBoost和EMF模型提取的洪水面积。同样,(b)、(g)和(l)比较了SVC和EMF模型;(c)、(h)和(m)比较MLP和EMF模型;(d)、(i)和(n)比较MDL和EMF模型。(e)、(j)和(o)分别描绘了不同模型在局部放大的农田、山区和城市地区提取的洪水边界。红色、棕色、蓝色、紫色和绿色分别代表EMF、MDL、MLP、XGBoost和SVC提取的洪水范围


洪水区域映射:EMF模型估计的洪水面积最大,为1265.14 km²,洪水主要位于天津中东部和南部,西部较小且分散,北部山区洪水集中在山脊和山谷。


图10  (a) 2023年7月31日天津市XGBoost、SVC、MLP、MDL和EMF模型提取的总洪水面积对比。(b)利用EMF模型分析天津洪涝面积的空间分布。红色实线代表中心城区,虚线代表郊区。灰色底图对应于使用VV偏振波段的Sentinel-1 SAR数据




讨论






敏感性分析:通过不同训练 - 测试配置进行敏感性分析,EMF模型在小样本训练下稳定性最好,相比单一模型,其稳定性和性能更优。


图11  训练数据集(a, c, e)和测试数据集(b, d, f)中模型的准确率、召回率和精度的比较,使用不同百分比的训练数据进行。设置了三个模拟场景,分别使用70%、60%和50%的总样本来训练XGBoost、SVC、MLP、MDL和EMF模型


社会感知:社会感知可提供洪水信息,但数据有噪声和不准确问题,通过严格过滤可获取有效数据,实验表明纳入社会感知数据可提高模型识别洪水区域的性能。


表3  与洪水相关的社交文本信息示例







请到「今天看啥」查看全文