专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
清晨朗读会  ·  渊源直播 ·  昨天  
每日英语  ·  《英语周报》祝全国读者元宵节快乐 ·  昨天  
BetterRead  ·  应对AI挑战最简单的方法 ·  昨天  
清晨朗读会  ·  渊源直播 ·  3 天前  
每日英语  ·  每日谚语 | 学如逆水行舟,不进则退 ·  2 天前  
51好读  ›  专栏  ›  极市平台

U-KAN 网络与 U-Net 谁更胜一筹 ?

极市平台  · 公众号  ·  · 2024-08-19 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨AI视界引擎
来源丨AI视界引擎
编辑丨极市平台

极市导读

作者首次探讨将U-KAN应用于农田像素分割,从性能和可解释性角度分析U-KAN和U-Net >> 加入极市CV技术交流群,走在计算机视觉的最前沿

段落分割对于提升农业生产力、监控作物的健康状况以及推广可持续的农业实践是至关重要的。为这项任务采用的深度学习模型必须确保准确和可靠的预测,以避免经济损失和环境影响。


新提出的Kolmogorov-Arnold网络(KANs)在神经网络的性能方面提供了有前景的进展。本文分析了将KAN层整合到U-Net架构(U-KAN)中,使用Sentinel-2和Sentinel-1卫星图像对农田进行分割,并提供这些网络的性能和可解释性的分析。


作者的研究发现,与传统的全卷积U-Net模型相比,在更少的GFLOPs下,IoU提高了2%。此外,基于梯度的解释性技术表明,U-KAN预测具有很高的合理性,并且该网络具有非常高的聚集在耕作区域边界而不是区域本身的能力。关于每个通道的相关性分析揭示,有些通道对这个任务来说是无关的。

1 Introduction

近年来,远程感应和深度神经网络已经彻底改变了作者如何应对农业管理、环境监测以及许多与地球观测相关的工作。它们的结合证明在各种任务上都是有效的,例如紧急管理[19]和土地覆盖[31]等。与土地覆盖相关的一个任务是划分农田,这对优化农业生产力、评估农作物健康和规划可持续的耕作方法至关重要[7]。

在这个过程中使用的神经网络的准确性和可解释性是确保可靠和可操作性洞察力的基础。精确划分农田可以使计算面积覆盖准确,评估农作物类型,并监测农业因子如植物健康和土壤条件[6]。这些信息对于作出关于灌溉、施肥和作物轮换的有知情的决策至关重要,这对于提高产量和可持续性[10]。此外,语义分割任务的准确性直接影响政府及机构各种 Level 的经济计划和政策制定。提供准确的决策是必要的,但是模型可理解性和可用性也是关键,以允许实践者验证它们并遵守机构规定[45]。这些因素至关重要,因为它们极大地影响经济和环境。[15].深度学习模型可以实现高精度,但它们通常被认为是“黑 Box ”,因为它们的复杂结构由许多层和难以解释的参数组成。这种复杂性在理解这些模型的决策过程方面 pose 了巨大的挑战。在遥感背景下,这种模型的可解释性进一步复杂化,因为数据的性质包括各种光谱带、时间序列和空间分辨率。此外,噪声、遮挡和大气效应可能会 Mask 模型的决策过程。

因此,深度学习在遥感解释的可行性至关重要,因为它确保人类可以理解这些模型的决策和输出。开发解释模型输出背后的逻辑是验证其结果并建立其实际应用信心的必要条件。一种普遍采用的方法是,以模型预测的个别效果进行事后解释,从而提高其可解释性,但不会影响其准确性。这一解决方案在地球观测领域得到应用,其中解释作为显著图(或热力图)呈现,突出显示卫星图像中哪些部分影响了模型预测[15; 18](图1(c)和(d)为例)。

最近Kolgomorov-Arnold网络(KANs)[23]的引入为神经网络提供了一种新型范式,作为多层感知模型(MLPs)的替代品。受到Kolomorov-Arnold表示定理[2; 20]的启发,KANs允许学习网络边缘的定制激活值。这样,作者可以分析输入数据中单个组成部分的贡献,从而提供网络决策过程更透明的视图。由于其在改善视觉任务方面的潜力,KANs最近被集成[22]到U-Net架构[36]中,该架构是一种知名的分割架构。所得网络,称为U-KAN,用于医学影像分割,并展现了卓越的准确性和效率。

在本文中,作者首次探讨将U-KAN应用于农田像素分割,从性能和可解释性角度分析U-KAN和U-Net。

作者的研究问题如下:

RQ1: U-KAN与U-Net在农田像素分割任务上的表现有何差异?RQ2: 卫星图像的哪些部分对模型的预测影响最大?U-Net和U-KAN是否优先考虑图像的不同方面?

为回答第一个研究问题,作者在Sentinel-2[14]和Sentinel-1[44]卫星图像上的南半球农田类型数据集[46]上评估U-KAN和U-Net,该数据集用于农田像素分割。作者的发现表明,与U-Nets相比,U-KAN在交并比(IoU)和每秒千亿浮点运算(GFLOPs)方面更准确和高效。

对于第二个研究问题,作者分析了两者的可解释性。作者利用事后可解释性技术确定图像中哪些部分影响了模型识别。作者对U-Net和U-KAN的这些重要性评分,称为显著性图,分析了识别行为的差异。作者的结果表明,U-Net和U-KAN确实考虑图像的不同方面进行预测。U-KANs通常侧重于农作物的边缘,而U-Nets更专注于内部,如图1(c)和(d)所示。此外,作者还定量评估了显著性图的质量,发现U-KANs更为忠实和可靠。

作者的贡献可以总结如下:

  1. 作者首次探索了将U-KAN应用于农田图像分割的应用。
  2. 作者对U-KAN和U-Net在卫星图像上的农田图像分割进行了比较分析。
  3. 作者利用事后可解释性技术分析了两者的可解释性,并用于生成和评估显著性图。
  4. 作者发现与U-Net相比,U-KAN提供了更高的精确度和效率,以及更忠实且更合理的显著性图。

实验代码可在 https://github.com/DarthReca/crop-field-segmentation-ukan。

2 Related Work

在本节中,作者将概述农业遥感技术的最新进展,解释神经网络的可解释性,并探讨二者之间的交集。

Remote Sensing

遥感的应用已经被广泛应用于农业领域,旨在加强农作物的监测、管理和产量提升。早期的研究主要集中在利用卫星影像评估农作物健康和估算产量 [5]。传感器技术和数据处理技术的进步使得遥感数据的分辨率和准确性大幅提高,使得对农业景观的详细分析成为可能 [33]。在农业中应用遥感的其中一个例子是农作物田块分割,它涉及到识别耕作区域。

卷积神经网络(CNNs)和U-Net架构的引入进一步提升了农作物田块分割的效果 [4, 48]。虽然近年来提出了其他架构,但由于其设计,它仍然是最有效的遥感 Baseline 之一。将多光谱和超光谱影像整合也为更准确农作物田块分割作出了贡献。这些影像记录了不同波长下的数据,提供了关于农作物特性更丰富的信息 [43]。

Explainable AI

可解释的人工智能(XAI)是AI研究中一个致力于使机器学习模型对人类可解释和理解的分支 [32, 1, 3]。近年来,由于需要在远程感知中应用复杂的AI模型,使解释的需求越来越大,这项技术在地球观测任务中的应用变得非常热门。该领域的解决方案遵循着XAI方法的分类标准:设计得易于解释和事后可解释的方法 [32]。其中,设计得易于解释的方法,如将可解释性内在地集成到模型算法或其架构的设计中。然而,这些方法往往不能解释个体模型预测,人们对它们是否能真正帮助人类理解过程持怀疑态度 [15]。此外,它们往往比黑盒模型更不精确。为了克服这些限制,许多工作专注于事后解释 ,它们旨在解释训练黑盒模型,同时保留其准确性和增强透明度。

显著性图(Saliency maps)是用于可视化输入图像哪些部分影响模型预测的最为广泛使用的后置解释方法。显著性图(或 Heatmap )是像素基的重要性分数,突出每个像素对预测的贡献。这些图广泛应用于医学诊断等语义分割任务 [16, 17, 18, 26]。由于遥感模型决策过程的理解急需,已有研究开始将其应用于卫星图像和农田分割等领域。

在这些研究中,Kakogeorgiou和Karantzalos [18]对在遥感多标签深度学习分类任务中解释显著性图的十种可解释AI方法进行了系统评估,并从定性和定量角度进行了系统性分析。然而,作者的方法并非与多个XAI方法对比,解释同一个模型,而是用与同一可解释性技术从两个模型中推导显著性图,进行系统性评价。他们的研究将Grad-CAM [38]认定为可靠且可解释的方法,且计算成本较低 [18]。作者利用这项分析的结果,并选择Grad-CAM作为可解释性方法。

为了解释的需求,最近提出的KANs [23]通过允许通过剪枝与网络互动以及可视化可学习激活函数,提供自身的一定程度的解释性。工作进行将其集成到U-NET架构 [36],提高了在医学诊断任务上的性能和效率 [22]。作者的研究是首次将U-KANs应用于农田分割领域。此外,作者从解释的角度比较了U-NET和U-KAN架构,并提出了它们解释性的系统评价。就作者所知,作者也是首次以事后解释的角度评估U-KAN,并分析了Grad-CAM提供的个体解释。

3 Methodology

在本节中,作者首先详细阐述了农田分割任务,接着是可解释性部分,最后是模型部分。

Problem statement

本研究针对基于辐射度或光谱图像的作物田间分割问题。该问题的表述如下:

为任意大小为 的卫星图像, 其中 分别表示图像在像素中的宽度和高度, 而 表示图像的深度 (即每个像素的特征数量)。目标是自动创建与 相关联的二进制 Mask ,它是由一个大小为 的矩阵表示,其中单元格的值为 1 表示该像素包含耕作区域, 值为 0 表示该区域为非耕作区域。

Explainability Statement

作者旨在通过为用户提供模型预测的可视化解释来帮助用户充分理解模型如何实现有效分割。从XAI(交互式人工智能)的角度来看,这个问题可以表述为以下形式:

给定图像 和其二值 Mask , 作者希望生成一个大小为 的显著性图(或 Heatmap ) , 以突出表示模型预测重要区域的 中的区域。 中的每个元素 都是与图像 中的像素 相关的显著性得分。每个值 表示 对成熟区域预测的影响。通过可视化显著性图,有助于解释模型如何做出其决策。

Models

在这项研究中,作者比较了著名的U-Net [36]与一种修改版[22],该版本将KAN[23]层集成到架构中。接下来,作者首先概述U-Net架构。然后,作者概述KAN神经网络,并最后将其集成到U-KAN架构中。

3.2.1 U-Net

卷积神经网络(CNN)是一种在医学图像分割领域的常用架构。它的结构特征是一种U型,如图2所示,收缩路径用于捕捉上下文,而对称扩展路径用于实现精确的局部定位。收缩路径由重复的卷积和池化操作组成,而扩展路径涉及上采样和卷积层以恢复图像分辨率。这种设计使U-Net能够有效地从相对较少的训练图像中学习,并产生高质量的分割,使其成为医学图像分割之外的广泛选择。

KAN

[23] 科尔莫戈罗夫-阿诺德网络(KANs)是一种新颖的神经网络类型,灵感来自于科尔莫戈罗夫-阿诺德表示定理[2, 20],该定理表明:每个多变量连续函数 可以表示为两个参数函数的求和:

其中 。与传统的多层感知机(MLPs)固定在节点上的激活函数不同,KANs采用可学习的激活函数在边上。这通过用带样条的单变量函数参数替代每个线性权重参数来实现。训练过程中,激活值逐步变化以更好地区分目标,KANs还提供了一种可视化可学习激活函数的可能途径。这样,KANs可以比MLPs更透明和高效地学习复杂关系,提供了一种有前途的替代深度学习模型。在不需要复杂非线性时,学习的激活可以表示为价格低廉的函数(如常数或线性)。这也授予了理解输入的关键部分的可能性。

U-Kan

U-KAN [22] 提出了一种方法,使用KANs来实现U-Net深处。这些层包括一个分词层,一个KAN层,一个下采样层和一个最后的归一化层。如图3所示,深度表示的处理器网络是区别的关键。U-Net的主要特征(如下采样和跳跃连接)保持不变,共享相同的好处。编码器最后层和译码器第一层的修改使得网络可以学习自定义激活函数而不是固定函数,这有可能提高嵌入的表示性,并在需要时通过学习简单的激活减少所需的计算资源。

4 实验设置

本节描述所采用的数据集、实验设置和用于评估生成的图像分割性能和解释质量的采用的评价指标。

Dataset

作者使用了南非作物类型数据集[46],该数据集包含来自Sentinel-2和Sentinel-1的图像,覆盖南非广阔的地区。数据集中包括形状不规则的小型农作物区域,使得区分耕作和非耕作区域更具挑战性,同时该数据集提供了比其他覆盖该区域的图像更高的分辨率(大小为256×256)。标注包含覆盖了特定作物的区域的 Mask 。在作者的分析中,作者仅限于通过分析从Sentinel-2和Sentinel-1获得的两种类型的图像来区分耕作和非耕作区域。

Sentinel-1[44]是Copernicus计划下的一颗卫星,配备了C波段合成孔径雷达成像仪(SAR),可以进行全天候、昼夜的雷达成像。卫星能够在单极化和双极化模式下运行。在陆地,它主要收集VV和VH极化。

Sentinel-2[14]是Copernicus计划的一部分,由两颗卫星组成。这些卫星配备了能在红外光谱中工作的多光谱成像仪器,具有13个光谱波段,从Ultra-Blue、Visible、近红外(NIR)到短波红外(SWIR)。由于Sentinel-2具有仪器,因此对植被特别敏感。

虽然Sentinel-1图像可以因为其辐射特性覆盖不同的气象情况,但Sentinel-2受到云中和类似的气象干扰的影响。由于提供的云 Mask 往往不准确,作者使用s2cloudless算法[39]计算了 Mask 。作者排除了与作物区域重叠严重的Sentinel-2低质量图像(云 Mask 和包含作物的区域交集超过0.7)。

由于没有给出划分,作者将数据集随机分为包含2019个训练样本、267个验证样本和364个测试样本的训练集。这三个划分根据卡方检验(衡量类频率)测量相似度。这样,由于Sentinel-1和Sentinel-2的日期不完全匹配,因为不同的重访时间,作者创建了包含三个划分的两个数据集。图4显示了Sentinel-1 VV和Sentinel-2 RGB的测试集样本。

Experimental Setting

实验设置部分详细描述了实验所需的技术和硬件环境。在此部分,研究者们会阐述实验中的算法、数据预处理方法以及实验所需的硬件要求。此外,实验设置部分还应包含有关实验设计、实验参数调整和实验结果收集的详细描述。这将有助于读者充分理解实验流程,并为实施类似研究提供指导。

本实验主要研究[研究目标],并采用[实验方法]。为保证实验结果的有效性和可重复性,作者使用了[数据集]。在本部分,作者将详细说明实验过程,包括数据集的预处理方法、模型训练和验证的设置,以及实验结果的分析和讨论。

首先,作者将对数据集进行预处理。预处理的目标是消除噪声,提高数据质量并为后续的模型的训练和验证做好准备。作者采用了[预处理方法],包括数据清洗、数据标准化和平滑等步骤。这一步骤将有助于提高实验的准确性和稳定性。

接下来,作者将采用[模型结构]进行模型的训练和验证。作者首先使用[训练集]进行模型的训练,并利用[验证集]对模型性能进行评估。在此过程中,作者将设置多个训练参数,如学习率、批次大小和迭代次数等,以获得最佳的模型性能。在模型训练过程中,作者将采用[监控指标]评估模型训练的稳定性,以确保模型能够准确地学习到数据中的隐藏规律。

最后,作者将对实验结果进行分析和讨论。

作者将在以下几个方面展开讨论:模型性能、实验误差和实验结果的可靠性。通过这些讨论,作者将努力为读者提供有价值的信息,并希望为未来相关研究表明提供一个参考。

4.2.1 Crop Field Segmentation

图像尺寸:对于Sentinel-1数据,大小为256x256x2;对于Sentinel-2数据,尺寸为256x256x12。作者训练所有网络使用AdamW优化器,并使用学习率调度器,当达到平台时降低因子0.2并耐心5次。初始学习率设定为1e-4,批次大小为16。作者训练模型60个周期。作者应用随机水平翻转和垂直翻转作为增强。损失函数是广义 dice 损失 [41],它考虑图像中的类别不平衡。作者将两种具有相同编码器(因此解码器)嵌入大小的网络进行比较,以更好地理解决如何利用相同的表示空间。

作者在 Intersection-Over-Union (IoU),F1-Score(F1),Precision(Prec)和 Recall(Rec)指标上评估网络在正类的性能。作者还可以使用 GFLOPs 指标来衡量网络的效率。

4.2.2 Explainability

作者使用Grad-CAM[38]作为一个视觉后的解释方法,因为其在远程感知[18]之前的XAI研究中已被证明是有效的。由于其独特的优势,它能帮助作者解答一个关键问题:“模型在划分作物时关注哪些像素?”

对于每一张图像,作者生成单个显著图来量化每个像素对模型(例如,U-NET或U-KAN)的预测(即,耕作区域)的影响。在Grad-CAM中,生成过程首先涉及计算与所选卷积层特征图相关的正类分数的梯度。这些梯度被全局平均以获取每个特征图的重要性权重。然后,使用计算出的权重对这些特征图进行加权求和,这会产生一个粗糙的位置图,突出显示输入图像中最 influential 的区域。接着,作者对加权求和施加ReLU激活,以确保只考虑正的影响因素,产生最终的Grad-CAM Heatmap 。在作者的实验中,作者使用Sentinel-2数据,提供了12个通道的多光谱图像,并为测试集图像生成解释。

作者评估了生成的Grad-CAM Heatmap 的可信度[39]、充分性[40]和每个通道的相关性[40]。接下来,作者提供一个详细描述每个度量指标的说明。

可信度指显著图与人类理解和领域专业知识[39, 18, 37]的符合程度。这对于确保模型不仅表现出色,而且与人类的期望和知识相契合至关重要。在本研究中,作者希望评估每个生成的显著图与相对真实值之间的契合程度。作者通过计算生成显著图与相应真实值 Mask 之间的每个指标(IoU,F1,Prec,Rec)来评估显著图的可信度。

由于作者的显著图提供了连续的的解释,其中每个像素都有重要性值,作者建立了一个重要性阈值,以定义哪些像素被认为是奥特斯方法[34]中分割显著图的重要因素。奥特斯方法将显著图分割成不同的区域,创建一个可以直接与二进制真实值 Mask 相比较的二进制 Mask 。

4.2.3 Sufficiency

[24, 35]。充分性是忠实度的一个方面,评估解释是否确实捕获了导致分段的重要因素,因此是充分的。

为了评估解释的充分性,作者只保留解释确定的重要像素,并 Mask 其他像素。然后,作者在改变后的图像上评估正类的性能指标(IoU,F1分数,精确率和召回率)。充分性计算为原始图像和改变后的图像之间的指标变化。性能下降得更小表示解释更充分。在此次实验中,作者还使用了Otsu方法对二值显著图进行阈值分割。

4.2.4 Per-channel Relevance

标准XAI评估的另一个重要方面是当输入图像被扰动时性能指标的变化。覆盖敏感性(Occlusion sensitivity)是一种方法,它通过使用滑动窗口系统地遮挡输入图像的一部分来测量模型输出的变化。这种技术识别出模型预测的关键图像区域,为作者解释模型的推理过程和解释的忠实度提供了洞察。







请到「今天看啥」查看全文


推荐文章
清晨朗读会  ·  渊源直播
昨天
BetterRead  ·  应对AI挑战最简单的方法
昨天
清晨朗读会  ·  渊源直播
3 天前
不正常人类研究中心  ·  没有什么事情是用吃解决不了的!
7 年前
房地产经理人联盟  ·  干货•金地项目总分享:工程师如何超越瓶颈!
7 年前