多层级几何—语义融合的图神经网络地表异常检测框架
A hierarchical geometry-to-semantic fusion GNN framework for earth surface anomalies detection
- “[{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"1 引 言","content":"地表异常ESA(Earth Surface Anomalies)是指在地球表面发生的自然或人为的灾害异常事件。近年来,地表异常事件日渐频发,造成了重大的生命和财产损失,对人类福祉构成了严重威胁。因此,越来越多研究者意识到推动人道主义援助和灾害响应研究HADR(Humanitarian Assistance and Disaster Response)相关研究的重要性(曾超 等,2022;Mateo-Garcia等,2020;Gupta等,2019)。及时发现地表的异常情况对早期救援和减少损失具有重要意义(Weber等,2023;李敏 等,2015;王世新 等,2009;王桥,2022),基于卫星影像的深度学习方法为 解决HADR面临的挑战提供了一个检测规模更大、准确率更高的方案(Kuzin等,2021)。然而,现有标签数据的数量有限以及卫星影像包含复杂的几何、语义信息,导致现有方法的性能并不理想(Rui等,2021)。大部分HADR相关研究采用了灾后分析的范式,特别是xBD数据集(Gupta等,2019)的发布起到了重要推动作用。该数据集是目前规模最大、质量最高的公开高空间分辨率卫星影像数据集之一,用于检测与评估地表异常事件后的房屋损毁,为人们进行灾后分析提供了重要的数据支持。然而,尽管灾后分析是灾后工作的重中之重,对灾后统筹规划、复盘分析具有重要意义,但其滞后性以及对数据的可获得性要求导致其难以在地表异常的实时响应任务中发挥作用,第一时间降低地表异常带来的损失。对于实时响应与救援工作而言,如何尽早且准确地检测出地表异常相比灾后分析更为重要(Kuzin等,2021)。一些方法试图通过引入额外的时相或模态数据来提高准确率,如变化检测(Weber和Kané,2020)和多模态融合(Saha等,2022)等。然而,这类方法对数据可获得性提出了较高要求,并且需要花费额外时间对不同时相、不同模态的数据进行预处理,实际情况中方法不易实施,给地表异常实时响应带来诸多挑战。一种有效的方法是基于单张卫星影像的地表异常检测,结合先进的CNN(Convolutional Neural Network)等视觉方法单张卫星影像中提取出深层特征,然后对特征进行处理分析从而实现地表异常的检测(Gueguen等,2015;李智勇 等,2003)。 然而,由于标签数据有限,这些方法很容易出现过拟合问题,导致泛化性有限,难以应用于真实的地表异常检测任务。由于缺乏标签数据,一些研究人员从工业异常检测中使用无监督学习方法的成功案例得到启发,例如影像重建和度量学习(Tilon等,2020)。然而,卫星影像远比MVTec AD数据集(Bergmann等,2019)等工业异常图像数据复杂,使得无监督方法难以像学习简单背景下的工业图像样本一样对具有复杂信息的卫星影像建模,导致模型性能较差。针对上述问题,本文提出了一种多层级几何—语义融合的图神经网络地表异常检测框架,它利用单张卫星影像来进行地表异常检测,降低了对数据的要求,减少了预处理所需的时间。在本文的框架中,多层级是指在图表示生成阶段,按照低阶几何和高阶语义两个层级进行地理实体的提取,从而形成图表示。多层级可以充分利用低阶几何和高阶语义信息,从而实现更加精准的异常检测。框架分为两个阶段,第一阶段从卫星影像中按低阶几何和高阶语义两个层级提取地理实体及其关系以构建图表示,第二阶段使用一种多层级图注意力网络,从构建的图表示中挖掘地理实体关系信息,提取更具有判别性的特征,并基于此进行地表异常检测。同时,考虑到目前仍然缺乏大规模、多类别的地表异常数据集,且大多数现有相关数据集都专注于一类或几类地表异常,例如洪水、飓风和山体滑坡等(冯权泷 等,2022;Kyrkou和Theocharides,2020)。为了填补这方面的空白,本文基于现有的已发布的xBD(Gupta等,2019)、Multi3Net(Rudner等,2019)和Sichuan Landslide and Debrisflow(曾超 等,2022)数据集与人工目视解译构建了一个复合数据集ESAD,用于地表异常检测任务。","result":"讨论了地表异常事件对人类福祉的严重威胁,强调了早期发现地表异常对减少损失的重要性。介绍了基于卫星影像的深度学习方法在人道主义援助和灾害响应研究中的应用,以及现有方法面临的挑战,如标签数据有限和卫星影像的复杂性。提出了一种多层级几何—语义融合的图神经网络地表异常检测框架,利用单张卫星影像进行异常检测,降低对数据的要求,减少预处理时间。框架分为两个阶段:第一阶段提取地理实体及其关系构建图表示,第二阶段使用多层级图注意力网络挖掘地理实体关系信息,提取判别性特征进行异常检测。同时,构建了一个复合数据集ESAD,用于地表异常检测任务,填补了现有数据集的空白。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"2 相关工作","content":"2.1 遥感影像地表异常检测自然灾害等地表异常事件日渐频发,引起了人们对地表异常检测和诊断的广泛关注。现有研究主要是基于卫星影像进行大尺度分析,根据研究的重点,可以将这些方法分为灾后分析和实时响应两大类。灾后分析旨在提取地表异常信息,对地表异常的程度、范围、趋势等方面进行分析、评估,以协助相关部门更好地进行统筹规划,改进现有问题,降低以后遇到此类地表异常事件的损失。其中变化检测和多模态融合两类方法最为普遍(Xu等,2019;Weber和Kané,2020;Kuzin等,2021;Lee等,2020;Yu 等,2022;Jiang 等,2020;谢卫莹 等,2024)。Xu等(2019)基于目标检测和统计数据构建房屋损毁评估数据集,并提出了一种双塔结构模型基于变化检测策略进行事后房屋损毁分析;Weber和Kané(2020)使用共享权重的CNN模型对灾害前后影像进行特征提取,以端到端的变化检测形式实现了房屋损毁评估。Kuzin等(2021)在实时遥感影像的基础上引入了额外模态数据,结合志愿者众包点数据训练灾害房屋损毁评估模型,提升了评估性能。针对部分地物在灾后的遥感特性,一些研究将光学影像、红外影像、SAR影像融合,实现了房屋损毁评估、火灾程度等灾后分析(Jiang等,2020;Yu等,2022)。然而,这两类灾后分析策略对数据的可获取性和预处理等方面有着较高要求,使得时间成本大大增加,难以应用于高时效性要求的任务中。本文研究重点主要聚焦于地表异常实时响应任务。与前者不同,地表异常实时响应在准确性的基础上更加注重时效性,旨在灾害发生后或灾害发生期间尽可能早地进行发现与诊断(Kyrkou和Theocharides,2020;Niu等,2022;Ji等,2018;Mateo-Garcia等,2020;Doshi等,2019;赖积保等,2022;刘启亮 等,2011;Xi等,2022)。Kyrkou和Theocharides(2020)提出了一种轻量级网络 EmergencyNet,将模型部署在无人机上实现了特定地表异常(如火灾、洪水等)的快速检测。Niu等(2022)提出了一种轻量级网络Reg-SA–UNet++,仅使用单张卫星影像实现了区域快速提取。Mateo-Garcia等(2020)在计算资源有限的卫星在轨条件下提取洪水区域,以实现更快的响应。然而,上述方法仅适用于有限几种或单一特定类型的地表异常检测,而在实际应用中,针对每种异常都训练一个模型会极大的影响响应效率,且难以克服模型泛化性问题。由于之前的研究工作存在如下几方面的问题:(1)预处理要求高,时间成本高;(2)地表异常检测任务注重时效性和准确性,现有方法无法兼顾时效性和准确性;(3)现有方法无法在资源有限的情况下实现多类地表异常是否发生的检测,本文旨在提出一种能够降低数据获取、处理等阶段时间成本,进行多种地表异常准确、快速检测的方法,用于地表异常实时响应任务。方法仅使用单张遥感影像进行地表异常检测,避免多时相、多模态数据获取、处理的时间消耗,并将多种地表异常类型统一划分为“异常”类别,通过二分类的方式进行地表异常快速检测,为后续具体的异常类型诊断、异常范围提取及异常分析等节省宝贵时间。同时,考虑到模型部署、推理的可行性与时效性,提出的方法引入轻量级图神经网络模型,能够以模块化的形式结合到现有轻量级网络中,以较小参数量的成本获得性能提升。2.2 图神经网络在卫星影像中的应用图神经网络GNN(Graph Neural Network)可以显式地获取节点、边和图之间的关系,可以有效地传播和聚合不同尺度的信息,这有利于捕获全局上下文和局部细节以学习高阶语义信息,例如语义关系和约束,从而能够比卷积神经网络相比卷积神经网络基于局部感受野的学习方式更利于挖掘图像的信息,实现对象级长距离特征的提取(Wu等,2021),这使得GNN可以更好地表达地理实体间的关系。这一优势使得一些研究人员将其应用到卫星影像的相关任务中,特别是高光谱影像的语义分割。Liu等(2021)使用超像素分割构建图,并结合CNN和图卷积网络GCN(Graph Convolutional Network)实现高精度土地覆盖分类。 在其他方法中(Jiang等,2022;Xi等,2022;Yang等,2022),采用不同的策略构建多尺度图表示,利用不同类型的GNN来提取不同尺度的语义信息,使得语义分割精度显着提高。最近,GNN也被引入到遥感图像分类任务中。Gao等(2021)使用GCN来提取森林、池塘等场景中的对象之间的关系辅助遥感图像分类。Liang等(2020)将目标检测得到的目标作为节点与GCN结合完成复杂场景识别任务。这些方法通过引入基于深度视觉特征与GNN结合,取得了较好的效果。受此启发,我们将GNN集成到我们的方法中来进行地表异常检测。这是使用GNN在地表异常领域的一次探索,可以为后续研究提供有益的参考与基准。","result":"首先概述了遥感影像地表异常检测的重要性,指出现有研究主要分为灾后分析和实时响应两大类。灾后分析关注提取异常信息,评估异常程度和范围,而实时响应则侧重于快速发现和诊断异常。现有方法存在预处理要求高、难以兼顾时效性和准确性、以及在资源有限情况下难以实现多类异常检测等问题。为解决这些问题,本文提出一种基于单张遥感影像的地表异常快速检测方法,通过二分类方式统一划分异常类型,降低数据获取和处理时间成本,提高检测效率。\n\n接着,章节讨论了图神经网络(GNN)在卫星影像中的应用。GNN能够显式获取节点、边和图之间的关系,有效传播和聚合不同尺度的信息,捕获全局上下文和局部细节,学习高阶语义信息。这使得GNN在高光谱影像语义分割、遥感图像分类等任务中取得了良好效果。例如,Liu等(2021)结合超像素分割和GCN实现高精度土地覆盖分类;Gao等(2021)使用GCN提取场景中对象间关系辅助遥感图像分类。这些研究表明,将GNN与深度视觉特征结合,可以提高遥感影像任务的性能。\n\n最后,章节指出本文将GNN集成到地表异常检测方法中,这是在该领域的一次探索,可以为后续研究提供参考和基准。通过引入轻量级GNN模型,可以在较小参数量成本下获得性能提升,实现地表异常的快速准确检测,满足实时响应任务的需求。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"3 多层级几何—语义融合的图神经网络地表异常检测","content":"本文提出的多层级几何—语义融合的图神经网络地表异常检测框架如图1所示,由遥感影像图表示生成和地表异常检测两阶段组成。输入一张由RGB 3个波段组成的高空间分辨率卫星影像,第一阶段通过两个不同的分支提取不同层级的地理实体生成多层级图表示和分配矩阵。分配矩阵是根据不同层级地理实体的空间位置构建的不同层级图节点之间对应的关系矩阵,用于指导图神经网络学习推理过程中的特征融合。阶段二先利用多层级图注意力网络GAT(Graph Attention Network)来更新图表示并通过读出操作生成每个层级的图嵌入表示(Veličković等,2018)。读出操作是指通过聚合节点特征的方式来得到整张图的特征表示。常见的读出操作包括最大池化、全局平均池化等。然后通过基于注意力的特征融合模块将来自不同层级的图嵌入融合,生成输入图像的特征向量。最后通过多层感知机MLP (Multi-Layer Perception)处理该特征向量,生成二分类结果以完成地表异常检测。图1本文所提框架示意图Fig.1Overview of proposed framework3.1 符号表示在第一阶段,本文从输入图像中获取到了无向属性图。在这里,和分别表示节点、边和节点特征的集合。对于每个节点都有一个特征向量来表示其特征,因此,所有节点特征表示为,表示每个节点的特征数量,表示集合的基数。表示两个节点之间的边。图结构表示为对称邻接矩阵,其中对于节点 ,如果,则=1。节点的邻域定义为。3.2 多层级图表示生成为了充分发挥图的优势并利用图神经网络GNN提取卫星影像的特征,图表示的生成至关重要。现有方法大多采用简单线性迭代聚类SLIC(Simple Linear Iterative Clustering)算法(Achanta等,2012),将相对同质的像素聚合成超像素作为图节点,提高计算效率并降低噪声。然而,SLIC算法受参数设置影响而存在局限性,可能只能提取部分语义实体,例如将道路分为多个路段会使语义对象和关系很难构建。因此,我们引入了一个新的分支,它利用语义分割方法提取更完整的地理实体作为图节点,作为图表示的基础。通过两个不同层级的分支生成的图表示可以为下游任务提供更全面的图信息。(1)低阶图生成。低阶图表示局部语义。形象的说,低阶图中的节点可以被视为叶子,它们一起形成树,形成更高级别的语义表示。低阶图的构建涉及3个步骤:(1)超像素分割,(2)节点特征提取,(3)拓扑关系构建,如图1所示。首先,使用简单线性迭代聚类SLIC算法,其中为参数,获得超像素图,其中包含个超像素(表示低阶地理实体)作为节点。然后,我们将超像素叠加到输入图像上,并计算每个超像素所对应的所有像素特征向量的平均值,从而得到每个节点的特征向量,表示每个节点的特征数量。最后,本文以节点特征之间的欧氏距离为基础使用k近邻算法kNN(K-Nearest Neighbor)构建低阶图的初始拓扑关系,并删除超过距离阈值的边,从而优化图表示。对于每个节点,若满足 (1)式中,表示距离矩阵中第小的元素,则构建一条边。按照这个流程,将低阶图拓扑结构表示为一个二元邻接矩阵。生成的低阶图可以表示为。(2)高阶图生成。本文引入一个高阶分支来从图像中提取更高阶的语义实体,该分支的图生成流程与低阶图生成类似。首先,我们使用模型参数为的预训练语义分割模型来获得初步语义分割结果和特征图。然后,将分割图叠加到特征图上,并计算每个高阶地理实体内所有像素特征向量的平均值,以获得每个节点的特征向量,表示每个节点的特征数量。最后,使用区域邻接图RAG(Region Adjacency Graph)算法来生成高阶图表示。按照这个流程,将生成的高阶图的拓扑结构表示为二元邻接矩阵,高阶图可以表示为。(3)构建分配矩阵。从语义角度来看,卫星影像中的对象可以被视为多层级的地理实体,范围包括从高阶地理实体(例如森林)到低阶地理实体(例如树木)。层间和层内耦合基于这些实体之间的拓扑分布和拓扑关系而存在。受Jia等(2024)的启发,我们利用分配矩阵来构建基于低阶几何特征和高阶语义特征的联合表示。层内拓扑结构已经在之前的图生成阶段得到,即和。为了在下一阶段联合利用高阶图和低阶图,我们使用二元分配矩阵表示不同层级地理实体之间的拓扑关系,分配矩阵如图2所示。具体地,对于第个低阶地理实体和第个高阶地理实体,相应的分配规则为:如果第个低阶地理实体被包含于第个高阶地理实体,,否则,。图2分配矩阵示意图Fig.2Illustration of assignment matrix根据上述规则,每个低阶地理实体均被分配给有且仅有一个高阶地理实体。最终,对于每个输入影像,都可以生成一个分层级图。3.3 地表异常检测(1)分层级图注意力网络。在第二阶段利用来提取高阶语义信息进行地表异常检测。地理实体之间关系通常是多种多样的,所以不能假设所有的相邻节点在消息聚合过程中做出的贡献是相同的。因此,本文采用分层级图注意力网络GAT作为主干网络。具体来说,节点特征的更新规则可以表示为以下等式: (2) (3)式中,表示第层中节点的特征向量,表示sigmoid函数,表示节点的所有相邻节点,为注意力系数,和表示第层的权重矩阵和偏置项,是可学习的参数向量,‖代表拼接操作。考虑到节点特征的长度不同,采用两个具有不同输入层的GAT,即和来更新节点特征。按照,使用低阶图的节点嵌入和来初始化高阶图的节点特征,可以弥补由于高阶地理实体的大面积和均值操作而造成的低阶几何信息的损失,即 (4)式中,是中映射到节点的节点集。然后,将按照进行类似的处理。最后,利用读出操作和MLP从和中提取不同层级的特征向量和,其中。(2)基于注意力的特征融合。基于注意力的特征融合模块将特征向量和自适应地融合,得到一个特征向量作为输入卫星影像X的特征表示。最后,将被输入到多层感知机MLP中以进行二分类,根据分类结果判别是否存在地表异常。公式表达如下: (5) (6)式中,和表示根据等式(6)计算出的注意力权重,代表元素乘积。函数表示将长度为的向量映射到m的卷积层。","result":"提出的多层级几何—语义融合的图神经网络地表异常检测框架由遥感影像图表示生成和地表异常检测两阶段组成。输入高空间分辨率的RGB卫星影像,第一阶段通过两个分支提取不同层级的地理实体生成多层级图表示和分配矩阵,用于指导图神经网络学习推理过程中的特征融合。第二阶段利用多层级图注意力网络GAT更新图表示,通过读出操作生成每个层级的图嵌入表示,然后通过基于注意力的特征融合模块将不同层级的图嵌入融合,生成输入图像的特征向量。最后通过多层感知机MLP处理该特征向量,生成二分类结果以完成地表异常检测。\n\n在第一阶段,从输入图像中获取无向属性图,包括节点、边和节点特征的集合。使用SLIC算法将像素聚合成超像素作为图节点,提高计算效率并降低噪声。同时,引入语义分割方法提取更完整的地理实体作为图节点,生成低阶和高阶图表示。构建分配矩阵以表示不同层级地理实体之间的拓扑关系。\n\n在第二阶段,采用分层级图注意力网络GAT作为主干网络,更新节点特征,考虑地理实体之间关系的多样性。使用两个具有不同输入层的GAT来更新低阶和高阶图的节点特征,弥补由于高阶地理实体的大面积和均值操作而造成的低阶几何信息的损失。然后,利用读出操作和MLP从不同层级的节点特征中提取特征向量。\n\n基于注意力的特征融合模块将来自不同层级的特征向量自适应地融合,得到输入卫星影像的特征表示。最后,将特征向量输入到多层感知机MLP中进行二分类,根据分类结果判别是否存在地表异常。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"4 实 验","content":"4.1 数据集现有地表异常数据集主要侧重于单类别异常的检测、诊断和灾后分析,并不能够满足本研究的需求。因此,提出了1个由3个公开可分发的数据集构成的复合数据集ESAD,以填补大规模多类别地表异常数据集的空白,示例如图3所示。具体来讲,ESAD由以下3个数据集组成:xBD(Gupta等,2019),Multi3Net(Rudner等,2019)和Sichuan Landslide and Debrisflow(曾超等,2022)。其中,xBD数据集是迄今为止第一个建筑损坏评估数据集,是目前含标签的高分辨率卫星图像中规模最大、质量最高的公共数据集之一,提供各种灾害事件的灾前和灾后卫星影像,包含共11034对灾后前—后影像对,图像尺寸为1024×1024,分辨率为0.5 m。Multi3Net数据集包含在德克萨斯州和休斯顿两个相邻的非重叠地区的分辨率为0.5 m的930张中分辨率卫星影像,图像大小为2263×1973,而Sichuan Landslide and Debrisflow则包含107张典型滑坡和泥石流灾害的图像(分辨率为0.2—0.9 m)、标签数据和描述文件,涉及地震滑坡、降雨滑坡、沟壑泥石流和边坡泥石流4种类型。在数据整合的基础上,通过目视判读的方式对数据集进行筛选和整合,为每张图片分配一个图像级的标签,然后通过裁剪和缩放来将图像尺寸调整为1024×1024,并确保样本的分辨率在0.2—1 m。最后将筛选整合好的数据根据地表异常的类型按照6∶2∶2的比例分为训练集、测试集和验证集。ESAD的详细信息如表1所示。图3ESAD数据集示例Fig.3Examples of ESAD Dataset表1ESAD数据集统计数据Table 1Statistics of ESAD4.2 基线方法和实现细节在实验中,本文综合效率、性能等方面因素,在第一阶段使用了SLIC算法进行超像素分割。经过多种参数设置尝试,并考虑到遥感影像空间分辨率情况,本文将SLIC算法中超像素大小设置为2500像素,最大超像素个数设置为1000,紧凑度为设定为10,最大迭代次数设定为10,其他参数均为默认参数设置。本文在第一阶段采用基于The Deepglobe Land Cover Classification Challenge数据集预训练的HRNetV2作为提取高阶语义特征的语义分割模型。具体分割类型为城市用地、农业用地、牧场、林地、水域、裸地、未知等7种类型。为了验证所提出方法的性能,本文使用ResNet-50、MobileNetV3和ViT-B/32作为基于视觉特征的基线方法。在图分类基线方法方面,HGP-SL(Zhang等,2019)是图分类领域目前最先进的方法之一,在Proteins等多个图分类数据集上取得了排名第一的精度,而HACT-Net(Pati等,2022)是医学图像分析中的一种先进方法,也使用分层级图表示策略。此外,为了验证两个分支结果特征融合的必要性和有效性,GAT-Low和GAT-High仅使用各自分支生成的特征向量。本文使用Concat-GAT评估基于注意力的特征融合模块,该模块仅使用拼接操作来获得图级别的嵌入。在本文中训练每个模型时都采用了相同的训练参数,具体参数如下:初始学习率为0.0001,迭代次数为200,优化器为Adam,损失函数为BCELoss。所有实验均在Ubuntu 18.04系统环境下基于PyTorch框架下进行,训练所用GPU为NVIDIA 3090 24 G。4.3 实验结果各类方法的定量结果如表2、表3所示,其中总体准确率、召回率、平均推理时间和参数量用于评估综合性能。如表2所示,本文提出的方法总体精度和召回率与ResNet-50相比基本相同,比MobileNetV3分别提高了3.06%和3.00%,仅比ViT-B/32低2.25%和2.32%。在推理速度上,本文提出的方法与基于视觉特征的方法基本持平。但在参数量上本文方法有着明显优势。与基于视觉特征的方法相比,本文模型推理速度基本相同,而参数量却远小于ResNet-50和ViT-B/32,甚至优于专为有限资源条件设计的MobileNetV3。总的来说,本文提出的框架在总体精度、召回率和推理速度上的表现与基于视觉特征的方法基本相近,但在参数量方面有显著提升。除此之外,本文模型在收敛速度等方面也有着较为明显的优势。与基于GNN的方法的定量对比结果如表3所示,HGP-SL方法虽然是图分类任务中最优的算法之一,但仅能使用单一层级的图表示进行学习,导致效果相对较差。且HGP-SL-Low精度显著高于HGP-SL-High,这表明尽管高阶图节点特征包含了更多高阶语义信息,但其生成方式使得其节点更少,在该过程中存在信息丢失,导致性能降低。相比其他基于GNN的方法,在推理速度和参数量相近的情况下,本文提出的框架取得了显着的性能提升,准确率和召回率分别提高了3.99%和3.1%,而参数量没有显著增加。总体而言,我们的方法在准确性和效率之间取得了更好的平衡,使其更适合地表异常检测,同时为下游任务节省了宝贵的时间和资源。表2与视觉模型的定量对比结果Table 2Quantitative comparison results with visual models表3与图方法的定量对比结果Table 3Quantitative comparison results with GNN-based methods除此之外,本文还对提出的模型进行了消融实验,以验证提出的框架各模块的有效性,实验结果如表4所示。GAT-Low (RGB)和GAT-Low(Pretrained)分别表示节点特征来自于原始RGB图像和使用预训练CNN提取后的特征图,结果对比表明,在低阶图生成阶段,使用预训练的 ResNet效果好于仅使用RGB图像,深度特征表达以及更长的特征向量赋予了图节点更多可学习的信息。Concat-GAT是指将第一阶段生成的低阶图表达和高阶图表达经过GAT后生成的特征向量只进行简单的拼接操作输入多层感知机进行分类。w/o AM(Assignment Matrix)是指不使用分配矩阵将高阶图表示和低阶图表示进行聚合。Concat-GAT和提出的方法在不使用分配矩阵AM时性能有所下降,表明通过AM将低阶图信息聚合到高阶图节点中,能够一定程度上为高阶图补充低阶几何等细节信息,防止信息丢失,提升模型性能。GAT-Low、GAT-High与提出的方法的结果对比表明,融合几何、语义信息得到的效果显著好于仅使用其中一个分支获取的信息所得到的效果。以图4为例,通过分配矩阵AM,可以为图4(c)中的语义分割区域提供内部的几何信息,以城市用地为例,通过分配矩阵,可以为使大面积的城市用地区域提供边缘纹理等细节信息,以及组成这片城市用地的超像素数量,补充了高阶图表示中的低阶信息缺失。由于高阶图的节点对应的覆盖范围往往很大,所以通过读出操作聚合节点特征时,大量像素特征形成的一个特征向量会导致细节信息的丢失,因此需要补充低阶信息。高阶特征在语义层次上进行了抽象,但是低阶特征在表达节点本身几何属性时也有着重要作用。Concat-GAT和提出的方法结果对比表明,基于注意力机制自适应融合高阶图和低阶图表达,效果比传统仅使用特征拼接方法更好,能够更好地学习不同层级特征对地表异常判断的影响从而做出更优的判断。注: AM表示分配矩阵Assignment matrix。表4消融实验Table 4Ablation studies of proposed method图4定性分析示例Fig.4Examples of qualitative analysis","result":"介绍了多层级几何—语义融合的图神经网络地表异常检测框架的实验部分。首先,作者提出了一个复合数据集ESAD,由xBD、Multi3Net和Sichuan Landslide and Debrisflow三个公开可分发的数据集组成,以满足大规模多类别地表异常数据集的需求。ESAD数据集经过筛选和整合,图像尺寸统一调整为1024×1024,分辨率在0.2—1 m之间,并按照6∶2∶2的比例分为训练集、测试集和验证集。\n\n在基线方法和实现细节方面,作者使用了SLIC算法进行超像素分割,并基于The Deepglobe Land Cover Classification Challenge数据集预训练的HRNetV2作为提取高阶语义特征的语义分割模型。同时,选用了ResNet-50、MobileNetV3和ViT-B/32作为基于视觉特征的基线方法,并对比了HGP-SL和HACT-Net两种图分类基线方法。实验中,所有模型采用相同的训练参数,包括初始学习率、迭代次数、优化器和损失函数。\n\n实验结果表明,所提出的方法在总体精度、召回率和推理速度上与基于视觉特征的方法基本相近,但在参数量方面有显著提升。与基于GNN的方法相比,在推理速度和参数量相近的情况下,本文提出的框架取得了显着的性能提升。此外,消融实验验证了所提出框架各模块的有效性,如使用预训练的ResNet提取特征、通过分配矩阵AM聚合低阶图信息到高阶图节点中,以及基于注意力机制自适应融合高阶图和低阶图表达等。\n\n定性分析示例如图4所示,展示了通过分配矩阵AM为语义分割区域提供内部的几何信息,补充了高阶图表示中的低阶信息缺失。总体而言,本文提出的框架在准确性和效率之间取得了更好的平衡,使其更适合地表异常检测,同时为下游任务节省了宝贵的时间和资源。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"5 结 论","content":"本文提出的多层级几何—语义融合的图神经网络地表异常检测框架,基于图节点信息传递、聚合与注意力机制从图中进一步挖掘、理解卫星影像中复杂的语义信息,便于准确地检测地表异常。考虑到现有地表异常检测基准数据集的缺乏,本文基于现有公开可分发数据集构建了一个复合数据集ESAD,用于基于单张卫星影像开展地表异常检测任务。大量实验表明,本文方法在地表异常检测任务中取得了优异的性能,在准确率、召回率与推理时间方面优于许多基线方法,可精确、有效地开展地表异常检测任务。在未来的工作中,我们将进一步探索模型框架以获得更好的性能,并将我们的方法扩展应用到在轨实时地表异常检测任务。","result":"提出的框架通过图神经网络融合几何和语义信息,利用节点信息传递和注意力机制,有效挖掘卫星影像中的复杂语义信息,实现地表异常的准确检测。构建了复合数据集ESAD,解决了基准数据集不足的问题。实验结果表明,该方法在准确率、召回率和推理时间上优于多个基线方法。未来工作将优化模型框架,扩展至实时地表异常检测任务。","language":"zh"}]”
- 2024年28卷第7期 页码:1760-1770
纸质出版日期: 2024-07-07
DOI: 10.11834/jrs.20243301
扫 描 看 全 文