“[{"title":"遥感基础模型发展综述与未来设想","chapter":"1 引言","content":"近年来,卫星发射数量呈爆炸式增长,根据UCS(Union of Concerned Scientists)发布的卫星数据报告,截止至2023年5月1日,全球有超过1200颗地球观测卫星在轨运行(https://www.ucsusa.org/resources/satellite-database[2023-07-23])。随之带来的是获取大量遥感数据的能力,比如高分系列卫星每天可覆盖全球上亿平方公里区域,下传量达到百TB级。丰富全面的数据可支撑多场景(城市、乡村、山地、海洋等)、多要素(道路、植被、车辆、飞机等)、多时相(不同季节、不同气候等)任务。但在人工专家判读的模式下,遥感数据利用率不到获取量的5%,难以完成多样化任务。近年来,越来越多研究人员从事遥感智能解译相关工作,针对不同平台、目标、任务单独设计专用模型(王威 等,2023;田壮壮 等,2023;李治 等,2023),如“十三五”高分支撑技术体系研制了近千个独立算法模型,提升了应用效益。但这种方式需要投入的成本大,模型无法泛化到其他任务中,在一定程度上造成了资源浪费。因此迫切需要寻找更通用、更泛化的解决途径。基于海量数据的“基础模型+下游任务”模式最近在遥感领域备受关注,已成为一种可行的通用解决方案(Sun等,2023)。基础模型利用大规模无标签遥感数据进行训练,以获取数据中的通用泛化特征,再通过增量学习快速迁移,适应多种场景或任务。在多项工作中展示了该模式的有效性,如在场景分类、目标检测、要素分割、变化检测等遥感国际基准数据集中精度提升显著(Sun等,2023;Mañas等,2021;Li等,2022a),并在重点目标识别、海洋环境监测、国土资源分类、智慧城市建设、公共卫生管理等实际业务中刷新应用效果。但这些遥感基础模型主要着重于分析目标环境中已发生或已具备的信息(感知识别)方面,一般采用的是单时相数据,较少利用遥感时序数据。最近有一些工作也开始探索基于多时相数据的遥感基础模型(Yuan等,2022;Yuan和Lin,2021,Cong等,2022),它们通过学习多时相数据中的时间特征,提升土地覆盖、作物等时序分类精度,但它们依旧侧重于感知识别类方向,无法支撑气象预报、交通预测、生态演化等需要预测目标环境未来状态信息(认知预测)的任务。去年开始,部分研究人员在气象领域提出了气象预测基础模型(Bi等,2022;Chen等,2023),利用欧洲中期天气预报中心提供的ERA5数据挖掘一定时空范围内相关气象要素的变化规律,在风速预测、温度预测、热带气旋预测等方面取得超越传统物理方法的效果。然而这些模型都是针对气象相关任务的,无法适用于遥感领域其他预测方向(如森林退化预测、舰船轨迹预测、河道变迁预测等)。针对以上问题,结合实际应用需求,本文提出新一代遥感通用预测基础模型的设想,通过学习天/临/空/地多源异构多时相数据规律,获取稳定泛化的时序通用特征,以支持多空间尺度、多时间尺度的认知预测任务。图1展示了本文在谷歌学术上检索到与遥感基础模型相关的文章。从近4年来文章数量的变化趋势可以发现,遥感基础模型的文章逐年增加,已成为遥感领域的热点方向,但目前尚未有涵盖多类基础模型的总结分析工作。此外,相比基于单时相数据的基础模型,基于多时相数据的遥感时序基础模型较少,且目前没有关于通用预测基础模型的相关工作。图1遥感基础模型文章统计(此次检索于2023年6月进行)Fig. 1Statistics of related literatures of remote sensing foundation model (The search was conducted on June 2023)本文希望可以为遥感领域做出以下3方面贡献:(1)本文对遥感基础模型论文进行全面、及时的综述,并总结目前工作存在的局限。通过详尽的阐述,读者可以掌握遥感基础模型的大致情况;(2)基于对现状的总结与分析,本文提出了新一代遥感通用预测基础模型的设想,对满足现实应用需求具有实际意义;(3)在设想的基础上,本文进一步探讨了遥感通用预测基础模型亟需突破的技术和未来发展方向,并通过初步实验验证了设想的可行性。","result":"介绍了遥感基础模型的发展背景和现状。随着卫星发射数量的增加,遥感数据获取能力显著提升,但人工判读模式下数据利用率低。为解决这一问题,研究人员开始探索遥感智能解译,设计专用模型提升应用效益。然而,专用模型存在成本高、泛化能力差的问题。近年来,“基础模型+下游任务”模式受到关注,通过训练大规模无标签遥感数据,获取通用泛化特征,实现快速迁移适应多种场景或任务。该模式在多个遥感任务中取得显著效果,并在实际业务中刷新应用效果。但现有遥感基础模型主要侧重于感知识别,较少利用遥感时序数据。一些工作开始探索基于多时相数据的遥感基础模型,通过学习时间特征提升分类精度,但仍无法支撑需要预测未来状态的任务。去年开始,气象领域提出了气象预测基础模型,取得超越传统方法的效果,但无法适用于遥感其他预测方向。针对这些问题,本文提出新一代遥感通用预测基础模型的设想,通过学习多源异构多时相数据规律,获取时序通用特征,支持多尺度认知预测任务。同时,本文对遥感基础模型论文进行全面综述,总结现状局限,提出新一代模型设想,并探讨技术突破和发展方向,通过实验验证可行性。遥感基础模型已成为遥感领域的热点方向,但目前尚未有全面总结分析工作,本文的研究具有重要意义。","language":"zh"},{"title":"遥感基础模型发展综述与未来设想","chapter":"2 遥感基础模型","content":"本文按照使用的数据(单时相/多时相)和应用的任务类型(感知识别/认知预测),将现有遥感基础模型分为3类:基于单时相数据的感知识别基础模型、基于多时相数据的感知识别基础模型、基于多时相数据的认知预测基础模型。本节将依次综述每类遥感基础模型的现状,并总结分析现有方法的局限。2.1 基于单时相数据的感知识别基础模型与自然场景类似,遥感领域的基础模型大多采用自监督学习方式,基于大量未标记的遥感单时相数据,挖掘通用表征信息,并迁移到分类、检测、分割、变化检测等感知识别类下游任务中。本文根据采用的自监督学习方法的不同,将现有基于单时相数据的感知识别基础模型分为基于对比式学习的基础模型和基于生成式学习的基础模型,如图2所示,并在表1中总结了每个模型使用的方法、数据和任务。图2对比式学习与生成式学习的对比Fig. 2A comparison of the contrastive learning and generative learning表1基于单时相数据的感知识别基础模型总结Table 1A gallery of the foundation model of perceptual recognition based on single-temporal data部分遥感基础模型基于对比学习方法,如MoCo(He等,2020;Chen等,2020c;Chen等,2021)、SimCLR(Chen等,2020a;Chen等,2020b)和CMC(Tian等,2020),通过数据增强产生多个样本,再利用对比损失学习通用特征。Jung等(2022)提出一种基于SimCLR框架的遥感平滑表示的自监督学习方法,输入多个图像并对其表示进行平均化操作。Zheng等(2021)结合了MoCo与几何增强等方法,提升了预训练模型的性能。部分研究人员发现可以利用遥感中同一个空间位置在不同时相上的数据属于同一类别的特点,因此设计了多时相视角的对比学习方法。Mañas等(2021)提出季节性对比损失进行遥感基础模型SeCo的训练,并收集大量遥感数据构建了同名数据集,在分类、变化检测等任务中取得显著效果。Mall等(2023)使用时序信息来对比具有长期和短期差异的图像,同时利用卫星图像不经常变化的特点设计了一种新的对比损失CACo Loss,和现有基础模型相比,提高了模型在土地覆盖分类、语义分割、变化检测等方面的准确率。在此基础上,一些研究人员还结合了遥感图像自带的地理信息提升基础模型性能。Li等(2022a)提出遥感地理知识驱动的基础模型训练方法GeoKR,将土地覆盖产品和地理位置视为地理知识,为模型训练提供自监督信息,同时构建了大规模数据集LevirKR支撑模型训练,减轻了场景分类、语义分割、目标检测等下游任务的标注负担。GeCo(Li等,2022b)方法利用地理先验知识指导并纠正表示学习过程,保证自适应校正过程的正确性,消除偏差影响,在场景分类、语义分割、目标检测等任务中取得了更好的效果。除此之外,还有一些工作引入了其他数据进行对比学习,如多光谱、SAR等多模态数据、音频数据等。Jain等(2021)将多光谱和SAR图像视为一张图像的不同增强视图来学习它们之间的相似性,以此获得更好的一致性表示。Heidler等(2023)使用配对的图像和音频数据进行训练,利用图像和音频数据间的对应关系,学习遥感场景中的关键属性,在航拍场景分类、航拍语义分割、视听场景分类、跨模态检索等任务中进行实验,证明方法的有效性。随着基于Transformer的生成式学习方法在计算机视觉领域基础模型方面取得巨大的成功,越来越多遥感领域的基础模型使用生成式学习,取得了较好的效果。Sun等(2023)率先提出RingMo遥感基础模型框架,构建了百万级大规模遥感数据集,并设计了针对复杂场景内小型密集物体的基础模型训练方法。在场景分类、目标检测、语义分割、变化检测等任务的国际标准数据集中性能提升显著。Scale-MAE(Reed等,2023)以已知比例掩码的输入图像来训练基础模型,在整个预训练过程中明确学习不同已知尺度的数据之间的关系,在8个遥感数据集上实现了下游任务的效果提升。Wang等(2022a)基于ViT提出针对多样遥感任务的基础模型RVSA,使用旋转可变尺寸窗口注意力来适应遥感图像的大尺寸和目标的任意方向,显著提高基础模型在分类、检测和分割等任务的准确率。Cha等(2023)构建了遥感领域十亿级基础模型,发现模型性能和数据效率随着参数数量的增加而提高,在旋转目标检测和语义分割等下游任务中实现了先进的性能。CMID模型(Muhtar等,2023)以自蒸馏的方式将对比式学习与生成式学习结合来学习全局和局部表示,CMID还可与CNN、ViT兼容,在多个下游任务中具有更好性能。Mendieta等(2023)以构建高效的遥感基础模型为立足点,首先建立了小型但多样化的数据集GeoPile,然后提出多目标持续预训练范式,兼顾蒸馏学习和生成式自监督学习,在利用最小资源的同时显著提升模型性能。2.2 基于多时相数据的感知识别基础模型近年来随着遥感技术发展,能够获取到时间间隔更短、空间分辨率更高的地球观测数据,针对同一地理区域连续获取的数据可转化为时序遥感数据(Gómez等,2016),此类数据包含丰富的地表状态和动态演变信息,常用来对局部或大范围的地表覆盖进行研究(Ienco等,2019)。和基于单时相数据的感知识别基础模型类似,自监督学习方法常被用于时序遥感数据训练,并应用于土地覆盖、作物等细粒度分类任务中,表2对常见的基于多时相数据的感知识别基础模型使用的数据和任务进行了总结。SITS-Former(Yuan等,2022)基于Transformer利用自监督学习通过缺失数据补全任务在大量未标记的Sentinel-2多时相数据上进行训练。给定一个不完整的多时相数据,部分数据被随机掩码,模型被要求根据未掩码数据的信息恢复掩码数据,因此模型可从数据中捕获高级的空间和时间依赖性,学习到判别性特征。SITS-Former将训练好的模型参数迁移到作物分类任务中获得显著的性能增益。表2基于多时相数据的感知识别基础模型总结Table 2A gallery of the foundation model of perceptual recognition based on time series data与此同时,基于多时相数据的感知识别基础模型不断扩展应用于其他下游任务。针对时序遥感数据标记少的问题,Yuan和Lin(2021)提出SITS-BERT模型,利用多时相数据固有的时间结构学习相关的通用时间特征,进行作物分类和土地覆盖研究,提高了模型的泛化性能并减少过拟合的风险。Cong等(2022)提出一种基于MAE(He等,2022)的多光谱多时相基础模型SatMAE,通过跨时间独立掩码方法充分利用时序信息,同时将多光谱数据编码为带有不同光谱的位置嵌入的频谱组,最后将训练好的基础模型参数迁移到土地覆盖分类和建筑物分割下游任务中,均取得了良好的结果。Tseng等(2024)提出一个专为地球观测多时相数据设计的基于Transformer的轻量级基础模型,通过自监督学习方法充分利用多传感器时间序列数据的结构,显著减少基础模型训练所需的参数量,并泛化于作物分割、燃料湿度回归、树木分类、土地覆盖分类等任务中。2.3 基于多时相数据的认知预测基础模型最近认知预测类任务开始受到研究人员的关注,因此也出现了一些基于多时相数据的认知预测基础模型。但目前,认知预测基础模型大多服务于气象预报应用,通过挖掘一定时空范围内相关气象要素的时空动态特征,了解气象要素变化规律,实现气象预测。当前已知的预测基础模型包括FourCastNet、盘古—气象、GraphCast、风乌—天气,表3对上述模型进行了详细介绍和说明。表3基于多时相数据的认知预测基础模型总结Table 3A gallery of the foundation model of cognitive prediction based on time series data2022年2月,NVIDIA提出了FourCastNet(Pathak等,2022)天气预测模型,使用了64个Nvidia A100 GPU进行训练。模型结合了ViT(Dosovitskiy等,2021)和傅里叶神经网络(Guibas等,2022),模型的预报分辨率提升到了和物理模型相比拟的水平,速度与物理模型相比快了多个数量级,但在部分气象下游任务上精度仍低于传统物理模型。盘古—气象(Bi等,2022)基础模型是2022年11月由华为提出的,使用了192个NVIDIA Tesla-V100 GPU进行训练,他们提出3D Transformer方法,输入和输出均为指定时间点的三维天气状态,并结合层次化时域聚合算法最小化迭代误差,他们的长期预报精度首次全面超过传统方法,并将时间效率提升至秒级。2022年12月,ECMWF提出一种基于图神经网络的自回归模型GraphCast(Lam等,2023),训练中模型使用了32台Cloud TPU v4,将原始经纬度网格映射到多网格上学习特征,通过深度图网络有效传递信息,实验结果证明,在中期天气预报中,模型性能优于欧洲气象中心的高精度预报。2023年4月,上海人工智能实验室提出风乌—天气(Chen等,2023)基础模型,采用多模态神经网络,结合多任务自动均衡权重策略,加强变量间协同优化作用,并提出了“缓存回放”策略,减少自回归预测误差,提高长期预测的性能,模型训练使用了32个Nvidia A100 GPU进行训练,在预报精度、预报时效和资源效率3方面均有了显著提升。2.4 现有遥感基础模型的局限近年来,遥感基础模型发展迅速,在众多应用任务中展示了显著的效果,但在认知预测方面还处于起步阶段,在数据、方法、任务上还存在一些局限:(1)数据方面:当前遥感基础模型对于单时相数据的利用较为全面,不止从卫星、无人机等多个平台中获取数据,还涵盖了可见光、SAR、多光谱等多种模态。然而多时相数据的应用较为局限,目前只包含了从卫星平台获取的时序图像和气象数据,其他平台和模态的数据没有被充分利用。(2)方法方面:针对时序认知预测的遥感基础模型大多采用Transformer架构,只有一个模型采用图网络。Transformer受限于输入长度的问题,难以扩展到遥感大图中。图网络虽然可以建模多尺度关系,但是训练一个大规模图网络难收敛,且容易过平滑(Ying等,2021)。遥感认知预测任务一般需要观察大场景中多个目标间的关联关系,且多时相数据体量大,模型训练困难。目前尚未有基础模型根据遥感特点突破常见模型架构。(3)应用方面:地球上的要素不断变化,因此遥感时序认知预测应用很广泛,包含多样场景(城市、森林、河道、气象等)、多类任务(轨迹预测、要素演化、数值预测等),然而目前遥感预测基础模型局限在气象领域,只能泛化到风速、温度、湿度、热带气旋等方面,缺少通用预测基础模型,无法适应多样场景和多种任务。","result":"综述了遥感基础模型的分类、现状和局限。现有模型根据使用的数据类型和应用任务分为三类:基于单时相数据的感知识别模型、基于多时相数据的感知识别模型和基于多时相数据的认知预测模型。单时相数据模型主要采用自监督学习方法,通过数据增强和对比损失学习通用特征,应用于分类、检测等任务。多时相数据模型利用时序信息,通过自监督学习捕获空间和时间依赖性,用于土地覆盖分类等细粒度任务。认知预测模型主要服务于气象预报,通过挖掘时空动态特征实现预测。\n\n单时相数据模型中,对比式学习模型如MoCo、SimCLR等通过数据增强学习特征,生成式学习模型如RingMo、Scale-MAE等利用Transformer架构学习表示。多时相数据模型中,SITS-Former、SITS-BERT等利用自监督学习补全缺失数据,SatMAE等编码多光谱数据学习时序信息。认知预测模型如FourCastNet、盘古—气象等采用ViT和Transformer架构,结合气象数据实现高分辨率预测。\n\n然而,现有遥感基础模型在数据、方法和应用方面存在局限。数据方面,多时相数据应用较为局限,缺少对其他平台和模态数据的利用。方法方面,Transformer架构受限于输入长度,图网络训练困难,缺少根据遥感特点的模型架构。应用方面,预测模型主要局限于气象领域,缺少通用预测模型适应多样场景和任务。未来研究需突破现有局限,发展更适应遥感特点的基础模型。","language":"zh"},{"title":"遥感基础模型发展综述与未来设想","chapter":"3 面向多域异构多时相数据的新一代通用预测基础模型","content":"基于第2节对现有遥感基础模型的总结与分析,本节提出新一代遥感通用预测基础模型的设想,并进一步讨论了在该设想下,亟需研究人员探索的未来方向。3.1 核心思路构建面向遥感多时相数据的新一代通用预测基础模型,共享学习多域异构多时相数据,支持多空间尺度、多时间尺度的预测任务,如图3所示。图3面向多域异构时序数据的遥感通用预测基础模型Fig. 3Remote sensing prediction foundation model for multi-domain heterogeneous time-series data具体来说:(1)数据方面:涵盖天/临/空/地多平台、轨迹点/时序图像/视频/气象数据等多类型、可见光/SAR/多光谱等多模态、厘米级到百米级多分辨率的遥感多时相数据;(2)方法方面:结合图网络和Transformer模型的优势,设计基础模型全新架构,具备对遥感大场景中多目标交互的长时序稳定预测能力,同时扩大模型容量,提升泛化效果;(3)应用方面:通用预测基础模型可应用到多空间尺度(目标级、要素级、区域级)、多时间尺度(近实时、小时级、长时序)的多样化认知预测任务中。3.2 探索性方向新一代遥感通用预测基础模型的核心是打通多域异构多时相数据输入及多时间/空间尺度任务输出的信息通路,通过提取稳定泛化的时序超像素特征,实现对未来状态的精准认知预测。为了实现以上目的,本文提出多域时序数据表征、稳定规律特征提取、目标环境交互影响建模以及多任务互促推理四个探索性方向,以供从事遥感基础模型的研究人员参考。(1)多域时序数据表征。为了在遥感领域实现通用认知预测的目的,需要兼容多域异构多时相数据,但这些数据在时间采样间隔、空间分辨率、数据维度等多方面均有显著差异。时间采样间隔上,普通视频的帧率为24帧/s,即每帧跨度约0.04 s;而大部分卫星受限于重访周期、云层干扰等原因,其获取清晰数据的时间跨度以小时/天为计量单位。在空间分辨率上,从厘米级的无人机数据到分辨率数米的卫星数据,其囊括的范围也从几百平方米跨越到全球尺度。在数据维度上,输入多时相数据的形态各异,如一维轨迹、二维气象数据、三维时序图像等不同维度的数据。因此,如何对多域异构多时相数据进行统一处理以实现多样特征的自动化提取是需要探索的方向。针对以上问题,本文提供一些可能的解决思路以供研究人员考虑。针对时间采样间隔不一致的问题,可通过数据相邻帧的相似度衡量时序冗余度,并基于此为时序冗余度高的数据选取更高的掩码比率,使得模型能够处理不同时间间隔的数据,并具备对不同时间尺度数据的时空预测能力。针对空间分辨率不同的问题,可采用金字塔结构进行空间多尺度特征提取。金字塔是数据空间多尺度表达的一种,它实际上是一张图片在不同尺度下的集合。通过图像金字塔结构统一不同分辨率的数据特征到同一尺度,达到不同分辨率数据的统一处理。针对多时相数据维度不同问题,使用不同模态专家学习一维、二维、三维数据独有的特征,再使用“掩码预测”方式统一不同数据的训练策略,使得模型的训练过程更加简单高效。(2)时序超像素引导的稳定特征提取。时序预测涉及在空间和时间维度上对未知系统状态的预测,需要对各种变量间的时空依赖进行建模。目标与环境的行为活动、变化过程遵守着显性或隐性的规律,以往传统模型只能基于显性规律人工建模物理方程,因此面临多重挑战。例如著名的三体问题,每一个物体在其他两个物体的万有引力作用下的运动方程可以表示成6个一阶的常微分方程。因此,一般三体问题的运动方程可以用18个微分方程描述。如果想要准确预测3个物体的未来状态,必须求解18个方程才能得到解析解。在这个例子中,通过观测而获得三体状态(位置、速度、加速度)的信息满足万有引力定律以及牛顿第二定律。上述例子是在理想环境下的建模,已被证明无法获得解析解,只能通过数值模拟进行预测。而遥感场景中的目标及环境变化更加复杂多变,其时序变化遵循多重规律,并且许多为隐性规律,难以通过显式的方程进行建模,因此传统预测模型难以从复杂多变的表象中挖掘隐藏在内部的隐性规律,获取遥感数据中的稳定特征。数据驱动的深度学习方法在一定程度上解决了复杂场景中高维、非线性规律、隐变量的拟合问题,然而基于单一数据源的预测基础模型只能实现单方面任务的认知,其所存储的稳定特征都是有限的,难以提取复杂场景下海量变化要素的规律特征,无法完成多样化预测任务。针对以上问题,本文提出时序超像素概念。时序超像素定义为:在复杂变化场景中表现出稳定规律且具有关联约束的时序像素特征集合。虽然像素在变化,但变化规律是稳定的,时序超像素是可通过函数建模的时序像素集。通用预测基础模型需要从复杂、随机的变化中学习稳定和关联的变化规律,获取时序超像素特征,并用其进行预测。通过多维大数据+通用基础模型的模式可提取稳定的超像素特征,大量时序超像素特征被提取和存储到基础模型的网络中,由此实现多样化任务的精准预测。同时,现有基础模型通常缺少预测的不确定性建模,可利用时序超像素整合数据驱动和物理模型驱动方法促进可解释性,降低预测误差,提高预测准确率。(3)目标环境交互影响建模。在遥感数据中目标的行为活动规律预测是人们关注的重点之一,目标的行为活动和时序变化除了受到物理定律的约束之外,还会受到目标间、目标与环境间的交互影响。目标间在时间维度上存在相互依存的关系,使得模型在捕获长期依赖关系时面临与真实关联偏移逐渐扩大的情况,使得演化计算结果随时序的延长而误差逐渐增大。此外目标受到周围地形、天气等变化环境的影响,目标行为表现出突发性强、行动难追踪、交互变化快等特点,导致目标行为具有随机性,在此情况下长时序预测结果会产生较大误差。针对上述问题,本文考虑综合利用图网络和Transformer增强目标—目标、目标—环境间的多样化信息交互能力。利用图网络的谱性质设计算法对复杂网络中的关联关系进行较准确的挖掘,进而嵌入Transformer架构实现大规模网络训练,可考虑两方面的结合方式。一方面是在位置嵌入基础上,引入图网络的拓扑结构,以衡量节点间的关联关系。另一方面在Transformer的多头注意力基础上,加入图网络节点间特征和连接节点的边特征的结构信息修正注意力分数。在此基础上,本文还考虑对图网络与Transformer结合的方式进行拓展,提出超图Transformer结构。超图与简单图不同,对于一个简单图,其每条边均与两个顶点相关联,即每条边的度都被限制为2。而超图则允许每一条边的度为任何非负整数,因此超图可以处理多元关系和高阶关系。遥感场景中目标-目标、目标-环境间的相互关系是多元的,超图能够更好地建模这种多对多的关系,在目标环境交互预测中表现出更好的性能。(4)异构预测任务互促推理。遥感时序预测应用包含了目标轨迹预测、要素演化预测、数值趋势预测等任务,各任务间差异大,具有不同时间尺度、不同空间尺度的特点。当前遥感预测基础模型都是针对气象预测单一应用场景的模型,无法支撑对跨场景多任务复杂情况进行分析与预测。此外,现有方法往往忽略对预测任务间特征关系的显式建模,任务间特征差异明显,梯度竞争严重,导致多任务处理能力受限,尤其是在序列化任务流中,存在严重的灾难性遗忘问题。本文提出的面向时序多任务的通用预测基础模型需要增强任务间的关系,优化网络持续扩展策略,引导模型动态更新过程中的网络参数更新方向。通过对任务特征关系的建模,利用任务的互补信息实现相互促进。通过适当的训练,深度神经网络中由低到高的隐层充当着复杂程度不断增加的特征变换,这些变换共享不同任务中共有的隐藏特征。尽管对数域的线性分类器对不同的任务在必要时可以分开,但特征转换仍然可以在跨任务之间进行共享。具体来说,可先将数据特征映射到同一个向量空间创建一个联合的数据嵌入空间,使得多个任务可以共享特征空间中的特征,实现任务间共性和差异的显式建模,提高多任务推理预测精度。3.3 初步实验进展本团队已开展新一代遥感通用预测基础模型的技术攻关,利用3.2节提出的思路,采用简单直接的方式初步构建了通用预测基础模型的原型架构。首先利用不同模态数据专用的时序特征提取模型将输入数据转化为模型可计算的特征序列,然后对特征序列进行随机掩码后通过参数共享的多维信息交互Transformer基础模型学习稳定的超像素特征,进而利用之前时刻数据预测掩码的未来时刻数据,达到通用预测基础模型融合训练的目的。最后利用训练好的基础模型参数在多个预测任务中进行微调实验,取得一些实验进展。用于预训练的多域时序数据来自天/临/空/地多个平台,涵盖时序图像、视频、轨迹点等多个类型,共包含11359200帧数据。模型共训练200个epoch,优化器选用AdamW,初始学习率设置为0.0005,衰减策略为余弦衰减。通过以上训练设置得到的预测基础模型具有通用泛化的特点,适用于多种下游任务。本文在多类遥感认知预测下游任务上进行实验,包括移动目标场景预测、降水即时预测、云图预测,选用的数据集分别为MOR-UAV、HuaBei2021、CloudCast。对于每个数据集,根据数据集的常用设置划分训练集与测试集,MOR-UAV、HuaBei2021、CloudCast数据集的训练集比例分别为85%、90%、25%,SOTA方法与本文方法都是采用相同的训练集与测试集。其中移动目标场景预测采用MOR-UAV数据集,该数据集中包含30个无人机视频,移动目标包括小型汽车、重型车辆等,场景涵盖停车场、十字路口等,因此移动目标的运动会受到场景环境的影响。该任务是个短时预测任务,利用前面帧的视频数据预测未来帧。降水即时预测采用的是HuaBei2021数据集,该数据集包含2021年6月至8月华为地区的雷达回波数据。该任务根据雷达探测得到的回波数据来确定降水的变化情况,并预测数小时后雷达回波的状态。云图预测采用的是CloudCast数据集,该数据集共包含11种不同的云类型,在2017年—2018年期间每15 min记录一次。该任务通过给定过去一段时间的云图,学习当前时间段的时空动态预测未来一段时间同一区域的时序云图。具体实验结果如表4所示。注:“↑”表示数值越高越好,“↓”表示数值越低越好。表4认知预测任务定量精度对比Table 4Quantitative comparison of remote sensing cognitive prediction tasks从表4可以看出,本文设计的遥感通用预测基础模型在3类认知预测下游任务中,无论是精度类指标还是误差类指标,都取得比当前最佳(SOTA)方法优异的性能。图4展示了移动目标场景预测的可视化图,尽管SOTA方法(Wang等,2022b)可以提取时空特征,但预测结果比较模糊,特别是遥感场景中的小型目标。相比之下,本文方法预测得到的预测模型结果更清晰,更接近真值。图5展示了降水即时预测的可视化图,图5中SOTA方法(Shi等,2015)输出的预测结果不仅模糊,而且与真值不一致,而本文方法给出了更清晰、更准确的结果。图6展示了云图预测的可视化图,可以看出本文方法的预测结果比SOTA方法(Wang等,2022b)更接近真实值,预测结果相对清晰。但目前训练出的预测基础模型还存在一些缺陷,一方面是部分任务的预测结果相对模糊,另一方面是目前模型的预测能力随着预测时间的推移而减弱,未来本团队将通过继续改进解决这些问题。图4移动目标场景预测可视化结果Fig. 4Qualitative visual comparison of moving object scenarios prediction tasks图5降水即时预测可视化结果Fig. 5Qualitative visual comparison of radar echo extrapolation tasks图6云图预测可视化结果Fig. 6Qualitative visual comparison of cloud forecasting tasks以上展示了目前在新一代遥感通用预测基础模型设想下,进行部分技术攻关后取得的初步进展,未来本团队会继续突破相关技术,在更全面的认知预测任务中获得明显能力增益。","result":"提出了面向多域异构多时相数据的新一代遥感通用预测基础模型的设想,旨在支持多空间尺度、多时间尺度的预测任务。模型核心思路是共享学习多域异构多时相数据,设计了结合图网络和Transformer模型优势的新架构,以实现对遥感大场景中多目标交互的长时序稳定预测,并提升模型泛化效果。应用方面,模型可适用于目标级、要素级、区域级等多空间尺度和近实时、小时级、长时序等多时间尺度的多样化认知预测任务。\n\n探索性方向包括:多域时序数据表征,提出解决时间采样间隔不一致、空间分辨率差异和多时相数据维度不同的方法;时序超像素引导的稳定特征提取,定义时序超像素为稳定规律且具有关联约束的时序像素特征集合,通过数据驱动的深度学习方法挖掘内部隐性规律;目标环境交互影响建模,利用图网络和Transformer增强目标间、目标与环境间的信息交互能力;异构预测任务互促推理,通过任务特征关系的建模实现任务间的相互促进。\n\n初步实验进展展示了利用提出思路构建的通用预测基础模型原型架构,通过多模态数据特征提取、多维信息交互Transformer基础模型学习,以及在多个预测任务中的微调实验,取得了优于当前最佳方法的性能。实验包括移动目标场景预测、降水即时预测和云图预测等任务,展示了模型的通用泛化特点和在不同遥感认知预测任务中的应用潜力。尽管存在预测结果模糊和随时间推移预测能力减弱的问题,但团队将继续改进模型以解决这些问题。","language":"zh"},{"title":"遥感基础模型发展综述与未来设想","chapter":"4 结论","content":"具有通用泛化能力的基础模型对于遥感智能解译的进一步发展至关重要。本文通过整理基于单时相数据的感知识别基础模型、基于多时相数据的感知识别基础模型、基于多时相数据的认知预测的基础模型的研究现状,为研究人员提供该领域的最新进展综述。在此基础上,通过分析当前遥感基础模型在数据、方法、应用上存在的局限,提出新一代遥感通用预测基础模型的设想,并进一步明确该设想下亟需突破的4个探索性方向并进行初步实验。后续工作将在多域多时序数据表征、稳定规律特征提取、目标环境交互影响建模以及多任务互促推理方面进行针对性的关键技术突破,同时继续探索更为通用的遥感基础模型,将感知识别与认知预测整合到一个架构中。","result":"强调了遥感智能解译中基础模型的通用泛化能力的重要性,提供了基于不同数据类型的遥感基础模型研究现状的综述,并分析了现有模型的局限性。提出了新一代遥感通用预测基础模型的设想,明确了四个探索性方向,并进行了初步实验。后续工作将专注于多域多时序数据表征、稳定规律特征提取、目标环境交互影响建模和多任务互促推理的关键技术突破,以及探索更通用的遥感基础模型架构。","language":"zh"}]”
“[{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"1 引言","content":"遥感图像的目标检测作为遥感影像解译的重要环节,在国防领域和国民经济领域有着广泛的应用。在水陆运输管控(El Shair,2003)、智能交通调度规划(Chen等,2021)、国土资源调查(李德仁 等,2021)和战场态势侦察感知等多种重要应用场景中,准确检测出遥感图像中的水面船舶与地面车辆建筑等目标是一项重要的应用任务。而遥感图像的特点,如图像场景复杂、地物类型多、目标偏小且密集、目标尺度不一等,导致遥感图像目标检测极具挑战性。以合成孔径雷达SAR(Synthetic Aperture Radar)为例,其提供的全天候、全天时的高分辨率图像由于成像机理和光学图像差别极大,辨别图像场景干扰与遮挡复杂多变,难以判读(张云鹏 等,2019)。因此准确地对遥感影像进行目标检测一直是遥感研究的重点之一。传统遥感图像目标检测算法可分为基于模板匹配的算法和基于传统机器学习的算法。基于模板匹配的算法主要包括模板生成和相似性度量两个步骤。该类算法简单易行,但鲁棒性差,无法适应目标的多变性(An等,2010)。随着人工智能的快速发展,以卷积神经网络为代表的深度学习方法也在遥感目标识别检测解译方面发挥了日渐重要的作用。基于深度卷积神经网络的目标检测网络在遥感图像检测上取得了长足的进步(Zhu等,2021;柳思聪 等,2023)。使用深度卷积神经网络的目标检测算法分为两阶段算法与一阶段算法两大类别。其中两阶段检测方法以R-CNN(Girshick,2015)为代表,两阶段方法将模型分为分类器训练与边界框回归两个阶段(沙苗苗 等,2022)。但是在此类方法中,每个候选区域都需要分别进行特征提取,候选区域的生成与特征提取割裂开来,导致检测效率较低(Zhang等,2019;沙苗苗 等,2022)。一阶段方法以YOLO(Redmon等,2016)系列算法为代表。首先,其将一系列具有不同尺度和纵横比的锚点引入到网络中,并且这些锚点在每个空间位置上都是预先定义好的;然后,通过交并比分数区分和训练正负样本。由于一阶段方法同时完成分类和定位任务,因此效率相比两阶段方法得到了提高,也成为了当前主流的目标识别方法(Pham等,2020;Gao等,2021;许泽宇 等,2022)。近年来随着transformer架构的发展,也出现了例如DETR(Carion等,2020)等部分使用transformer的目标检测新框架。DETR将目标检测任务转化为一个序列到序列的问题。它将输入图像划分为一系列位置编码的特征向量,然后将这些特征向量作为序列输入Transformer模型用于处理图像特征并生成目标的位置和类别。相比其他目标检测框架,DETR不需要预定义的锚框或候选框,并能通过自注意力机制捕捉目标间的全局关系。但此类基于Transformer的方法需要大量的计算资源进行自注意力机制与多头注意力机制的运算,限制了此类框架在资源受限环境中的应用。虽然以卷积神经网络为代表的第二代人工神经网络在某种程度上受到了生物神经网络的启发,但其与生物大脑神经元在动力学过程上有着本质的不同。大脑对信息的高效处理依赖于神经元在时域上动作电位的变化与放电,这与主流的卷积神经网络中的激活神经元工作方式截然不同,因此需要在神经元动力学过程模拟层面采用更加仿生的模型。脉冲神经网络SNN(Spiking Neural Networks)作为新一代神经网络,在生物学原理上高度近似大脑神经元(Ghosh-Dastidar和Adeli,2009)。相较于第二代人工神经网络的神经元使用实数值激活来传递信息,脉冲神经网络通过采用脉冲序列来表示信息,在空间域和时间域两个维度上传递信息,以模拟人类大脑中的信息编码和处理过程。在脉冲事件稀疏性的驱动下,SNN具有计算高效性和生物可解释性的特点(Tavanaei等,2019),并具有更高的计算效率和更快的推理速度。目前,基于SNN的算法主要可分为3类:(1)基于脉冲时间依赖可塑性(STDP)的无监督学习方法。它根据突触前后神经元之间的放电延迟来修改连接突触的权重(Kheradpisheh等,2018)。然而,由于STDP仅利用局部突触可塑性进行调整,无法实现突触个体与整个神经系统目标的协调,因此难以应用于大规模深度网络。(2)直接监督学习。近年来SNN在利用反向传播提高网络性能方面取得了显著进展。该方法在正向传播过程中使用Heaviside阶跃函数生成脉冲信号,在反向传播过程中使用替代梯度的近似不可微函数。最近的研究表明,SNN能够有效利用通用深度学习框架通过时间反向传播进行学习(Che等,2022)。然而,由于脉冲神经网络通过多个时间步对输入信息进行编码,并且由于存在膜电位衰减等时域上的动力学过程,这种方法需要将脉冲神经网络在全部时间步上展开以进行梯度的反向传播,这导致内存和时间开销非常大,从而令直接训练SNN变得十分困难。(3)基于源神经网络转换的间接有监督学习。它的步骤是首先以特定结构训练一个卷积神经网络模型,然后利用脉冲神经元和激活函数之间的关系将学习到的权重迁移到具有相同结构的脉冲神经网络中。这种方法能够充分利用卷积神经网络模型成熟的拓扑结构与精度优势,并发挥类脑脉冲神经网络的高能效、低延迟和高生物可解释性的优势。随着SNN的能效与仿生性优势凸显,SNN也被应用于遥感图像分类等任务中(Niu等,2023),但在目标识别等更为复杂的任务中仍然面临训练困难等问题。综上所述,本文首次提出了一种基于转换算法的类脑脉冲神经网络用于对遥感图像进行目标检测。首先构建了一个带有动态裁剪阈值的单阶段目标检测神经网络作为源网络进行预训练,得到了一个具有较高精度的源目标检测网络;随后借助训练过程中得到的裁剪阈值确定激活值范围,通过激活神经元与脉冲神经元的映射关系将源网络转换为类脑的脉冲神经网络。最后,将转换后的类脑脉冲神经网络在SSDD(SAR-Ship-Detection-Datasets)和RSOD两个公开遥感数据集上进行测试。","result":"介绍了遥感图像目标检测的重要性及其在多个领域的应用,包括水陆运输管控、智能交通调度规划、国土资源调查和战场态势侦察感知等。遥感图像目标检测面临诸多挑战,如图像场景复杂、目标偏小且密集、尺度不一等。传统算法包括基于模板匹配和传统机器学习的方法,但存在鲁棒性差和适应性不足的问题。深度学习方法,尤其是卷积神经网络,在遥感图像检测中取得了显著进展,分为两阶段和一阶段算法。然而,两阶段方法检测效率较低,而一阶段方法虽然效率提高,但存在内存和时间开销大的问题。随着transformer架构的发展,如DETR,虽然能捕捉目标间的全局关系,但计算资源需求大。类脑脉冲神经网络(SNN)作为新一代神经网络,在生物学原理上高度近似大脑神经元,具有计算高效性和生物可解释性。SNN的算法主要分为基于STDP的无监督学习、直接监督学习和基于源网络转换的间接有监督学习。本文提出了一种基于转换算法的类脑脉冲神经网络用于遥感图像目标检测,通过构建单阶段目标检测神经网络作为源网络进行预训练,然后转换为脉冲神经网络,并在两个公开遥感数据集上进行测试。","language":"zh"},{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"2 方 法","content":"本文提出的类脑脉冲神经网络的遥感图像检测算法流程图如图1所示。算法主要分为3个部分:源网络的构建、源网络预训练与类脑脉冲神经网络转换。首先,根据类脑脉冲神经网络转换原理的特点搭建了一个目标识别神经网络作为源网络,随后将源网络进行预训练,最后根据训练参数将源网络转换为类脑脉冲神经网络。图1算法流程图Fig. 1Algorithm flow chart2.1 脉冲神经元模型作为SNN的基本计算单位,IF神经元模型是目前SNN中最常见的脉冲神经元之一。IF神经元的动力学过程可以描述为充电、放电和重置3个阶段。设t时刻下神经元的膜电位为,神经元接受的电压输入为时刻时神经元的膜电位为,充电阶段指脉冲神经元的膜电位接收来自突触前神经元加权输入的膜电压的过程,IF神经元的充电方程为 (1)由于脉冲神经元都是有记忆的,因此不仅取决于当前时刻的输入,还取决于上一个时刻末的膜电位。若使用离散的差分方程来近似连续的微分方程,则IF神经元的充电方程为 (2)脉冲神经元的信息传递依靠脉冲进行,当神经元的膜电位超过阈值电压时,神经元会释放出一个脉冲。这个过程也即脉冲神经元的放电,放电方程可以描述为 (3)式中,为判断是否放电的阶跃函数: (4)最后,因为释放脉冲会消耗神经元之前积累的电荷,因此膜电位会有一个瞬间的降低,即脉冲神经元膜电位的重置。在SNN中,膜电位的重置方式有两种:硬重置和软重置。硬重置指神经元在释放脉冲后,膜电位会被重置为固定的重置电压;而软重置指神经元在释放脉冲后会减去阈值电压。由于硬重置在放电时忽略了超过阈值电压的电位而直接将膜电位重置为固定的阈值电压。在多次神经元的充电—放电—重置循环下,逐渐累积的被忽略电位有可能导致神经元脉冲发放率低于预期,从而降低脉冲神经元的信息表征能力。为了更好地表征信息,本文选择软重置。硬重置与软重置的区别如图2所示。图2在脉冲神经元的两种重置方式下,膜电位变化与神经元放电的示意图Fig. 2Diagram of membrane potential change and neuron firing under two reset modes of pulsed neurons根据上述定义便得到了一个IF脉冲神经元完整的动力学过程。为了避免混淆,使用来表示IF神经元在充电后,释放脉冲前的膜电位;使用来表示神经元释放脉冲后的膜电位。至此,可以使用充电、放电和重置3个离散方程来描述IF脉冲神经元: (5) (6) (7)2.2 脉冲神经网络转换根据脉冲神经元的动力学过程分析可以发现,在SNN中信息通过二值化的脉冲进行传递,因此在SNN网络中只会传递非负的脉冲激活值,在固定时间长度内单个脉冲神经元会产生特定的脉冲发放率。而对IF脉冲神经元的脉冲发放率进行分析则可以发现,当阈值电压一定时,IF神经元的脉冲发放率会随着输入的增大而线性增加,这与卷积神经网络中的Relu激活函数十分相似(图3)。图3卷积神经网络中的ReLu神经元与脉冲神经网络中的IF脉冲神经元的输出对应关系(设脉冲神经元中的阈值电压)Fig. 3The output correspondence between ReLu neurons in artificial neural network and IF neurons in spikingd neural network (The threshold voltage Vth of the spiking neuron is set to 1)以一个卷积神经网络为例,若某一层由卷积层和ReLu激活函数构成,卷积层的权重和偏置为和,则上一层激活后的输入经过卷积层与ReLu激活层后的激活值可以表示为 (8)通过统计数据集中所有激活值从而确定此层的最大激活值为,则可以获得归一化至0—1范围内的归一化激活值: (9)而在与之对应的类脑脉冲神经网络中,脉冲神经元在时间步后的累计膜电位可以表示为所有时刻下,前一层脉冲神经元释放的脉冲经过加权后的膜电压减去释放脉冲带来的电压降: (10)式中,表示层脉冲神经元的阈值电压将上式表示为脉冲发放率的形式为 (11)由式(11)可以注意到,始终不会超过,当时间步较长时式(11)的最后一项可以忽略。至此结合式(8)和式(11)可以得到卷积神经网络ReLu激活与IF脉冲神经元的激活映射关系。对于一个经过预训练的卷积神经网络,通过确定经过Relu层的激活最大值,即可将卷积神经网络卷积层的权重迁移至脉冲神经网络中,从而将其ReLu激活函数转换为IF脉冲神经元。但是通过对式(11)分析可以发现,脉冲神经网络的转换依赖于逐层确定ReLu激活函数的输出最大值,但是数据分布中若存在离群的极大值,则会需要为了表征这部分离群值而大大降低时间步的量化精度,从而影响转换性能。因此本文提出了一种基于动态裁剪阈值的激活函数层用来动态压缩激活值,带有动态裁剪阈值的激活函数可以表示如下: (12)式中,为可训练的参数。在网络构建时,将所有ReLu激活函数替换为带有动态裁剪阈值的激活函数,随后在训练中将的优化器施加一个正则系数γ使得在训练过程中不断降低,从而间接压缩了每一层的激活值范围。2.3 待转换网络构建在本文工作中,使用了一个基于YOLOv3(Redmon和Farhadi,2018)架构的单阶段方法的目标识别神经网络作为待转换的源神经网络,网络包含的输出两个尺度的输出头。脉冲神经网络的网络结构如图4所示。由于SNN中的信息采取二值化脉冲串的方式进行传递,因此在池化操作中,池化核在每个时间步时都仅由0或1构成,这种特性使得SNN无法直接按照ANN中最大池化的计算方式进行操作(Rueckauer等,2017),因此在源网络中采用平均池化替代最大池化操作。考虑到转置卷积可以通过学习可训练的卷积核权重来执行上采样操作。因此在对特征图合并时使用转置卷积代替上采样操作,从而使低尺度的特征图合并至更大尺度特征图时能够表征更多信息。最后将网络所有激活层替换为带有动态裁剪阈值的激活函数。图4源目标识别神经网络结构Fig. 4Architecture of source detection neural network","result":"提出的基于类脑脉冲神经网络的遥感图像检测算法分为三个主要部分:源网络构建、预训练和类脑脉冲神经网络转换。算法流程图展示了整个过程。2.1节介绍了脉冲神经元模型,特别是IF神经元模型,包括其充电、放电和重置的动力学过程。IF神经元的充电方程、放电方程和重置方式(硬重置和软重置)被详细描述,其中软重置被选用以更好地表征信息。2.2节讨论了脉冲神经网络转换,指出SNN中信息通过二值化脉冲传递,IF神经元的脉冲发放率与输入的增大呈线性关系,类似于卷积神经网络中的ReLU激活函数。通过分析,建立了卷积神经网络ReLU激活与IF脉冲神经元激活的映射关系,并提出了基于动态裁剪阈值的激活函数层以优化转换性能。2.3节描述了待转换网络的构建,使用了基于YOLOv3架构的目标识别神经网络,并对其进行了适应SNN的修改,包括采用平均池化和转置卷积,以及替换所有激活层为带有动态裁剪阈值的激活函数。","language":"zh"},{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"3 实验结果与分析","content":"3.1 数据集与实验环境为了评估本文提出方法的性能,选择了SSDD(SAR-Ship-Detection-Datasets)和RSOD两个公开的遥感数据集进行了实验。两个数据集分别由数据图像和经过人工注释的标注框构成,分别包含船只与飞机目标。数据集的详细信息见表1与图5。表1数据集详细信息Table 1Datasets details图5两种数据集中的目标类别Fig. 5Diagrams of target categories in two datasets实验在运行Windows11的PC上进行,CPU为AMD(R)Ryzen7 5800x,显卡为Nvidia GeForce GTX 4090,本文所述方法使用Pytorch1.13深度学习框架搭建。在预训练源卷积神经网络时,使用Adam优化器进行训练,学习率为0.01,动态裁剪激活层的正则系数γ为0.2,预训练轮数为400。3.2 评价指标目标检测性能使用平均精度AP(Average Precision)进行度量,AP是用精度P为纵轴和召回率R为横轴的离散点绘制出的曲线下方的面积,即平均精度,AP可以综合地衡量模型的找全能力与找准能力,精度P和召回率R的计算方式为 (13)式中,TP代表检测结果为正样本且真实值为正样本的预测框数量,FP代表检测结果为正样本但真实值为负样本的预测框数量,FN代表检测结果为负样本但真实值为正样本的预测框数量。3.3 实验结果源网络训练完成后在测试数据集上进行测试,在SSDD数据集上,源网络能够达到89.9%的平均精度,而在RSOD数据集上则能够达到90.21%,从而验证了待转换的卷积神经网络在遥感数据集上目标识别效果的有效性。随后将网络按照提出的方法转换为类脑脉冲神经网络,再将转换后的网络在两个数据集的测试集上使用不同的时间步长进行测试。在测试时,对比了本文提出的采用动态阈值转换的方法与使用固定阈值进行转换的方法。结果表明在时间步足够大时()时,无论是否使用动态裁剪阈值,转换后的类脑脉冲神经网络都能达到接近源网络的性能。但是在时间步较低时,如图6和图7所示,采用动态裁剪阈值的转换算法能更快地达到更高的平均精度,从而验证了压缩激活值能够在低时间步时提供更多的信息表征能力。不同时间步下网络检测示意图如图8所示。图6转换后的类脑脉冲神经网络在RSOD数据集的检测性能Fig. 6Detection performance of transformed brain-inspired spiking network in RSOD dataset图7转换后的类脑脉冲神经网络在SSDD数据集的检测性能Fig. 7Detection performance of transformed brain-inspired spiking network in SSDD dataset图8不同时间步下转换的类脑脉冲神经网络检测效果Fig. 8Detection result of converted brain-inspired spiking neural networks in different time-steps为了进一步研究SNN在能量效率上的优势,本文从两种不同角度对SNN在能效上与源深度卷积神经网络进行能效对比测试。分别是SNN与源深度卷积神经网络在输入图像上的能耗以及SNN与源深度卷积神经网络在各自不同的计算平台上的能量消耗。在深度卷积神经网络中,大部分的能耗过程发生在卷积层中。其中,卷积核与特征图的卷积运算涉及大量的乘累加MAC(Multiply-Accumulate)操作中。而在SNN中,由于脉冲神经元的放电是二值化操作,网络能够仅在接收到脉冲放电时才会加至膜电位。因其仅在网络内部执行稀疏的累加AC(Accumulate)运算,也因此带来了能效上的巨大潜力。根据(Horowitz,2014)对运算操作的分析,在32位浮点乘累加操作中,乘运算消耗3.7 pJ,加运算占0.9 pJ,单次乘累加操作消耗为4.6 pJ。而在32位整数乘累加操作中,乘运算消耗3.1 pJ,加运算0.1 pJ。在此基础上,分别将源深度卷积神经网络与脉冲神经网络的浮点运算次数FLOPs(Floating-Point operations)与MAC或AC运算次数相乘,计算出深度卷积神经网络与脉冲神经网络的计算复杂度与能量消耗对比,如表2所示。可以看出,转换后的脉冲神经网络在精度接近源网络的同时,计算复杂度降低了近两个数量级的计算量,而在能耗上则降低了近200倍的能量消耗,在继承了ANN网络易于训练的特性与精度优势的同时,充分展现了其高稀疏度带来的巨大能效优势。表2转换后的类脑脉冲神经网络与源网络在单次推理时的能效对比Table 2Comparison of energy efficiency between converted brain-like pulse neural network and source network in single inference","result":"通过在SSDD和RSOD两个公开遥感数据集上进行实验,评估了基于类脑脉冲神经网络的遥感图像检测算法的性能。实验环境配置了高性能的CPU和GPU,使用Pytorch1.13框架进行模型搭建和训练。评价指标采用平均精度AP,以衡量模型的检测性能。实验结果显示,源网络在两个数据集上分别达到了89.9%和90.21%的平均精度,验证了其有效性。通过将卷积神经网络转换为类脑脉冲神经网络,并在不同时间步长下测试,发现在时间步足够大时,转换后的网络性能接近源网络。而在时间步较低时,采用动态裁剪阈值的转换算法能更快地达到更高的平均精度。此外,从能耗和计算复杂度的角度对比了SNN和源深度卷积神经网络,结果表明,转换后的脉冲神经网络在保持精度的同时,计算复杂度降低了近两个数量级,能耗降低了近200倍,展现了其高稀疏度带来的巨大能效优势。","language":"zh"},{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"4 结论","content":"为了解决主流深度学习模型在遥感图像检测中能效低和生物可解释性差的问题,本研究首次提出了一种基于类脑脉冲神经网络的遥感图像检测算法。该算法的第一步是构建一个带有动态裁剪阈值的目标检测神经网络作为源网络进行预训练。然后利用训练过程中获得的裁剪阈值,通过映射源网络中的激活神经元和脉冲神经元的关系,将源网络转换为类脑脉冲神经网络。这种转换使得新的网络既能够保持源网络的高精度,又具备低延迟和高仿生性的特点。实验结果表明,在SSDD(SAR-Ship-Detection-Datasets)和RSOD两个公开的遥感数据集上,该方法能够以极低的损失将源网络转换为类脑脉冲神经网络,并在较少的时间步下实现高精度的遥感目标检测和识别。通过将所提方法与标准类脑脉冲神经网络转换算法进行对比,验证了所提出方法在低时间步下的性能优势。若能够将所提出算法与当前快速发展的神经形态硬件相结合,则能够最大程度上发挥类脑脉冲神经网络稀疏性与二值放电的仿生性带来的能效优势,这也是未来的发展方向。","result":"首次提出一种基于类脑脉冲神经网络的遥感图像检测算法,通过构建动态裁剪阈值的目标检测神经网络并将其转换为类脑网络,实现了高精度、低延迟和高仿生性。实验结果在SSDD和RSOD数据集上验证了算法性能,与标准转换算法相比具有低时间步下的优势。未来发展方向是与神经形态硬件结合,发挥能效优势。","language":"zh"}]”
“[{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"1 引言","content":"超分辨率重建技术在卫星遥感图像信息智能处理领域中有重要的应用,经过超分辨率技术重建得到的高空间分辨率遥感图像在目标检测与跟踪、地理资源识别等高层智能任务中有更高的应用价值。传统遥感图像超分辨率重建技术包括双线性插值、双三次插值、边缘保持、基于偏微分方程的全变分(Dosovitskiy和Brox,2016)方法和各向异性扩散(Bavirisetti和Dhuli,2016)方法等。这些方法虽然计算简单,但对具有复杂纹理的遥感图像而言存在无法恢复高频细节信息的问题。随着深度学习技术的发展,基于神经网络的超分辨率重建技术被引入遥感图像处理领域,其中基于卷积神经网络(CNN)的方法是目前最常用的方法之一,另外还有基于近年来被广泛应用于图像生成和处理的生成对抗网络(GAN)的超分辨率重建技术,在遥感图像超分辨率重建方面也具有良好的效果,能够实现更高感知质量的遥感图像超分辨率重建。目前,用于遥感图像超分辨率重建的前沿深度学习算法包括采用纯数据驱动的流模型(任术波 等,2022)、应用混合稀疏表示模型的MSR-SRR(杨雪 等,2022)、针对高分四号卫星中波红外影像的卷积网络(贺智和贺丹,2020)以及针对Sentinel-2卫星遥感图像的无监督方法KN-SRGAN(赵慧岩和李云鹤,2022)等。数据流算法采用纯数据驱动的流模型和优化后的密集残差网络对低分辨率图像进行特征提取,提升了超分辨率图像的感知质量。KN-SRGAN作为基于生成对抗网络的方法,重建出的遥感图像具有更适合人眼直观视觉感受和具备更佳感知效果等特点。以上深度学习模型只能处理一种比例因子的超分辨率重建任务,在多尺度层面上缺少泛化性,属于基础学习器的范畴。对于真实遥感图像的超分辨率重建任务,往往要对图像按不同的整数或非整数倍连续放大,若是对每种可能的比例因子都训练一个模型并部署在平台中,会造成极大的算力和空间资源的浪费。因此有必要研究能用单一模型处理任意尺度遥感图像超分辨率重建任务的方法,这种超分辨率重建模型实际上要求学习算法有在任务层面进行学习的能力,而元学习就是一种针对不同任务自适应改变模型内部机制的策略。将元学习和基础学习做对比,基础学习由先验偏置确定假设空间,学习算法在确定好的假设空间内学习单一任务的最优解。元学习旨在学习导致一种算法适应一种任务的原因,以及如何将模型泛化到更多类型的任务中。针对上述问题,本文提出遥感图像任意尺度超分辨率重建方法,该方法采用元学习(Vilalta和Drissi,2002;Pratt和Thrun,1997;Thrun和Pratt,1998)的思想,根据不同比例因子自适应地调整模型内部参数,完成任意尺度超分辨率重建任务,同时采用带有注意力机制的密集残差网络作为特征提取器,使重建结果具备更清晰、区分度更高的细节。在公开遥感数据和真实卫星遥感图像上的定量和定性实验结果表明,本文所提方法具有良好的任意尺度超分辨率重建能力。","result":"介绍了遥感图像超分辨率重建技术的重要性及其在智能处理领域的应用价值。传统方法如双线性插值和各向异性扩散等存在无法恢复高频细节的问题。深度学习技术的发展带来了基于CNN和GAN的超分辨率重建方法,提高了遥感图像的感知质量。前沿算法包括纯数据驱动的流模型、混合稀疏表示模型、针对特定卫星影像的卷积网络和无监督方法等。然而,现有深度学习模型在多尺度超分辨率重建任务上缺乏泛化性。本文提出了一种基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建方法,通过自适应调整模型参数和采用注意力机制的特征提取器,实现了更清晰、区分度更高的重建结果。实验结果表明该方法具有良好的任意尺度超分辨率重建能力。","language":"zh"},{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"2 研究方法","content":"本文从基于元学习的超分辨率重建方法Meta-SR(Hu等,2019)出发,采用密集残差网络RDN(Residual Dense Network)(Zhang等,2018b)和元上采样模块(Meta Upscale Module)的组合,实现遥感图像任意尺度超分辨率模型Meta-RDN作为基准模型,同时考虑到遥感图像包含丰富的局部地物目标信息,为了使重建结果具备更清晰、区分度更高的细节,将通道注意力CA(Channel Attention)(Zhang等,2018a)机制引入Meta-RDN,建立使用密集残差注意力网络RDCAN(Residual Dense Channel Attention Network)提取特征的改进模型Meta-RDCAN。2.1 Meta-RDCAN网络结构对一个给定的从高分辨率图像中下采样得到的低分辨率图像,超分辨率重建算法的任务是从中重建出超分辨率图像。其中的恢复需要根据特征提取网络从中提取的特征图以及对应比例因子的上采样滤波器计算得到,因此一个超分辨率重建模型的基本结构是特征提取模块加上采样模块的组合。带有元上采样模块的超分辨率重建算法Meta-SR在提取低分辨率图像特征后,将比例因子也作为输入用以计算上采样滤波器权重,最终通过卷积滤波器和特征图运算得到超分辨率图像。该算法中的元上采样模块能自适应地根据输入比例因子来调整模型内部参数,从而实现任意尺度超分辨率重建的功能。本文以密集残差网络作为特征提取器,结合元上采样模块构建遥感图像任意尺度超分辨率重建模型Meta-RDN。考虑到遥感图像中包含丰富的地物信息和复杂的纹理细节,为了在超分辨率重建过程中充分强调遥感图像的局部特征,本文向密集残差网络中引入了通道注意力机制,实现密集残差注意力特征提取网络,从低分辨率输入中提取得到的特征图经过元上采样后输出最终的超分辨率重建结果。进一步改进后的Meta-RDCAN网络结构如图1所示。Meta-RDCAN以从中经双三次下采样得到的和比例因子作为输入,经过RDCAN提取特征后得到。随后输入元上采样网络,按照由当前比例因子计算得到的上采样滤波器权重将特征值映射为,完成一次前向传播过程。然后和进行比较并求取损失,通过反向传播更新特征提取网络和元上采样网络的参数。图1Meta-RDCAN 模型结构Fig. 1Structure of Meta-RDCAN2.2 元上采样网络结构Meta-SR方法的核心是使用元上采样模块代替单一尺度超分辨率重建模型中的上采样层,从而实现任意尺度超分辨率重建功能。图1中使用的元上采样模块输入为比例因子或一组比例因子构成的向量,以及来自特征提取网络的,输出为在当前比例因子下的。元上采样模块的功能可用式(1)描述 (1)式中,表示中位置为的像素值,表示中位置为的像素特征值,表示在当前比例因子下的上采样滤波器对像素的权重,函数表示计算像素值的特征映射函数。该式说明上采样模块具备3个功能,即根据不同比例因子预测不同上采样滤波器的权重预测功能,将中的像素与的像素相对应的位置投影功能,以及根据和计算像素值的特征映射功能。其中,权重预测功能需要接受来自比例因子的输入。和典型的超分辨率重建网络中的上采样模块不同,图1所示的元上采样模块采用前馈网络来自适应地预测上采样滤波器的权重,该过程的表达式为 (2)式中,表示上采样滤波器对中像素的权重,表示以为输入,以为参数的前馈网络。前馈网络包含两层全连接层和一层ReLU激活函数。是根据比例因子和位置计算得到的相对中像素的偏移向量,计算公式为 (3)式中,项是为了区分成倍数关系的比例因子之间的上采样滤波器权重。例如在对低分辨率图像分别进行3倍和6倍超分辨率重建时,对于没有参与计算的上采样滤波器,在3倍超分辨率重建图像中的像素和6倍超分辨率重建图像像素就会具有相同权重,从而限制超分辨率重建模型的泛化能力。对中的每个像素而言,其像素值是根据在上的特征值决定的,但在不同的尤其是非整数的比例因子下,不同位置上的像素可能对不同数量的像素产生影响。例如在的超分辨率重建任务中,有的像素决定的两个像素值,而有的像素只能决定一个。因此元上采样模块通过向下取整函数来实现位置投影功能 (4)特征映射是根据上采样滤波器的权重和计算得到超分辨率重建图像的像素值。图1中的元上采样模块的特征映射功能可用下式描述: (5)2.3 密集残差注意力网络结构为了在超分辨率重建过程中强调遥感图像的局部特征,提高超分辨率图像中局部细节的重建效果,在密集残差网络的基础上引入了通道注意力机制。本文采用图2所示轻量化通道注意力机制,通道注意力层接受上一级特征图输入后,首先进行自适应平均池化提取特征图的全局信息,然后通过两层非线性层采样后得到通道权值向量。权值向量和上级特征图相乘可实现对特征图通道的加权,从而完成一次施加通道注意力的过程。该通道注意力层不能随意添加到原网络中,因为一方面加入注意力机制会增加模型参数量,另一方面注意力可能会错误地放大特征图中的噪声,反而造成性能下降。考虑到在密集残差块的前端施加注意力机制相当于舍弃该残差块提取的特征信息,无法充分发挥密集残差和注意力结合的优势,因此本文将通道注意力层插入到图3所示的密集残差块末端,将这种改进后的结构称为密集残差注意力块。同时基于残差连接的思想,在每层注意力的输入端引出一条额外的残差连接和当前注意力层的输出融合,保证对通道的加权不会引发层次信息的丢失。本文在密集残差注意力网络中应用了16组密集残差注意力块,每个密集残差注意力块中有8层卷积层,最终提取得到64通道的特征图。图2通道注意力结构Fig. 2Structure of channel attention图3添加通道注意力后的密集残差块结构Fig. 3Structure of residual dense block with channel attention","result":"介绍了一种基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建方法。首先,以Meta-SR为基础,结合密集残差网络RDN和元上采样模块,构建了基准模型Meta-RDN。为了提高细节清晰度和区分度,引入通道注意力CA机制,形成了改进模型Meta-RDCAN。Meta-RDCAN网络结构包括特征提取模块和采样模块,通过元上采样模块自适应调整内部参数,实现任意尺度超分辨率重建。元上采样模块的核心功能是预测上采样滤波器权重、位置投影和特征映射。此外,本文在密集残差网络中引入轻量化通道注意力机制,通过自适应平均池化和非线性层提取通道权值,实现对特征图通道的加权。为避免信息丢失,将通道注意力层插入到密集残差块末端,并引入额外的残差连接。最终,Meta-RDCAN网络应用了16组改进后的密集残差注意力块,每个块包含8层卷积,提取64通道特征图。","language":"zh"},{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"3 数据结果处理与分析","content":"本文对基准模型Meta-RDN和改进模型Meta-RDCAN的实验结果进行了定性和定量的分析对比。实验过程中,先在DIV2K数据集(Agustsson和Timofte,2017)上预训练Meta-RDN和Meta-RDCAN,然后分别在遥感数据集AID(Xia等,2017),UCMerced(Yang和Newsam,2010)和WIDS(Liu等,2019)上微调。为了研究对遥感图像按不同比例因子进行超分辨率重建时空间分辨率变化带来的影响,在较广的比例因子范围内训练了多组模型,并在澳门科普卫星的真实遥感数据上进行了充分测试。此外,Set5和作为测试集分割出来的部分UCMerced数据也被用于模型测试。评价指标方面,采用有参考指标峰值信噪比PSNR(Peak Signal-to-Noise Ratio)和结构相似度SSIM(Structural Similarity Index Measure)来衡量超分辨率重建图像和真值图像的差异,无参考指标NIQE(Mittal等,2013)来衡量超分辨率重建图像的感知质量,以及算法运行时间来衡量图像处理速率。3.1 数据集预处理本文使用的数据集包括DIV2K(Agustsson和 Timofte,2017)、AID(Xia等,2017)、UCMerced(Yang和Newsam,2010)、WIDS(Liu等,2019)、Set5(Kulkarni等,2016)和来自澳门科普卫星的真实遥感图像数据。DIV2K数据集是一个广泛用于图像超分辨率研究的数据集,包含800张来自各种场景的不同尺寸的高分辨率图像。AID数据集是一种广泛用于遥感图像分类任务的公共数据集,包含来自Google Earth等卫星影像在内的10种不同场景共10000张的遥感图像,空间分辨率在0.5—8 m。AID数据集的图像场景包括:机场、海滨、农田、森林、工业区、公园、停车场、铁路、市区和河流,每个场景下的图像数量相等,且每张图像的分辨率为600×600像素。该数据集的特点是图像场景种类多样,充分考虑了遥感图像的特点,可以用于各种图像分类、目标检测和识别任务的训练和测试。UCMerced数据集是一个用于地物分类的公共遥感图像数据集,包含21类总计2100张大小为256×256像素的地物图像,空间分辨率为0.3 m。这些图像拍摄于不同的季节和时间,是广泛用于遥感图像分类算法评估和测试的数据集之一。WIDS数据集源于机器学习比赛WiDSDatathon2019,该数据集中图像的空间分辨率为3 m,共有11000张大小为256×256像素的卫星影像。Set5数据集是常用于测试图像超分辨率重建算法性能的基准数据集,包含5张不同类别的低分辨率彩色图片,因其简单和易于使用而广泛应用于图像超分辨率重建算法的快速测试和评估中。澳门科普卫星数据源于2022年搭载在天舟五号上发射的“澳门学生科普卫星一号”的遥感影像。该影像是一张大小为2048×2048像素的三通道彩色图像,空间分辨率为8 m。实验中对原图进行了大小为512×512像素的随机裁剪,并从中挑选出7张具有丰富地物目标信息和纹理细节的图像构成澳门科普卫星数据集用于模型测试。在进行有监督训练和有参考质量评估时,需要对训练数据和测试数据按一定比例因子进行下采样以获得低分—高分图像对。本文采用双三次下采样对训练和测试数据进行预处理,处理结果如表1中所示,其中训练数据以0.1为步长,测试数据以0.5为步长进行下采样,UCMerced数据集按8∶2的比例划分为训练集和测试集。表1数据预处理Table 1Pre-processing of datasets对遥感图像而言,经过下采样处理后得到的低分图像相比原图更加模糊,相当于降低了空间分辨率。在遥感图像超分辨率重建任务中,输入图像的空间分辨率将对超分辨率重建结果产生影响,比如高空间分辨率的遥感图像具有更清晰密集的细节,在超分辨率重建过程中有足够的特征信息用于重建,但低空间分辨率的遥感图像缺少纹理、边缘和轮廓等信息,使超分辨率重建效果下降。本文进行的下采样操作会引起实际输入的遥感图像和原图像空间分辨率的不一致。为了研究空间分辨率变化带来的影响,实验中在表1中的多组遥感数据集上训练了Meta-RDN和Meta-RDCAN,并且对部分遥感数据集的下采样范围进行扩大,目的是使下采样后的训练数据空间分辨率范围一定程度上能覆盖到测试数据下采样后的空间分辨率范围。这种覆盖关系如图4中所示,其中不同的遥感数据集用颜色加以区分,在数轴上的范围代表了数据集经下采样后相当的空间分辨率范围。原图像空间分辨率到下采样后相当空间分辨率之间的关系由式(6)给出: (6)式中,和分别表示原始遥感数据和下采样后数据的空间分辨率,表示下采样因子。图4下采样后训练数据和测试数据间空间分辨率的覆盖关系Fig. 4The coverage relationship of spatial resolution between training data and test data after downsampling从图4中可看出,模型在遥感数据集AID上训练时,可以获得测试时处理的低空间分辨率图像的经验。在UCMerced上训练的模型能获得更充足的重建图像细节的经验,但该训练数据与澳门科普卫星数据的空间分辨率区间没有交集,因此在测试时,相当于要求模型在新的空间分辨率范围内泛化。3.2 实验设置实验过程中采用两块RTX 2080Ti进行训练,批量(Batch)大小为2,训练轮次(Epochs)为200。损失函数方面没有采用超分辨率重建模型常用的L2损失,而是遵循Meta-SR的设置使用L1损失函数。L1损失函数直接衡量模型超分辨率重建结果与原始高分辨率图像之间的差异,计算方法是将超分辨率重建图像与高分辨率图像之间的差取绝对值,然后对所有差值求和并除以样本数量,求得平均绝对误差后反向传播并更新网络参数。优化策略方面采用自适应矩估计ADAM(Adaptive Moment Estimation)优化算法,该算法使用梯度的一阶矩估计和二阶矩估计动态地调整每个参数的学习率。自适应矩估计使用指数移动平均法来估计梯度的一阶矩和二阶矩,并通过偏差校正来纠正估计的偏差。相对于传统的随机梯度下降和其他优化算法,自适应矩估计算法在训练深度神经网络时往往可以取得更好的结果,并且具有一定的鲁棒性。实验中设置参数学习率(Learning Rate)为10-4,学习率衰减(Learning Rate Decay)为200。本文在DIV2K和WIDS上按照不同方案训练了Meta-RDCAN并绘制了L1损失的变化曲线,结果如图5所示。根据损失曲线,模型训练过程中损失接近5.0后下降变得十分缓慢,但继续训练确实能提升模型性能。图5(a)和图5(b)中在单一数据集上训练模型时,损失在中止训练时高于5.0,而图5(c)中在WIDS上微调的预训练模型最终损失能降到5.0以下。因此为了节省训练成本,同时保证算法性能不会因为提前终止而产生明显下降,本实验采用先在通用数据集DIV2K上预训练,再在各组遥感数据集上微调的训练方案。图5Meta-RDCAN在不同训练方案下的损失曲线Fig. 5The loss curve of Meta-RDCAN under different training regimens3.3 实验结果实验过程中在遥感数据集AID,UCMerced和WIDS上分别训练了Meta-RDN和Meta-RDCAN,然后在Set5,UCMerced和澳门科普卫星数据上进行测试。测试的比例因子设置在1.5—4.0,步长为0.5。因此一共有6组模型在3组数据上进行共计18次测试,每次测试分别包含6个比例因子的结果。在澳门遥感卫星数据上计算有参考指标峰值信噪比(dB)、结构相似度和算法运行时间(s)的结果如表2中所列。表3和表4中列出了部分在UCMerced和Set5上计算得到的以上指标,各表中横向对比时更高的峰值信噪比已用粗体标出表3和表4中列出了部分在UCMerced和Set5上计算得到的以上指标,各表中横向对比时更高的峰值信噪比已用粗体标出,算法运行时间取在不同比例因子下重建所耗时间的平均值,且在不同数据集上训练的模型用模型名称加训练数据集区分。注:黑体表示横向对比时更高的峰值信噪比。表2在澳门科普卫星数据上的测试结果Table 2Test results on Macao science popularization satellite data注:黑体表示横向对比时更高的峰值信噪比。表3在UCMerced上的部分测试结果Table 3Partial test results on UCMerced dataset注:黑体表示横向对比时更高的峰值信噪比。表4在Set5上的部分测试结果Table 4Partial test results on Set5 dataset纵向比较表2中的峰值信噪比,可以看出当比例因子增大至3.0左右时,无论是Meta-RDN还是Meta-RDCAN,计算出的峰值信噪比基本下降到40.0以下。一般认为重建图像的峰值信噪比大于35.0时,图像质量可被接受,而峰值信噪比大于40.0时重建图像具有较高的质量。通过观察图6中按不同比例因子进行重建的澳门科普卫星数据可发现,当比例因子在2.5以下时,图像中的飞机、油罐等目标能有较清晰的轮廓,而且部分并排的目标也有明显的能用肉眼区分的边缘。而当比例因子超过4.0时,一些细小的飞机目标在重建结果中已经消失,排列较为紧密的目标也在超分辨率重建过程中被混淆,无法清楚地判断出多个目标实例,这种重建图像是无法用于下游目标检测与识等任务的。综合定性和定量的分析,可以给出所提模型Meta-RDCAN的适用范围,即适用于比例因子在4.0以内的遥感图像任意尺度超分辨率重建任务。图6Meta-RDCAN在2.0、2.5及4.5比例因子下对澳门科普卫星数据的重建结果Fig. 6Meta-RDCAN reconstruction results on Macao data under 2.0, 2.5 and 4.5 scale factors另外,纵向对比表2和表3中在不同数据集上训练模型的测试结果可看出,在AID和UCMerced上训练的模型效果几乎总是优于在WIDS上训练的模型。这一结果可借助图4中的训练数据和测试数据的对应关系解释。当在澳门科普卫星数据上测试时,AID包含全部测试数据可能涵盖的空间分辨率,而UCMerced和WIDS数据集都不能完全覆盖测试数据,但UCMerced数据集的空间分辨率更高,训练过程中能提供更多的特征信息和更丰富的重建细节的经验。在UCMerced上测试时,UCMerced训练数据已完全覆盖测试可能出现的空间分辨率,AID数据集也包含足够充足的样本让模型学习到重建高空间分辨率遥感图像的经验,反之WIDS数据集与测试数据完全没有空间分辨率的交集,因此训练得到的模型性能不如其他两者。该实验结果说明了空间分辨率在遥感图像超分辨率重建任务中产生的重要影响,也说明了用于训练的数据尽可能选择覆盖空间分辨率范围广,包含丰富细节的遥感图像。最后,横向对比表2、表3和表4中的各项指标,可以说明在密集残差块中添加通道注意力确实能提升网络性能。在图7和图8的定性比较结果中,可看出Meta-RDCAN能重建出草坪中心目标下半部分的完整边缘和蝴蝶翅膀的纹理细节,而Meta-RDN的重建结果则可能缺少边缘或者存在细节模糊的问题。另外,通过对比算法运行时间能说明取得提升的代价是计算速率的降低。值得注意的是在有些横向对比结果中,即使峰值信噪比取得较高的值,结构相似度也可能取得较低的值,以及部分纵向对比中,峰值信噪比降低的同时结构相似度反而升高。这一现象说明峰值信噪比和结构相似度这两种有参考评价指标之间不一定是正相关关系,在分析模型性能优劣时还需根据具体任务具体分析更能准确反映算法的优缺点的指标。图7Meta-RDCAN和Meta-RDN在3.5比例因子下对UCMerced数据的重建结果Fig. 7Meta-RDCAN and Meta-RDN reconstruction results on UCMerced data under 3.5 scale factor图8Meta-RDCAN和Meta-RDN在3种比例因子下对Set5数据的重建结果Fig. 8Meta-RDCAN and Meta-RDN reconstruction results on Set5 data under three different scale factors对于遥感图像任意尺度超分辨率重建任务,仅使用有参考评价指标会带来如必需高分辨率图像作为真值等诸多限制,不符合遥感图像缺少高分辨率图像的实际应用场景。因此本文还引入无参考图像质量评价指标NIQE来评价超分辨率重建图像的感知质量。NIQE是一种将输入图像与预先用自然图像集建立好的模型对比的方法,其值越低代表图像感知质量越好。由于不需要低分—高分图像对,超分辨率重建算法可以直接在原始测试数据上运行,也在一定程度上淡化了图4所示的空间分辨率改变的影响。表5是Meta-RDN和Meta-RDCAN直接对澳门科普卫星数据按照1.5和2.0倍率进行超分辨率重建的结果,且已用粗体标出横向对比时更优的结果。可以看出用NIQE作为评价指标时,也能得出上述使用有参考指标得到的结论,该结果进一步证明了使用通道注意力机制的有效性。注:黑体表示横向对比时更高的NIQE。表5在澳门科普卫星数据上计算NIQE的结果Table 5Results of calculated NIQE on Macao satellite data","result":"通过定性和定量分析,对比了基准模型Meta-RDN和改进模型Meta-RDCAN在遥感图像超分辨率重建任务上的表现。实验首先在DIV2K数据集上预训练两种模型,然后在AID、UCMerced和WIDS遥感数据集上进行微调。研究了不同比例因子对超分辨率重建的影响,并在真实遥感数据上进行了测试。使用了PSNR、SSIM和NIQE等评价指标,以及算法运行时间来衡量模型性能。\n\n数据集涵盖了DIV2K、AID、UCMerced、WIDS、Set5和澳门科普卫星的真实遥感图像。AID数据集包含10种场景的10000张图像,UCMerced数据集包含21类地物图像,WIDS数据集则包含11000张卫星影像。实验中对数据进行了双三次下采样处理,以获得低分辨率和高分辨率图像对。\n\n实验设置中,使用两块RTX 2080Ti显卡进行训练,批量大小为2,训练轮次为200。损失函数采用L1损失,优化算法使用ADAM。实验结果显示,随着比例因子的增大,峰值信噪比逐渐下降,但当比例因子在2.5以下时,重建图像质量可接受。Meta-RDCAN模型在不同数据集上的表现优于Meta-RDN,尤其是在UCMerced数据集上训练的模型。\n\n实验结果表明,空间分辨率对遥感图像超分辨率重建任务有重要影响。训练数据应选择覆盖空间分辨率范围广、包含丰富细节的遥感图像。此外,Meta-RDCAN中添加的通道注意力机制能提升网络性能,但以计算速率降低为代价。峰值信噪比和结构相似度之间不一定是正相关关系,分析模型性能时需根据具体任务选择更合适的评价指标。\n\n为适应遥感图像缺少高分辨率图像的实际应用场景,本文还引入了无参考图像质量评价指标NIQE。NIQE结果进一步证明了使用通道注意力机制的有效性。总体而言,Meta-RDCAN模型适用于比例因子在4.0以内的遥感图像任意尺度超分辨率重建任务。","language":"zh"},{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"4 结论","content":"针对遥感图像任意尺度超分辨率重建的问题,本文提出采用元学习和密集残差注意力网络的超分辨率重建方法Meta-RDCAN。本方法应用的元上采样模块通过权重预测、位置投影和特征映射3大功能实现任意尺度超分辨率重建,同时从充分提取遥感图像局部地物目标信息的角度出发设计密集残差注意力特征提取网络,恢复遥感图像的细节信息。本文在DIV2K、AID、UCMerced、WIDS、Set5和来自澳门科普卫星的真实遥感图像数据上进行了充分实验,分析了空间分辨率变化对超分辨率重建结果的影响,并基于损失曲线验证了先在通用数据集上预训练、然后在遥感数据集上微调的训练方案的合理性。基于不同比例因子的测试结果表明本文所提模型适用于比例因子在4.0以内的遥感图像任意尺度超分辨率重建任务。对比实验结果说明添加通道注意力的改进模型在峰值信噪比和结构相似度上能取得比基准模型更好的表现;基于无参考指标NIQE的对比结果也能说明改进模型超分辨率重建结果的感知质量优于基准模型。以上研究证明了基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建方法的有效性。本文的主要贡献包括两方面:(1)针对遥感图像任意尺度超分辨率重建问题,采用元学习的方法自适应调整模型内部参数,实现用单一模型对单张遥感图像进行连续的整数和非整数倍超分辨率重建。(2)针对重建结果中细节缺失、地物目标边缘不清晰的问题,采用通道注意力机制改进密集残差网络,提升了超分辨率重建结果的质量。","result":"提出一种基于元学习和密集残差注意力网络的遥感图像任意尺度超分辨率重建方法Meta-RDCAN。通过元上采样模块和密集残差注意力特征提取网络,实现任意尺度超分辨率重建并恢复图像细节。实验结果表明,该方法适用于比例因子在4.0以内的遥感图像超分辨率重建任务,改进模型在峰值信噪比和结构相似度上表现更佳,且感知质量优于基准模型。主要贡献包括:1) 采用元学习自适应调整模型参数,实现连续整数和非整数倍超分辨率重建;2) 引入通道注意力机制改进密集残差网络,提升重建质量。","language":"zh"}]”
“[{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"1 引言","content":"近年来,随着在轨卫星数量的增加,遥感图像数据量快速增加,为目标检测(Cheng和Han,2016;Deng等,2018;Li等,2020)、语义分割(Kampffmeyer等,2016;Diakogiannis等,2020;Yuan等,2021)、场景分类(Lu等,2017;Cheng等,2017;Xie等,2019)等任务提供了充足的数据基础。作为输入数据,遥感图像的分辨率对上述图像处理任务精度有较大影响。清晰的高分辨率遥感图像是上述任务取得良好结果的基础。与直接提升遥感卫星成像设备分辨率相比,超分辨率作为一项便捷、低成本提升遥感图像分辨率的技术,可为各类图像处理任务提供更加清晰的数据集,具有广阔的应用价值。现有基于深度学习的超分辨率方法采用卷积神经网络(Wang等,2018;Zhang等,2019;Arun等,2020;陈行和罗斌,2021;唐晓天 等,2022)、生成对抗网络(Jiang等,2019;Gong等,2021;Xu等,2022)、Transformer网络(Liang等,2021;Lei等,2022;Hu等,2022)等不同的骨干网络结构,但其总体网络结构大都具有一个共同点:只对网络输出结果进行一次监督。无论超分辨率倍率如何,现有超分辨率方法大多“一步到位”式地将低分辨率图像重建为高分辨率图像,并且只在网络输出结果处施加一次监督。监督次数的不足将导致超分辨率结果中存在细节损失和伪细节,这对于基于遥感图像的灾害预测(Twumasi等,2019;Im等,2019;Ye,2022;Wang等,2021)、环境保护(甄佳宁 等,2022)、侦察监视(Voinov等,2018)等任务有较大影响,有时甚至会导致严重后果。因此,需尽量减少超分辨率结果中的细节损失与伪细节。在SRCNN方法(Dong等,2014)中,深度网络第一次被运用至超分辨率技术,构建了由特征提取和上采样两大基本模块组成的超分辨率网络基本结构。此后,基于深度学习的超分辨率技术快速发展。FSRCNN方法(Dong等,2016)将SRCNN的前上采样结构修改为后上采样结构,结合修改了特征维度和卷积核参数的网络模型,实现了超分辨率效果与处理速度的同步提升。ESPCN方法(Shi等,2016)则针对超分辨率网络的上采样模块进行改进,提出了适用于图像上采样的亚像素卷积方法,进一步提升了超分辨率效果。在EDSR方法(Lim等,2017)、SRGAN方法(Ledig等,2017)、SwinIR方法(Liang等,2021)中,残差卷积网络、生成对抗网络、Transformer网络被分别被引入至超分辨率网络中,通过增强网络特征提取能力以促进超分辨率效果提升。近年来,超分辨率技术持续发展,多种方法被提出。BSRGAN方法(Zhang等,2021)针对现有基于退化模型的方法对多场景适应性差的问题,提出了包含更复杂模糊、噪声的退化模型,以此为基础训练盲超分辨率对抗生成网络,可使得网络具有更强的泛化性能,满足多种场景下的超分辨率需求。NLSA方法(Mei等,2021)中指出将非局部先验作为正则化加入超分辨率过程,有利于缓解超分辨率非适定性。非局部计算需计算每个点间的相关性,其计算量与图像尺寸的平方成正相关,计算量较大。针对这一问题,NLSA方法提出了一种稀疏的全局注意力模块,通过局部敏感哈希搜索减少计算量,并将其嵌入现有例如EDSR网络以提升超分辨率效果。DCSR方法(Wang等,2021)使用同一成像设备的长焦影像与广角影像进行超分辨率网络训练,无需引入外源图像作为监督。结合自监督自适应机制,取得了良好的超分辨率效果,这对于具备多种成像设备的遥感卫星也具有一定的参考意义。针对目前超分辨率过程中文字区域重建效果不佳的问题,TATT(Ma等,2022)提出了一种文字注意力网络结果。文字注意力网络首先提取文字语义作为先验信息,在文字重构过程中对其进行语义引导。同时,设计文字结构一致性损失函数,对超分辨率重建结果中扭曲变形文字进行监督。遥感影像中也存在地面标识线、建筑墙体文字等细节,TATT方法具有一定的参考意义。目前,超分辨率技术的图像重建效果已经较其问世时有显著提升,但仍与高分辨率真值图像存在差距。这是因为超分辨率的非适定性为超分辨率效果提升带来了困难。对于同一张低分辨率图像,其可由多张不同的高分辨率图像下采样获得。同样,由同一张低分辨率图像出发,可将其重建为多张不同的高分辨率图像,而超分辨率任务便是从所有重建图像中筛选出最接近真值的一张。针对超分辨率非适定性的研究伴随着超分辨率技术的发展而同步进行。在VDSR方法(Kim等,2016)中,研究人员认为网络层数不足,感受野较小会加剧超分辨率非适定性。增加网络层数,增强网络特征提取能力是缓解超分辨率非适定性的途径之一。VDSR方法通过加深卷积网络层数来扩大网络感受野,利用更大范围的图像特征来恢复图像细节,与层数较少的SRCNN方法相比,超分辨率效果显著提升。随着深度学习技术的发展,其网络结构层数与参数量急剧增加。同时,近年来新兴的Transformer网络相比卷积神经网络已具备覆盖整幅图像的感受野。因此,单纯通过堆叠网络层数和增大感受野范围的方式已难以有效抑制超分辨率非适定性。SRGAN方法首次将生成对抗网络应用至超分辨率技术,以取代常用的均方误差损失函数。这是因为均方误差损失函数虽有利于使超分辨率结果具有较高的峰值信噪比,但也具有过度平滑和丢失高频细节的问题。SRGAN方法使用生成对抗网络结构对超分辨率网络进行训练,引导网络输出更接近真值的图像,在提升图像细节重建效果方面取得了良好效果。上述两种思路均实现了超分辨率效果提升,但未能对超分辨率非适定性和网络监督次数之间的关系进行讨论。综上,超分辨率的非适定性主要体现在由低分辨率图像上采样至超分辨率图像时的不唯一性。这导致由低分辨率图像映射至高分辨率图像的函数空间过大,给深度网络训练、拟合及超分辨率效果提升造成困难。针对这一问题,DRN方法(Guo等,2020)提出了具有两级监督的双重回归网络结构。在超分辨率过程前半段,DRN方法与大多超分辨率方法一致,即将低分辨率图像作为输入,依次进行特征提取和上采样处理,得到超分辨率结果,在超分辨率结果与高分辨率真值间计算损失函数并迭代更新网络参数。完成上述处理后,DRN方法为超分辨率添加了后半段过程,将超分辨率结果再次下采样至与低分辨率输入图像相同尺寸,在下采样结果与输入图像间计算第二个损失函数并再次迭代更新网络参数。因此,DRN方法具有两次监督,超分辨率非适定性得到一定程度的抑制。然而,DRN方法的第二次监督施加在下采样的超分辨率结果上,超分辨率重建的图像细节可能在下采样过程中再次丢失,基于低分辨率图像求出的损失函数可能也不完全适合引导高分辨率细节的重建。此外,DRN方法的监督次数随较单次监督有所增加,但未尝试将更多次监督施加至超分辨率过程中。基于上述问题及研究现状,本文提出基于分级监督的遥感图像超分辨率方法(MSSR),其流程如图1所示,与现有超分辨率方法大都采用一步到位式结构和单次监督相比,本文方法将超分辨率过程分为多个阶段,借助分级监督结构将经验知识充分嵌入超分辨率过程。本文的主要创新点为:(1)提出分级监督架构,多级真值图像被作为监督施加在超分辨率网络中各级同构超分辨率模块的输出处,将经验知识充分嵌入超分辨率过程,指引图像细节恢复,提升超分辨率效果。(2)设计轻量化的、具有可调超分辨率倍数的同构超分辨率模块(BSRC),便于灵活搭建具有不同级数不同超分辨率倍数的分级监督网络。各级BSRC网络结构基本相同,便于训练参数迁移,缩短网络训练时间。(3)探究分级监督网络总体超分辨率倍数一定时,不同的分级级数和各级超分辨率倍数组合对超分辨率效果的影响,给出最佳超分辨率网络分级方式。在本文构建的新数据集(RSSRD)和两个已有公开数据集上进行实验,将本文方法与常用超分辨率方法对比,本文方法具有更好的超分辨率效果。图 1基于分级监督的超分辨率网络流程示意图Fig. 1Flow graph of super-resolution network based on multi-level supervision","result":"介绍了遥感图像超分辨率技术的重要性和应用背景,指出高分辨率遥感图像对于目标检测、语义分割和场景分类等任务至关重要。同时,分析了现有基于深度学习的超分辨率方法的局限性,如单次监督导致的图像细节损失和伪细节问题。文章回顾了超分辨率技术的发展,包括SRCNN、FSRCNN、ESPCN、EDSR、SRGAN、SwinIR等方法,并讨论了它们在提升超分辨率效果方面的贡献。此外,还提到了BSRGAN、NLSA、DCSR和TATT等方法在解决特定问题方面的创新。文章强调了超分辨率非适定性问题,并介绍了VDSR和SRGAN等方法在缓解该问题方面的尝试。最后,提出了本文的主要创新点,即基于分级监督的遥感图像超分辨率方法(MSSR),通过多级真值图像监督和轻量化的同构超分辨率模块,实现更优的超分辨率效果,并在新构建的数据集和公开数据集上进行了实验验证。","language":"zh"},{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"2 研究方法","content":"如上文所述,超分辨率是一个非适定性问题。超分辨率的非适定性会导致超分辨率重建结果中出现细节损失和伪细节。为了缓解超分辨率的非适定性。我们提出了基于分级监督的遥感图像超分辨率方法,总体网络结构由多个同构超分辨率模块组成,模块数量及各模块超分辨率倍数可灵活调整。多次监督被分别施加至各模块输出处,各级监督采用不同的损失函数,网络各部分具体实现细节将在本节依次阐述。2.1 分级监督超分辨率网络分级监督超分辨率网络结构如图2所示,其由多个同构超分辨率模块和分级监督结构组成。得益于同构超分辨率模块的级联结构,分级监督超分辨率网络可处理多种放大倍率的超分辨率任务。对于较小倍率,可使用较少的同构超分辨率模块,对于较大倍率,则可考虑适当增加模块数量,使网络整体在参数量与超分辨率效果间取得较好的平衡。每个同构超分辨率模块的图片放大倍数则由网络整体超分辨率倍数和分级级数共同决定。图 2分级监督超分辨率网络结构图Fig. 2Structure of super-resolution network based on multi-level supervision同构超分辨率模块由多尺寸局部特征提取、全局特征提取和图像重建组成,其中,各个模块特征提取部分网络结构相同,图像重建可设置不同超分辨率倍率,兼具通用性与灵活性。对于通用性方面,分级监督网络在相较于单级监督网络引入更多经验知识的同时,也不可避免地导致网络层数的增加,进而导致网络训练时间延长。若在进行整体网络训练时,逐个训练各同构超分辨率模块,则将导致训练过程的枯燥与容差。因此,将各个模块特征提取部分设计为相同网络结构,便于参数迁移。在灵活性方面,每个模块的图像重建部分的超分辨率倍数可自定义,便于搭建多种分级监督网络。在进行分级监督超分辨率网络训练时,首先充分训练第一级同构超分辨率模块,得到较好的第一级输出结果。随后,将第一级同构超分辨率模块特征提取部分已训练完成的网络权重迁移至后续模块,作为后续模块训练起始权重。最后,运行网络完整超分辨率流程,使输入图像经各级模块处理并放大至所需分辨率,同步训练各级模块,微调网络整体至最佳状态。为便于表述分级监督超分辨率网络结构和参数,设网络总体超分辨率倍数为,网络分级级数为,即分级监督网络借助个同构超分辨率模块完成倍超分辨率任务。在每个模块的输出处,超分辨率结果受对应的真值图像监督。这些真值图像由高分辨率真值图像下采样得到,根据各级模块输出图像尺寸,下采样至相应大小。分级监督超分辨率网络的总损失函数可以表示为 (1)式中,为分级监督超分辨率网络的总损失函数,为第级同构超分辨率模块的损失函数,为第级同构超分辨率模块的损失函数的权重。由式(1)可见,分级监督超分辨率网络的训练目标是将各级模块损失函数之和降至最低。同时,考虑到不同模块可能具有不同的超分辨率倍数,为各模块设置了可调整的权重。基于上述设计的分级监督超分辨率网络有利于推动超分辨率效果提升,一方面,分级监督结构引入多级监督图像,充分嵌入经验知识,及时地在各级超分辨率模块输出处监督并纠正错误恢复的图像细节,防止其对后续模块造成不利影响。另一方面,分级监督结构减少了每个同构超分辨率模块在超分辨率过程中需要预测的像素数量。例如,对于常用的一步到位式超分辨率方法,仍假设超分辨率倍数为,则网络需从1个像素预测个像素。对于分级监督超分辨率网络,假设每个同构超分辨率模块倍率相同,则每个模型仅需从1个像素预测个像素。所需要预测的像素数量减少,则由低分辨率图像映射至较高分辨率图像所有可能的函数空间减少,每级超分辨率非适定性减弱,有利于减少超分辨率结果中细节损失和伪细节的出现。2.2 同构超分辨率模块同构超分辨率模块是分级监督超分辨率网络的核心组件,由多尺度局部特征提取、全局特征提取和图像重建组成。遥感图像包含丰富多样的地物细节,较强的特征提取能力是获得良好超分辨率效果的基础。因此,设计具有双重特征提取网络的同构超分辨率模块,同时使用卷积神经网络和Transformer网络进行特征提取。多尺度局部特征提取用于提取图像浅层局部特征信息,全局特征提取则具有更大的感受野,用于在更大范围内提取图像深层特征信息。多尺度局部特征模块提取部分基于轻量化的金字塔型卷积网络设计,卷积层数为3。输入图像依次经各个卷积层处理,得到3张不同尺寸的特征图。各卷积层参数如表1所示。表 1各卷积层参数设置Table 1Parameter settings for each convolutional layer通过设置第1个卷积层尺寸、步长、填充值为3、1、1,使得到的第1张特征图尺寸如输入图像相同。设置第2、3个卷积层尺寸、步长、填充值分别为3、2、1,使得特征图经处理后尺寸减半。第2、3张特征图被传入特征上采样层,通过亚像素卷积方法上采样至与输入图像相同尺寸,与第1张特征图按通道连接,实现特征融合。融合特征图经残差结构与输入图像相加后作为多尺度局部特征提取模块的输出。以上过程可表示为 (2)式中,为低分辨率输入图像,代表第1个卷积层的处理过程,为第1个卷积层的输出特征图。被送入第2、3个卷积层进一步处理,可表示为 (3) (4)式中,表示特征上采样层的处理过程。3个卷积层的输出按通道连接并与输入图像进行残差连接,可表示为 (5)式中,表示按通道连接,为多尺寸局部特征提取模块的输出,送入全局特征提取模块做进一步处理。全局特征提取基于Swin Transformer(Liu等,2021)骨干网络设计,Swin Transformer为目前常用的图像处理任务骨干模型,由窗口注意力层和移动窗口注意力层组成一个基本网络块(STB),由多个STB组成一个基本网络层(STL),融合卷积神经网络与Transformer网络的特点,具有感受野大、参数量少的优点。针对分级监督超分辨率任务的需求,首先修改网络层间特征图处理方式,使特征图尺寸不再逐级缩小,而是一直保持与输入图像相同的尺寸,便于进行图像重建处理。其次,在STL内和整个全局特征提取部分添加残差连接结构,STL内的残差连接结构是否生效由STB网络数量决定,当STB数量少于等于2时,残差连接结构不生效,当STB数量大于2时,残差连接结构生效。全局特征提取网络中第个STL层的处理过程可表示为 (6)式中,表示STL层,表示第个STL层的输出。假设STL层数量为4,则全局特征提取网络的输出为 (7)即最后一个STL层的输出与多尺寸局部特征提取网络的输出进行残差连接。STB由层归一化、MLP层、窗口注意力结构和平移窗口注意力结构组成。MSSR网络包含4个STL模块,每个STL分别由2、2、6、2个STB组成。其中,第一个STL中包含Patch Embedding层,用于输入图像分块和编码。最后,被送入图像重建网络,得到最终的超分辨率结果: (8)图像重建网络由卷积层和上采样操作组成,可通过调整上采样参数设置实现包括非整数倍在内的多种倍率图像重建。2.3 超分辨率网络分级方式在搭建分级监督网络完成超分辨率任务时,需首先确定网络的总超分辨率倍数。当网络的总超分辨率一定时,再确定合适的网络分级级数和各级同构超分辨率模块的倍数。此外,各级同构超分辨率模块的倍数也有多种组合方式。对于确定的超分辨率任务,网络总超分辨率倍数也是确定的。随着分级级数的增加,监督次数增加,超分辨率非适定性减弱。同时,网络总层数增加,参数量增加,网络训练时间延长。综合考虑超分辨率网络性能和参数量,则超分辨率网络分级方式的优化目的如下: (9) (10)式中,为第级同构超分辨率模块,为第级超分辨率倍数,为第级超分辨率结果,为第级超分辨率真值。表示根据第级超分辨率结果和真值计算的损失函数,用于衡量第级的超分辨率效果。为第级同构超分辨率模块参数量,用于衡量网络复杂程度和计算量。和分别为权重系数。由上式可见,最佳的超分辨率网络分级方式应再各级网络性能与复杂度间取得良好的平衡,在可接受的参数量之内达到最好的超分辨率效果,使二者值之和最小。同时,由式(9)可以看出,网络损失函数与参数量之和与网络分级级数之间的关系难以预测。不妨假设分级级数从1开始增加,最初,分级级数较小,随着各级网络被充分训练,分级技术的增加有利于网络中监督次数的增加,减少超分辨率结果中的细节损失与伪细节的出现,反应在式(9)中,则是各级模块损失函数之和减小。此时,分级级数的增加虽会导致网络层数增加,但通过设计合适的轻量化超分辨率模块以控制参数量,仍可实现网络损失函数与参数量之和的减小。随着分级级数继续增加,对于一定倍率的超分辨率任务,同构超分辨率模块数量可能已经饱和。更多的网络分级带来的性能提升有限,但大大增加了网络参数量。实际上,在后文展示的实验结果一定程度上验证了这一分析,在4倍超分辨率任务上使用分级监督结构比在2倍超分辨率任务上取得了更大幅度的性能提升,过多的网络分级对于2倍超分辨率是冗余的,但可以显著提升4倍超分辨率效果。在确定了网络分级级数后,每个同构超分辨率模块的超分辨率倍数选择也是值得讨论的问题。假设网络分级级数为,第级模块超分辨率倍数为,则网络分级级数,各级超分辨率倍数于网络总超分辨率倍数的关系如下: (11)由式(11)可见,当增加时,各级超分辨率倍数减小,当趋于无穷大时,趋向于1。这表示每级模块只以非常小的超分辨率倍数放大网络,也只需非常少的参数完成本级超分辨率任务。因此,当趋向于无穷大时,网络总参数量的增减趋势难以预测。综上所述,需对分级监督网络分级方式进行研究,寻找超分辨率网络性能、参数量与网络分级方式间的关系。在进行关于分级监督网络分级方式的实验时,从两个方面展开,即网络分级级数与各级超分辨率倍数。在网络分级级数方面,逐渐增加网络分级级数,综合比较网络总参数量与超分辨率效果,得到最佳分级级数。在网络各级超分辨率倍数方面,设计等差、等比两种均匀分布组合和前段密集、后段密集两种不均匀分布组合,以4倍超分辨率为例,假设将网络分为4级,则各级超分辨率输出相较于输入图像的放大倍数如表2所示。表2网络各级超分辨率倍数组合方式Table 2Combination of super-resolution scale factors of each BSRC2.4 损失函数在深度学习发展过程中,研究学者提出了多种损失函数。其中,损失函数和感知损失函数(Johnson等,2016)是图像处理领域常用的两个损失函数,损失函数计算原理简单,可有效提升超分辨率结果的峰值信噪比(PSNR),但存在过度平滑,丢失高频细节的问题。对于本文提出的分级监督超分辨率网络,在各级设计不同的损失函数,在第1、2级网络输出处使用感知损失函数,在第3、4级网络输出处使用感知损失和损失函数的组合。第1、2级的损失函数可表示为 (12) (13)式中,为感知损失,表示第级网络的损失函数,为权重系数,为第2级网络超分辨率倍数。感知损失函数使用从网络输出图像和真值提取的特征图计算损失函数,有利于在超分辨率早期阶段找出图像细节损失或伪细节产生的深层原因,防止其对后续超分辨率模块产生影响。同时,感知损失函数有利于引导超分辨率网络生成视觉效果更好的图像。在第3、4级网络中,超分辨率结果即将作为网络的处理结果并输出,同时接受损失函数与人眼视觉的双重评估。因此,在第3、4级网络中采用包含感知损失和损失函数的组合损失函数,可表示为 (14)式中,和为权重系数。令、,通过调整寻找和最优值。经多次预先训练尝试,当取0.44,取0.56左右时,超分辨率结果具有较高的SSIM、PSNR值。同时,考虑到超分辨率图像视觉效果与SSIM、PSNR不具有一致性,当SSIM和PSNR较高时,视觉效果反而可能下降。因此,取和为0.5,赋予感知损失和损失平等的权重,使超分辨率结果兼具较好的视觉效果和较高的SSIM、PSNR值。依此为基础,构建第3、4级网络损失函数。考虑分级监督网络级数和各级超分辨率倍数,第3、4级网络损失函数可表示为 (15)如式(12)、(14)所示,第2、3、4级网络损失函数均包含了其之前网络模块的损失,以增强分级监督网络中早期细节恢复效果对后期的影响,同时,为了避免重复计算,将权重的分母设计为。当与间隔网络级数越多、距离越远时,越大,权重越小。","result":"介绍了一种基于分级监督范式的遥感图像超分辨率方法。超分辨率是一个非适定性问题,易导致细节损失和伪细节。为解决这一问题,提出了一种由多个同构超分辨率模块组成的网络结构,这些模块数量和超分辨率倍数可灵活调整,并通过多次监督施加不同的损失函数。\n\n2.1节详细描述了分级监督超分辨率网络的结构,该网络由多个同构超分辨率模块和分级监督结构组成,能够处理不同放大倍率的超分辨率任务。每个模块的图片放大倍数由网络整体超分辨率倍数和分级级数共同决定。同构超分辨率模块由多尺寸局部特征提取、全局特征提取和图像重建组成,具有通用性和灵活性。训练时,先训练第一级模块,然后将权重迁移至后续模块,并同步训练各级模块。\n\n2.2节讨论了同构超分辨率模块的设计,包括多尺度局部特征提取和全局特征提取。多尺度局部特征提取基于轻量化的金字塔型卷积网络设计,而全局特征提取基于Swin Transformer骨干网络,具有大感受野和少参数量的优点。\n\n2.3节探讨了超分辨率网络的分级方式,包括确定网络的总超分辨率倍数、分级级数和各级模块的倍数。实验表明,分级监督结构在4倍超分辨率任务上比2倍任务上取得了更大幅度的性能提升。\n\n2.4节讨论了损失函数的选择。在第1、2级网络输出处使用感知损失函数,而在第3、4级网络输出处使用感知损失和损失函数的组合。通过调整权重系数,可以找到使超分辨率结果具有较高SSIM、PSNR值的最优值。同时,考虑视觉效果与SSIM、PSNR的不一致性,赋予感知损失和损失平等的权重,以获得较好的视觉效果和较高的SSIM、PSNR值。","language":"zh"},{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"3 实验结果与分析","content":"3.1 实验数据近年来,在轨遥感卫星数量快速增长,遥感图像数据资源日益丰富,但现有遥感图像数据集并不完全适用于超分辨率任务。一方面,一些数据集制作时间较早,图像分辨率受当时技术水平所限,难以为超分辨率任务提供充足的图像细节信息。另一方面,大多数数据集针对目标检测任务制作,包含大量的车辆、飞机和舰船图像,缺乏建筑、植被、水面等区域的图像,地物种类和细节不够丰富。因此,本文针对超分辨率任务制作了包含多种场景和地物细节的新数据集RSSRD(图3)。图3RSSRD数据集部分图像展示Fig. 3Selected images from the RSSRD dataset除本文新构建的数据集外,为了充分训练和测试本文方法与对比方法,使用UCMerced(Yang和Newsam,2010)和AID(Xia等,2017)两个现有公开数据集作为训练和测试数据,各数据集中图像波段、分辨率、数据规模如表3所示。表 3各数据集参数表Table 3Details of each dataset实验软件环境为安装10.0版本CUDA和1.6.0版本Pytorch 的Ubuntu 18.04系统。在实验结果方面,使用峰值信噪比(PSNR)和结构相似度(SSIM)作为超分辨率效果评价指标。3.2 分级监督网络分级方式实验构建分级监督网络需确定网络分级级数与各级超分辨率倍数。对于网络分级级数,逐级增加超分辨率模块数量,对比超分辨率效果,4倍超分辨率实验结果如表4所示。对于4倍超分辨率,当网络分级级数由1增加至4时,PSNR与SSIM增幅明显,超分辨率网络性能提升。当网络分级级数由4增加至6时,PSNR与SSIM增幅显著减小,此时继续增加网络级数所带来的性能提升有限。因此,4级网络是较为适合4倍超分辨率的网络分级结构。表 4不同网络分级级数及实验结果Table 4Experiment results of networks with different number of levels确定网络分级级数后,需确定各级网络超分辨率倍数,对于4级4倍超分辨率网络,各级网络超分辨率倍数组合方式及实验结果如表5所示。表5各级网络超分辨率倍数组合方式及实验结果Table 5Experiment results for different combinations of BSRC super-resolution scale factors由表5可见,在4倍4级监督超分辨率过程中,等差、等比两种倍数组合方式的超分辨率效果明显优于前段密集、后段密集两种方式,等比组合方式优于等差组合方式。因此,分级监督超分辨率网络中各级超分辨率倍数按等比数列分布时可取得更好的超分辨率效果。3.3 分级监督网络超分辨率效果实验由上述实验确定网络分级级数和各级网络超分辨率倍数后,构建分级监督网络进行训练与测试,并将实验结果与现有常用超分辨率方法对比。选取的对比方法为SRGAN、RDN(Zhang等,2018a)、RCAN(Zhang等,2018b)、DRN、TransENet(Lei等,2022)、SwinIR、ESRGCNN(Tian等,2022)。其中,SRGAN采用生成对抗网络结构,TransENet采用卷积神经网络与Transformer网络结合的结构,其余方法采用卷积神经网络结构。以上方法均在发表时取得了最佳(SOTA)结果。经充分训练后,使用PSNR和SSIM两种评价指标对分级监督超分辨率网络及对比方法的实验结果进行评估,如表6所示。由表6中数据可见,分级监督超分辨率网络在两种指标、两类超分辨率任务和3个数据集上,除个别数据外,均优于现有常用超分辨率方法。在4倍超分辨率任务中,本文方法比现有方法取得了约0.33—1.48 dB的PSNR提升和约0.0225—0.1188的SSIM提升。在两倍超分辨率任务中,本文方法比现有方法取得了约0.07—0.27 dB的PSNR提升和约0.0069—0.0407的SSIM提升。可以看出,分级监督网络在4倍超分辨率任务上取得了比两倍超分辨率任务更大幅度的性能提升,与前文分析相符。表6分级监督超分辨率网络与现有超分辨率网络对比Table 6Comparison of MSSR method with existing super-resolution methods分级监督超分辨率网络与对比方法的部分实验结果图像如图4所示,其中,HR为高分辨率真值图像,GT为所裁区域的真值图像。在图4中,依次展示了6组图片的实验结果及其对比。在第1、2组实验结果中,分级监督超分辨率网络输出的重建图像与对比方法相比,重建出了更多线条细节,具有更少的细节损失。在第3—6组实验结果中,分级监督超分辨率网络输出的重建图像与对比方法相比具有更少的伪细节。图4分级监督超分辨率网络与现有超分辨率网络实验结果对比Fig. 4Comparison of experiment results of MSSR method with existing super-resolution methods此外,分级监督网络具有一定程度的轻量化设计,其参数量在对比方法仅多于SRGAN、ESRGCNN,各方法运算时间对比如表7所示,可见其运算时间也在众多对比方法中具有一定优势。综上所述,分级监督网络通过引入更多监督,将经验知识充分嵌入超分辨率过程,抑制了超分辨率的非适定性,有效提升了超分辨率效果,且具有一定的轻量化设计。表 7各方法运算时间对比Table 7Time per iteration of each method /s本文提出的MSSR网络由BSRC拼接而成,可根据超分辨率倍数灵活调整分级监督级数以及各级超分辨率倍数。在实验部分,本文主要对两倍和4倍超分辨率下的网络性能进行了实验。此外,对4倍以上超分辨率任务进行了简单的实验探索,MSSR网络在两倍至6倍超分辨率任务中的性能如图5所示。图5不同倍率下的超分辨率性能Fig. 5MSSR performance in super-resolution tasks of different scale factors由图5可见,随超分辨率倍率增大,网络性能下降。这是因为随着超分辨率倍率增大,超分辨率过程的非适定性增强,超分辨率结果中出现细节损失和伪细节的概率增大。因此,评价指标SSIM与PSNR的值减小。同时,注意到曲线有趋于平缓的趋势,推测可能随着超分辨率倍率增大,需要由低分辨率图像预测出更多的地物细节,但得益于本文的分级监督结构,可有效控制图像细节损失,网络性能不会随超分辨率倍率增加而出现较大程度的下降。未来需借助更多相关实验来探索MSSR网络在更大倍率超分辨率任务中的性能表现。","result":"实验结果与分析章节首先指出现有遥感图像数据集在超分辨率任务上的局限性,并介绍了为解决这一问题而创建的新数据集RSSRD。实验使用了UCMerced和AID数据集进行训练和测试,采用PSNR和SSIM作为评价指标。在分级监督网络的构建中,通过实验确定了4级网络结构适合4倍超分辨率任务,且等比数列分布的超分辨率倍数组合效果更佳。对比实验显示,所提出的分级监督超分辨率网络在多个数据集上的性能优于现有常用方法,尤其在4倍超分辨率任务中取得了显著提升。实验图像结果进一步证实了所提方法在细节重建和减少伪细节方面的优势。此外,所提网络具有轻量化特点,运算时间具有竞争力。MSSR网络能够根据超分辨率倍数灵活调整,实验探索表明,随着超分辨率倍率的增加,网络性能有所下降,但分级监督结构有助于控制细节损失,维持性能稳定。","language":"zh"},{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"4 结论","content":"超分辨率是一个典型的非适定性问题,现有超分辨率方法大多采用单级监督结构,监督次数不足,导致超分辨率结果中出现细节损失和伪细节。针对这一问题,提出基于分级监督的遥感图像超分辨率方法,使用分级监督结构引入多级监督图像,将经验知识充分嵌入超分辨率重建过程,抑制其非适定性;设计轻量化的、超分辨率倍数可调整的同构超分辨率模块,为搭建不同级数不同超分辨率倍数的分级监督网络提供了便利;对比不同级数、不同超分辨率倍数组合方式下的超分辨率结果,给出搭建分级监督网络的思路。实验结果表明,分级监督网络有利于抑制超分辨率非适定性,减少超分辨率结果中的细节损失与伪细节,提升超分辨率效果。同时,本文也存在一些不足。一方面,仅探究了分级监督网络在两倍和4倍超分辨率上的效果,未研究其对8倍、16倍等更高倍率的超分辨率的影响。另一方面,在两倍和4倍超分辨率任务中,尝试的网络分级级数与各级超分辨率组合方式有限。今后可基于同构超分辨率模块,搭建更多类型的分级监督网络,研究其对更大倍率超分辨率任务的影响,探究超分辨率非适定性与分级监督网络的深层关系。","result":"总结了基于分级监督的遥感图像超分辨率方法,指出其能有效抑制非适定性问题,减少细节损失和伪细节,提升超分辨率效果。同时指出了研究的局限性,包括仅在两倍和4倍超分辨率上进行了探究,以及网络分级级数和组合方式的尝试有限。未来工作将基于同构超分辨率模块,构建更多类型的分级监督网络,研究其在更大倍率超分辨率任务中的影响,以及与超分辨率非适定性的深层关系。","language":"zh"}]”
“[{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"1 引言","content":"近年来随着遥感技术的飞速发展,遥感卫星的成像能力不断提高,遥感图像的质量飞速提升,目前光学遥感影像空间分辨率已经可以达到0.3 m GSD。因此,借助遥感图像可以更加清晰准确的辨别地表上的物体。目前遥感图像智能解译已经得到了广泛应用,如遥感图像目标检测(姚群力 等,2019;史文旭 等,2020;王海峰 等,2022;薛成宬 等,2023)、遥感图像语义分割(Su等,2022;Cheng和Lei,2023)、遥感图像变化检测(刘宣广 等,2024;刘英 等,2022;刘红超和张磊,2020)等。其中遥感图像变化检测中的建筑物变化检测是一个重要方向。遥感图像建筑物变化检测是对同一地理区域、不同时间获取的遥感影像自动地进行地面建筑物变化检测的技术(柳思聪 等,2023)。近年来,深度学习方法在建筑物变化检测中得到了广泛的应用,此类方法可以从原始数据中自动提取层次结构的、非线性的特征,克服了传统建筑物变化检测方法的一些局限性,表现出优异的性能。根据双时相图像的深度特征提取过程,基于深度学习的建筑物变化检测框架可以概括为3种类型:单流、双流和多模型集成(Shi等,2020)。由于双流孪生网络具有更简单的结构和更强的性能,受到更多的关注。在双流孪生网络中,可以将提取特征所使用的深度模型分为基于卷积神经网络的模型、基于循环神经网络的模型、基于Transformer的模型等。基于卷积神经网络的算法有全卷积早融合模型FC-EF(Fully Convolutional Early Fusion model)(Daudt等,2018)、全卷积差异模型FC-diff(Fully Convolutional Difference model)(Daudt等,2018)、孪生U型变化检测网络SNUNet-CD(Siamese and U-shaped Network for Change Detection)(Fang等,2022)等,这些方法采用卷积模型提取双时相特征,可以保留邻域的联系和空间的局部特点,由于其共享卷积核的结构,可以处理尺寸较大的图像;基于循环神经网络的算法有深度孪生卷积多层递归神经网络SiamCRNN(deep Siamese Convolutional Multiple-Layers Recurrent Neural Network)(Chen等,2020)、基于递归残差的森林变化检测U型网络FCD‑R2U‑net(Forest change detection in bi-temporal satellite images using the recurrent residual-based U-net)(Khankeshizadeh等,2022)等,这些方法在捕获序列关系方面非常有效,可以有效建立双时图像之间的变化关系;基于Transformer的算法有双时相图像BIT Transformer(Bitemporal Image Transformer)(Chen等,2021)、变化检测Transformer模型Changeformer(Change detection Transformer)(Bandara和Patel,2022)等,这些方法通过多头注意力机制提取原始遥感图像中具有上下文关联性的特征表示,最近几年在遥感图像处理领域被广泛运用。除了关注提取特征的深度模型的结构之外,另一个在双流孪生建筑物变化检测算法中被关注的点是变化特征的融合方式。有一些工作通过改进多尺度特征的融合方式来提升变化检测的性能。时空注意力网络STANet(Spatial-Temporal Attention-Based Network)(Chen和Shi,2020)算法在编码器网络之后增加一个变化检测自注意力模块,计算变化检测输入图像中任意两个像素之间的时空关系,并针对建筑目标的尺度多样性,提出不同尺度的自注意力机制,从而生成更有效的变化特征。特征限制变化检测网络FCCDN(Feature Constraint Change Detection Network)(Chen等,2022)算法提出了一种基于密集连接的简单而有效的深度特征融合模块DFM(Deep Feature Fusion Module),使用求差分支与求和分支,求和分支用于增强边缘信息,求差分支用于生成变化区域,每个分支都由两个密集连接的共享权重的流构建,以此减少特征错位。双向自注意力网络DSANet(Dual Self-Attention Network)(Huang等,2019)提出了一种基于深度度量学习的遥感变化检测方法,该方法使用双重注意模块来改进特征辨别力以更稳健地区分变化。然而,以上大多数现有的变化检测方法都是使用全监督深度学习模型(Chen等,2021,2022;Fang等,2022;Asokan和Anitha,2019),这需要大量带标签的遥感数据来进行准确的预测。而手动标注建筑物变化检测标签是非常耗时耗力的,因为这需要专业的人员逐像素地对两幅影像进行对比标注。并且由于地点不同、季节不同、成像系统不同等原因,同一地物在不同的图像中可能呈现出不同的样貌,这导致在原场景训练的模型迁移至新场景时性能严重下降。无监督域适应技术是缓解这个问题的有效手段。当前无监督域适应算法可以主要分为基于对抗训练的域适应和基于自训练的域适应(Liu等,2022)。基于对抗训练的域适应算法借鉴对抗生成网络(Goodfellow等,2020)的思想,在模型训练的过程中使用鉴别器鉴别输入特征来自于源域还是目标域。输入级对抗训练域适应算法,使用傅里叶变换(Yang和Soatto,2020)或者深度学习方法(陈淮源,2022)对源域数据和目标域数据进行风格匹配;特征级对抗训练域适应算法对编码器的特征进行鉴别分类,并采用梯度翻转层(Ganin和Lempitsky,2015)驱使编码器提取域不变特征;输出级对抗训练域适应算法,在模型的输出层使用鉴别器和熵最小化策略(Tsai等,2018;Vu等,2019)使源域和目标域具有相似的预测值。对抗训练的方法具有想法直观易于理解的优点,但是在鲁棒性和模型训练的稳定性上较差。基于自训练的域适应方法使用源域数据训练模型并对目标域数据生成伪标签(Wang等,2021),然后对模型重新训练以提升模型在目标域上的性能。在模型训练上,通过基于类别的域混合将源域正样本混合至目标域图像上(Tranheden等,2021;Olsson等,2021),同时根据类别的出现频率确定其在训练过程中的采样频率(Hoyer等,2022a),以此让模型学习目标域的背景信息和平衡多个类别之间的关系。还有一些研究在域适应任务中使用掩码图像一致性方法(Hoyer,2023)和层次性伪标签融合策略(Arnaudo等,2023)提升模型对输入数据上下文的表示能力,此类方法也是适用于正样本类别数量较多的场景。此外,还有一些算法将对比学习引入至无监督域适应任务(Chen等,2023;Vayyat等,2022),鼓励模型学习具有类内紧凑性和类间可分离性的区分像素特征,显式地促进区分性特征学习。虽然目前的域适应算法已经可以在建筑物变化检测任务上取得较好的效果,但仍然存在以下3个问题:(1)问题1。基于类别的域混合策略适用于类别数量较多的情况下,在建筑物变化检测任务中,仅存在“变化”这一个类别的正样本,在使用基于类别的域混合时,模型仅简单学习混合正样本的边缘区域即可将其区分出来,使模型无法有效学习;(2)问题2。当前基于像素的对比学习方法,由于目标域的标签不可知,由模型生成的伪标签必然具有分类错误的样本,导致在对比训练过程中易引入较大的噪声信息;(3)问题3。高置信度阈值过滤生成的伪标签未利用教师模型的低置信度预测结果,使得目标域的大量区域被忽略,造成样本的不充分利用。针对以上问题,本文提出了针对跨域建筑物变化检测任务的实例级对比学习域适应算法ICDA-CD(Instance Contrast learning Domain Adaptation for Change Detection)。主要贡献点有3个:区域级域混合、实例级对比学习和伪标签质量估计加权损失。针对上述问题1,本文提出区域级域混合,将含有源域建筑物的数据与含有目标域建筑物的数据同时混合在一个样本上,混合形成的混合域样本可以使模型更加关注背景区域的域不变特征;针对上述问题2,根据像素级对比学习存在的缺点,本文提出实例级对比学习,将其应用在建筑物变化检测模型的编码器和解码器中。在编码器中,拉开变化建筑物区域双时相特征距离,在解码器中,拉近各个变化建筑物区域特征之间的距离,从而降低模型对源域和目标域变化建筑物正样本特征表示的差异;针对上述问题3,本文提出伪标签质量估计,通过教师模型的预测值得出各个像素位置的伪标签质量估计,然后对损失进行加权,这可以使得低置信度的标签可以被有效利用,不浪费教师模型的预测结果。本文对所提出来的方法ICDA-CD进行了域迁移实验,并与其他先进算法进行了对比分析和消融实验。","result":"介绍了遥感技术的发展及其在建筑物变化检测中的应用,重点讨论了深度学习在该领域的应用和进展。文中首先概述了遥感图像智能解译的广泛应用,包括目标检测、语义分割和变化检测等。随后,详细讨论了基于深度学习的建筑物变化检测框架,包括单流、双流和多模型集成三种类型,并特别强调了双流孪生网络的优势。文中还介绍了不同深度模型,如基于卷积神经网络、循环神经网络和Transformer模型的算法,并探讨了变化特征融合方式的改进对提升性能的影响。\n\n进一步,章节指出了现有全监督深度学习模型在建筑物变化检测中的局限性,包括对大量带标签数据的依赖和模型迁移至新场景时性能下降的问题。为解决这些问题,提出了无监督域适应技术,包括基于对抗训练和自训练的域适应方法,并分析了这些方法的优缺点。\n\n最后,针对现有方法的不足,本文提出了一种新的实例级对比学习域适应算法ICDA-CD,该算法通过区域级域混合、实例级对比学习和伪标签质量估计加权损失三个主要贡献点来提高跨域建筑物变化检测的性能。文中还对ICDA-CD进行了域迁移实验,并与其他算法进行了对比分析和消融实验,验证了其有效性。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"2 研究方法","content":"本文所构建的实例级对比学习域适应遥感变化检测模型ICDA-CD(Instance Contrast learning Domain Adaptation for Change Detection),采用了基于学生—教师模型的自训练域适应框架,整体结构如图1所示。图1实例级对比学习域适应遥感变化检测算法整体结构Fig. 1Overall structure of the domain adaptation change detection algorithm根据在半监督和无监督域适应中广泛应用的“强弱一致性”(Li等,2020)原则,教师模型的输入为不经过数据增强的目标域数据,以生成更准确的伪标签;学生模型中,本文提出将目标域数据与源域数据进行区域级域混合及强数据增强之后的结果作为学生模型的输入,以此使模型同时学习源域数据和目标域数据,增大训练数据的多样性。训练过程中,本文提出在学生模型的编码器和解码器中分别采用实例级对比学习。首先根据源域标签和教师模型生成的目标域伪标签混合成新的标签,然后根据标签中正样本的连通性,将每一个连通域内的所有空间位置的样本视为一个实例。正样本表示的是变化类别,所以在孪生编码器中正样本对应位置的特征属于不同的类别,因此将编码器中的正样本特征通过实例对比学习拉远。同时在解码器中显式地拉近同一个训练批次中源域和目标域的正样本实例特征。本文提出的实例级对比学习方式相比于一般的像素级对比学习,可以大大减少训练过程中的噪声,同时可以引导模型提取域不变的特征,提升模型的跨域性能。在损失计算的过程中,本文提出对教师模型输出的伪标签进行质量估计,并对混合域样本的损失进行加权,相比于传统的高置信度阈值的伪标签生成方式可以更加充分得利用目标域样本数据。2.1 区域级域混合域混合是提升无监督域适应性能的常用方法,在语义分割任务中,通常存在多种类别,且各个类别之间通常存在一定的语义关系,从而造成语义的高低层之差,例如汽车类别要高于道路类别,因为汽车可能会遮挡道路,但道路不会遮挡汽车。将源域的汽车复制出来,粘贴到目标域图像的道路类别之上,从而形成了混合两个域的新图像。由于类别众多,即使粘贴之后边界明显,模型仍然可以学习域混合之下的类别信息,所以这种实例级别的域混合方式对于语义分割十分有效,可以提升模型在目标域的性能。但是,在遥感变化检测中仅有“变化”这一个类别,当将源域的变化物体复制粘贴到目标域的图像上时,粘贴边界较为明显时,模型可以很容易的进行二分类,从而无法使域混合发挥作用。图2为建筑物变化检测中的源域和目标域在实例级进行混合的示例。可见:复制粘贴之后的图像边缘较为明显;同时,在变化检测中通常正样本的数量占比较小。这两个原因导致在变化检测任务中实例级别的域混合技术无法发挥其作用。图2实例级域混合示例Fig. 2Example of the instance level domain mix通过CutMix区域级别的域混合,构建混合域样本,再送入模型进行训练。通过这种方式使模型在同一个样本中同时学习源域与目标域的特征,从而学习到域不变特征,提升模型在目标域的泛化性能。图3为本文所采用的区域级混合示例图,首先使用教师模型推理得到目标域图像的伪标签,然后随机裁切目标域图像及伪标签的一个矩形区域,替换源域图像及真值标签的对应位置,从而生成了混合域的图像及标签。此过程可以表示如下: (1) (2)式中,x表示前后时相的样本;下标中:m表示混合域,s表示源域,t表示目标域;表示一个随机的矩形区域;表示目标域样本的伪标签。在计算x和计算label时使用同一个,以保证图像和标签可以对应上。图3区域级域混合示例Fig. 3Example of the regional level domain mix2.2 实例对比学习遥感图像变化检测域适应任务的目标是使模型在目标域上具有更好的性能,这需要减小源域特征和目标域特征之间的距离,才能使模型具有更好的泛化性能。而对比学习可以缩小同类特征的距离,扩大不同类别特征之间的距离,因此可以借助对比学习来提升模型跨域变化检测的性能。在无监督域适应任务中,由于目标域没有真实标签,伪标签是由教师模型生成的,会产生大量错误的伪标签,这导致在进行像素级的对比学习时出现大量错误的正负样本对,这些噪声会影响模型的有效学习。为降低像素级对比学习过程中噪声的影响,本文提出实例级对比学习,将一个实例内部所有位置的特征进行平均,以降低离群噪声的影响。本文将实例级对比学习分别应用在编码器阶段和解码器阶段。在编码器中,由于变化检测模型采用孪生网络提取双时相特征,模型对相同类别的特征表示具有较大的相似性,对不同类别的表示具有较小的相似性。在变化检测中,发生变化的区域(正样本)在前后时相的图像中是属于不同的类别,则前后时相的此区域的特征应该具有较小的相似性。基于这种观察,本文在编码器中采用了实例级对比学习,扩大前后时相中同一区域不同类别的特征距离。编码器阶段的实例对比学习EIC(Encoder Instance Contrast learning)的具体步骤如图4所示。首先,将前时相图像和后时相图像分别输入编码器,得到编码器深层的高维特征,因为深层特征具有较多语义信息,所以将其作为实例对比学习的特征来源;同时根据连通性将变化真值标签分为多个连通域,每一个连通域表示一个实例掩码;接着使用实例掩码与双时相高维特征提取该实例区域在前后时相中的特征表示;为提升特征距离的计算效率,使用如图6所示的结构,将这一对特征都降维至128维;最后,计算每一对特征的对比损失,扩大这对特征之间的距离。对比损失的计算如式(4): (3) (4)式中,D表示余弦距离,i表示第i个实例,n表示所有实例的个数,r表示实例的特征表示,pre表示前时相,post表示后时相,表示L2距离,∈[0,2]。图4编码器阶段的对比学习Fig. 4Contrast learning in the encoder stage图5解码器阶段的对比学习Fig. 5Contrast learning in the decoder stage图6实例特征降维结构Fig. 6Instance feature dimensionality reduction structure在解码器中,输入编码器的前后时相多尺度特征,经过自上而下的多尺度融合之后,得到多个尺度的变化特征。此时不再有前时相特征和后时相特征之分,它们一起融合成为了变化特征。对于源域数据的变化特征和目标域数据的变化特征应该具有相似的表示,本文通过实例级对比学习显式地拉近源域变化实例特征与目标域变化实例特征,从而提高模型对源域和目标域的变化表示的一致性。解码器阶段的实例对比学习DIC(Decoder Instance Contrast learning)的具体步骤如图5所示。首先,将前后时相图像输入至孪生编码器,再经过变化特征解码器,得到解码器最后两个阶段的变化特征;同时,与编码器的变化标签实例化相同,根据连通域将变化标签分为多个实例掩码;接着使用实例掩码与变化特征提取该实例的变化特征表示;为提升特征距离的计算效率,使用如图6所示的结构,将特征降维至128维;最后,计算同一个训练批次中每一个变化实例与其他所有变化实例之间的对比损失,拉近源域变化实例特征和目标域变化实例特征之间的距离,引导模型提取域不变特征。解码器中对比损失的计算方式如式(5)所示: (5)式中,n表示所有实例的个数,r表示实例变化特征,距离D的计算方式见式(3),。综上所述,在训练过程中采用的实例对比损失的计算公式如下: (6)图6为在提取实例特征时采用的降维结构,为了防止对比学习的过程中出现“模型坍塌”现象,在降维结构中未使用非线性操作,保持降维之后的特征与编码器或解码器输出的特征为线性关系。2.3 伪标签质量估计为了充分利用教师模型的预测结果,本文采用固定0.5阈值置信度将预测结果二值化,不忽略任何伪标签,并将教师模型的预测结果置信度作为伪标签的质量估计PLQE(Pseudo Label Quality Estimation)。如图7(a)所示,传统的伪标签生成采用高置信度阈值,造成伪标签中存在忽略样本,无法利用到低置信度阈值的样本,如果仅降低阈值,则会引入更多的噪声标签;同时二值化标签将不同置信度同等对待,如0.8和0.9转为二值化标签后为1和1,这减少了伪标签中的信息。本文提出直接使用0.5置信度阈值对目标域样本的预测结果二值化得到伪标签,如图6(b)所示:将预测结果中置信度>0.5的像素视为正样本,如图中蓝色位置;置信度<0.5的像素视为负样本,如图中黄色位置;不产生忽略标签,所有像素均可参与训练。得到之后,再根据式(2)得到混合域的标签。由于采用了低置信度阈值,在目标域样本的伪标签中有大量噪声。为了解决这个问题,本文根据教师模型的在目标域样本上的预测结果生成其伪标签质量估计,其转换方式如式(7),置信度越接近于0.5则其质量越差,计算公式如下: (7) (8)式中,与式(1)和(2)中的相同,以保证混合矩形位置可以对应,表示源域标签的质量,其为一个全一矩阵,表示源域的标签的质量都是最高的。得到学生模型的预测结果之后,与混合标签计算二元交叉熵损失,之后将标签质量加权至BCE损失上,标签质量越高,损失权重越大。可表示如式(9)至(10)。 (9) (10)式中,表示学生模型对混合样本的预测结果,表示逐像素点加权运算。通过这种方式,利用了目标域样本中包括低置信度预测在内的所有像素,同时对目标域伪标签的质量进行了估计,使得模型更加关注更高质量的伪标签。综上所述,在域适应阶段模型的总损失计算公式如下: (11)","result":"提出了一种基于实例对比学习的遥感建筑物变化检测域适应算法ICDA-CD,采用学生—教师模型的自训练域适应框架。算法利用“强弱一致性”原则,教师模型输入目标域数据生成伪标签,学生模型输入经过区域级域混合及数据增强的目标域和源域数据,以学习两域数据并增加训练数据多样性。实例级对比学习在编码器和解码器中应用,通过混合源域标签和教师模型生成的伪标签,将连通域内样本视为实例,拉远正样本特征,拉近源域和目标域正样本实例特征,减少训练噪声,提取域不变特征,提升跨域性能。区域级域混合通过CutMix方法构建混合域样本,使模型学习源域与目标域特征,提升泛化性能。实例对比学习在编码器阶段扩大同一区域不同类别特征距离,在解码器阶段拉近源域和目标域变化实例特征,提高变化表示一致性。为充分利用教师模型预测结果,采用固定0.5阈值置信度二值化预测结果得到伪标签,并通过伪标签质量估计对损失进行加权,使模型更关注高质量伪标签。最终,模型的总损失综合考虑了实例对比损失和伪标签质量加权的二元交叉熵损失。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"3 结果与分析","content":"为了评估本文所提出的基于实例对比学习的遥感域适应变化检测模型的性能表现,本文将本文方法与目前先进的DACS、DAFormer、HRDA等域适应算法进行了对比。3.1 数据集及评价指标本文采用LEVIR-CD(Chen等,2020)和S2Looking(Shen等,2021)数据集分别进行了2组实验:(1)将LEVIR-CD作为源域数据,S2looking作为目标域数据;(2)将S2looking作为源域数据,LEVIR-CD作为目标域数据。训练中源域数据的图像和标签都可以使用,不使用目标域真值标签。图7高置信度伪标签生成与本文伪标签生成方法对比Fig. 7High-confidence pseudo label generation versus this proposed pseudo label generation methodLEVIR-CD数据集包括来自美国德克萨斯州几个城市的20个不同地区的遥感图像,图像数据的捕获时间从2002年—2018年不等,分辨率为0.5 m GSD。此数据集仅关注建筑物单个类别的变化情况,图像大小为1024×1024像素,共计637对RGB图像。S2Looking是一个建筑变化检测数据集,包含在各种偏离最低点的角度拍摄的大规模侧视卫星图像。该数据集由2017年—2020年从高分、SuperView和北京二号收集的5000对超高分辨率配准图像组成。数据集包含了来自世界各地的各种场景,包括村庄、农场、别墅、零售中心和工业区等。表1为LEVIR-CD和S2Looking数据集的主要信息概况。表1本文采用数据集概况Table 1Overview of the data sets used in this paper虽然两个数据集都是针对建筑物变化检测,但是二者在光照强度、图像分辨率、成像角度等方面存在明显差异,图8展示了两个数据集中的部分建筑物图片。可见:LEVIR-CD中的建筑物较为单一,主要为美国乡村地区的居民住宅,在外貌上各个建筑物有较大的相似性;S2Looking中的建筑物的在外观、形状、色彩、分辨率上有更多的样式。两个数据域之间存在样本分布不一致的情况,可以用于本文域适应变化检测方法的验证。图8LEVIR-CD与S2Looking中的建筑物对比Fig. 8Comparison of buildings in LEVIR-CD and S2Looking变化检测任务中常用的评价指标有准确率P(Precision)与召回率R(Recall),P与R的计算公式如下: (12) (13)式中,TP表示实际为正样本并且被模型识别为正样本的数量,FP表示实际为负样本但被模型识别为正样本的数量,FN表示实际为正样本但被模型识别为负样本的数量,TN表示实际为负样本并且被模型识别为负样本的数量。在实际应用中,由于P和R是两个相互影响的指标,所以本文也采用综合这两者的指标F1分数,F1的计算如下: (14)此外,本文也采用IOU作为评价指标,在变化检测中,仅有“变化”与“非变化”两个类别,本文仅计算“变化”类别的IOU,其计算如式(15)。 (15)3.2 对比算法由于当前专门针对遥感图像变化检测域适应的研究较少,为了验证所提出方法的有效性,将当前语义分割域适应任务中的先进算法进行了变化检测适配,然后将本文方法与之进行对比,主要对比了3种算法,现介绍如下。DACS(Tranheden等,2021)是2021年被提出来的,是混合来自两个域的图像以及相应的标签和伪标签,除了训练有标签的数据本身之外,还对这些混合样本进行训练。DAFormer(Hoyer等,2022a)是2022年被提出的,它将Transformer模型引入到语义分割无监督域适应中,采用罕见类别重采样策略解决类别不均衡的问题,并使用ImagNet预训练模型特征距离限制,防止模型遗忘已知类别。HRDA(Hoyer等,2022b)是2022年被提出来的,采用了一种多分辨率训练方法,使得在训练高分辨率图像的时候,运用高分辨率裁切来保存细粒度的分割细节,同时用大的低分辨率的裁切,通过一个可学习的范围注意力机制来捕获大范围的上下文依赖。3.3 实现细节本文实验的硬件环境为Intel Xeon Gold 6240 CPU@2.6 GHz,128 G内存以及NVIDIA Quadro RTX8000,软件环境为pytorch深度学习框架。基础变化检测模型采用基于孪生网络的编码器-解码器结构,编码器采用ConvNext-base(Liu等,2022b),解码器采用UperNet(Xiao等,2018),双时相特征融合采用级联融合,域适应模型采用两阶段训练方式。第一个阶段是仅在源域数据上训练,在原始1024尺度的图像上随机裁切,以512尺度进行训练,训练批次大小为16,训练迭代次数为10 k,优化器采用AdamW,初始学习率设置为0.0001,并且在前1000个迭代使用线性学习率预热策略,学习率衰减策略采用poly。在数据增强上,采用(0.5,2)范围内的随机缩放、随机裁切、随机上下左右翻转、随机旋转、HSV空间抖动、输入归一化等策略,在官方测试集上进行验证并保留训练中指标最高的模型。第二个阶段是在源域数据和目标域数据的混合域上进行训练,在教师模型生成为伪标签的时候,不进行数据增强,直接输入归一化之后的目标域数据。学生模型采用强数据增强,包括第一个阶段使用的数据增强以及CutMix、高斯模糊,学习率采用CosReStart,每1000次迭代进行一次学习率重启,其余设置与第一个阶段相同。在第二个阶段中,学生模型与教师模型具有相同的结构,都采用遥感变化检测中常用的基于孪生网络的编码器—解码器结构;学生模型与教师模型具有不同的参数,教师模型的参数是学生模型的参数在训练过程中的指数移动平均EMA(Exponential Moving Average),以此来提升教师模型生成目标域伪标签的稳定性,且教师模型在进行伪标签生成的时候,不进行梯度的反向传播。教师模型参数的EMA更新方式如下: (16)式中,表示教师模型的参数,表示学生模型的参数,t表示迭代数,为指数移动平均中的超参数,取0.998。此外,针对对比算法,本文相比于原始官方代码并未做很多参数上的搜索。DACS、HRDA、DAFormer 3个模型原本是适配于语义分割任务的域适应算法,本文按照变化检测算法中常用孪生网络的架构对它们的模型结构进行了改造,以适配变化检测任务。在模型上,DACS的编码器采用ResNet101,解码器采用DeepLabv2;DAFormer的编码器使用MIT-B5,解码器采用SegFormer;HRDA的编码器和解码器与DAFormer相同。对其进行变化检测任务适配时,在孪生编码器之后,使用级联操作,将双时相特征级联起来,然后再使用对应的解码器进行后续的多尺度解码。其余参数设置均与原始官方代码相同。3.4 实验结果及分析本文以LEVIR-CD和S2 Looking互为源域和目标域进行实验。表2为以LEVIR-CD为源域、S2Looking为目标域时不同算法的指标结果,表3为以S2Looking为源域、LEVIR-CD为目标域时不同算法的指标结果。注: 表中最好的结果使用粗体进行了标记;第二好的结果使用下划线进行了标记;Source Only表示使用本文的基础变化检测算法仅在源域LEVIR-CD数据集上训练,Target Only表示使用本文的基础变化检测算法仅在目标域S2Looking数据集上训练,其中Target Only的结果也就是域迁移模型结果的上限。表2LEVIR-CD域迁移至S2Looking时不同算法的结果Table 2Results for different algorithms when transfer LEVIR-CD domains to S2Looking /%注: 表中最好的结果使用粗体进行了标记;第二好的结果使用下划线进行了标记;Source Only表示使用本文的基础变化检测算法仅在源域LEVIR-CD数据集上训练,Target Only表示使用本文的基础变化检测算法仅在目标域S2Looking数据集上训练,其中Target Only的结果也就是域迁移模型结果的上限。表3S2Looking域迁移至LEVIR-CD时,不同算法的结果Table 3Results of different algorithms when migrating S2Looking domains to LEVIR-CD /%由表2可见,本文方法ICDA-CD在LEVIR-CD域迁移至S2Looking任务中取得了最高的F1和IOU,分别为43.91%和28.31%,相比于DAFormer分别高出1.55%和1.44%,相比于HRDA分别高出2.46%和2.16%,相比于仅源域训练的Source Only分别高出12.01%和9.33%。在其他先进的算法中,DACS算法以ResNet50作为编码器,以DeepLabv2作为解码器,都是较弱的模型,所以其表现不佳;DAFormer采用SegFormer作为基础模型,具有较好的域迁移效果,但是由于变化检测任务是一个二分类任务,导致DAFormer中用于解决类别不平衡的罕见类别重采样策略失效,且遥感变化检测数据和ImageNet中的数据差异较大、无类别重叠,导致DAFormer中用于保持ImageNet原始类别特征提取能力的特征距离限制策略失效,所以DAFormer的表现也不如本文方法好。HRDA算法主要是解决在域适应时Cityscapes数据分辨率太大的问题,而S2Looking和LEVIR-CD数据集都是1024×1024像素的图像分辨率,并不存在分辨率太大的问题,所以HRDA算法的表现也不如本文方法好,在实际业务应用中,遥感图像的尺度会有上万分辨率,这时HRDA可能会有突出的效果。另一个观察到的现象是,所有的域适应算法在S2Looking上的召回率都不高,仅有25%—30%,这与2个域中的建筑物差异太大有关,本文所提出的ICDA-CD具有最高的召回率30.69%,这也可以说明本文的算法有更好的域适应能力,可以召回更多目标域中的正样本。由表3可见,本文方法ICDA-CD在S2Looking域迁移至LEVIR-CD任务中也取得了最高的F1分数和IOU,分别为74.75%和59.68%。相比于LEVIR-CD域迁移至S2Looking时的指标高出不少,这是由于S2Looking数据集中的样本更加丰富,当将其作为训练样本的时候,可以在样本更加简单的LEVIR-CD数据及上取得很好的效果。本文方法ICDA-CD在两个遥感变化检测数据集相互域迁移时,都取得了最佳的综合指标,说明了该方法的有效性。此外,从表2和表3可以看出在LEVIR-CD域迁移至S2Looking时,本文的算法的准确率较低,但在S2Looking域迁移至LEVIR-CD时,本文的算法准确率最高。这与数据集的难度及本文所采用的实例级对比学习有关。当LEVIR-CD域迁移至S2Looking时,由于S2Looking的难度较大,在域适应之前正样本的召回率较低,仅有19.75%,从而导致目标域的正样本实例较少。而当S2Looking域迁移至LEVIR-CD时,在域适应之前正样本的召回率较高,为67.17%,导致此时目标域的正样本实例较多。当目标域的正样本实例越多,使用实例级对比学习之后,源域特征可以更有效地与目标域特征对齐,准确率P就会更高。图9展示了本文方法ICDA-CD在LEVIR-CD域迁移至S2Looking时的预测结果,从左到右每一列依次为时相一的输入图像、时相二的输入图像、变化标签、仅在源域LEVIR-CD上训练时的预测结果、DAFormer算法的预测结果、本文算法的预测结果、仅在目标域S2Looking上训练的预测结果。在预测结果中,白色表示检测正确的样本,红色表示误检的样本,蓝色表示漏检的样本。从图中第4列可以看出,当仅源域数据训练时,模型输出的检测结果比较少,整体白色的结果较少,但是红色的误检也较少,当进行域适应之后,如第5列和第6列,召回开始有所提升。对比DAFormer和本文方法的结果,如第2行,本文的方法的误检更少,同时可以将右下角的建筑物的变化检测出来,第4行中,本文方法可以将中间的变化建筑物检测出来,本文方法的预测结果相比于DAFormer更加接近仅在目标域上训练的结果。图10展示了本文方法在S2Looking域迁移至LEVIR-CD时的预测结果,在第4行中,SourceOnly和DAFormer都将新增的田径场识别为变化建筑,本文的方法可以将其正确识别。对比第1行DAFormer和本文方法的预测结果,从右下角的结果可以看出,本文方法可以基本召回所有的变化样本。以上预测结果的分析证明了本文所提出方法的有效性。图9LEVIR-CD域迁移至S2Looking时各算法的预测结果Fig. 9Prediction results for each algorithm when transferring the LEVIR-CD domain to S2Looking图10S2Looking域迁移至LEVIR-CD时各算法的预测结果Fig. 10Prediction results for each algorithm when transferring the S2Looking domain to LEVIR-CD3.5 消融实验为了验证本文所提出的各个方法的有效性,本小节进行了详细的消融实验。表4展示了LEVIR-CD域迁移至S2Looking时的消融实验结果,表中IC表示实例对比学习,PLQE表示伪标签质量估计,基线模型采用基于自训练的教师—学生模型,伪标签以高置信度产生。从表4中可以看出,本文所提出的3个改进均可以有效提升指标,其中CutMix带来的增益最大,可以在基线模型的基础上将F1提升3.41%、IOU提升2.88%,这证明了域混合策略在域适应任务中的关键性。使用实例对比学习IC可以将F1进一步提升1.3%、将IOU提升1.11%,证明了将源域正样本特征与目标域正样本特征显式拉近是可以提升模型的泛化性能的。伪标签质量估计PLQE带来的提升较小,F1提升0.4%左右。通过上述实验分析,说明了不同改进点对模型的定量影响程度,由此验证了本文方法设计的合理性与有效性。表4LEVIR-CD域迁移至S2Looking时的消融实验结果Table 4Results of ablation experiments when LEVIR-CD domains migrate to S2Looking图11展示了LEVIR-CD域迁移至S2Looking时的消融实验结果可视化,图11中(a)—(f)表示不同的遥感图像对,第4行至第8行分别表示使用本文提出的不同的模块的组合时的模型预测结果,其顺序与表4中的消融实验结果一一对应。在预测结果中,白色表示检测正确的样本(TP),红色表示误检的样本(FP),蓝色表示漏检的样本(FN)。从图11中可以看出,整体而言,各个模型的召回率较低,图中大片为蓝色。使用本文提出的各个模块之后,可以提升跨域检测效果,如图11(e)列中,使用3个模块的组合之后,模型可以将图中的正样本基本都预测出来,相比于基线模型的预测结果,提升效果很明显。图11LEVIR-CD域迁移至S2Looking时的消融实验结果可视化Fig. 11Visualization of ablation experiment results when transferring the","result":"通过实验评估了所提出的基于实例对比学习的遥感域适应变化检测模型(ICDA-CD)的性能,并与DACS、DAFormer、HRDA等先进域适应算法进行了对比。实验使用了LEVIR-CD和S2Looking两个数据集,分别在两种情况下进行:LEVIR-CD作为源域,S2Looking作为目标域;反之亦然。实验中不使用目标域的真实标签。\n\nLEVIR-CD数据集包含20个地区的遥感图像,时间跨度从2002年到2018年,分辨率为0.5米,图像大小为1024×1024像素,共637对RGB图像。S2Looking数据集包含5000对超高分辨率的侧视卫星图像,时间跨度为2017年至2020年,图像分辨率与LEVIR-CD相同,但场景更加多样化。\n\n评价指标包括准确率(Precision)、召回率(Recall)、F1分数和IOU。实验结果显示,ICDA-CD在LEVIR-CD迁移至S2Looking任务中取得了最高的F1分数和IOU,分别高出其他算法1.55%-2.46%。在S2Looking迁移至LEVIR-CD任务中,ICDA-CD同样取得了最佳性能。\n\n实验的硬件环境包括Intel Xeon Gold 6240 CPU、128G内存和NVIDIA Quadro RTX8000显卡,软件环境为pytorch框架。基础模型采用基于孪生网络的编码器-解码器结构,编码器使用ConvNext-base,解码器使用UperNet。域适应模型采用两阶段训练方式,第一阶段仅在源域数据上训练,第二阶段在源域和目标域的混合数据上训练。\n\n消融实验验证了实例对比学习、伪标签质量估计和CutMix等方法的有效性。实验结果表明,CutMix带来的增益最大,可以显著提升模型性能。实例对比学习进一步提升了F1分数和IOU,伪标签质量估计的提升较小。\n\n预测结果的可视化分析表明,ICDA-CD在LEVIR-CD迁移至S2Looking时能够减少误检并检测出更多的变化建筑物。在S2Looking迁移至LEVIR-CD时,ICDA-CD能够正确识别新增的田径场等场景,基本召回所有变化样本。\n\n综上所述,ICDA-CD在两个遥感变化检测数据集的域迁移任务中均取得了最佳性能,验证了所提出方法的有效性。消融实验进一步证明了各个改进点对模型性能的定量影响,展示了方法设计的合理性。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"4 结论","content":"本文以遥感图像中的建筑物变化检测算法为研究对象,探究了在跨数据域检测时的无监督域适应方法,主要结论如下:本文提出了实例级对比学习域适应变化检测算法ICDA-CD。主要贡献点有3个:区域级域混合、实例级对比学习和伪标签质量估计加权损失。其中区域级域混合将源域数据与目标域数据混合在一个样本上,混合域样本可以使模型更加关注域不变特征;实例级对比学习应用在模型的编码器和解码器中,在编码器中,拉开变化实例区域双时相特征距离,在解码器中,拉近各个变化实例区域特征之间的距离,从而降低模型对源域和目标域特征表示的差异;伪标签质量估计通过教师模型的预测值得出各个像素位置的伪标签质量估计,然后对损失进行加权,这可以使得低置信度的标签可以被有效利用,不浪费教师模型的预测结果。本文将所提出的方法在LEVIR-CD和S2Looking数据集上进行了域迁移实验,并与先进的域适应算法进行了对比分析和消融实验,证明了本文所提出的方法可以有效提升跨数据域无监督域适应变化检测算法的精度。此外,本文所提出的的跨域遥感变化检测算法也存在一定的局限性。具体表现为本文所提出的方法无法端到端完成训练,需要两个训练阶段。首先第一个阶段仅在源域数据上进行训练,然后第二个阶段在目标域数据上进行域适应调整。流程较为复杂,未来可以探究更好的训练策略以实现跨域变化检测模型的端到端训练。","result":"提出了一种名为ICDA-CD的遥感建筑物变化检测域适应算法,通过区域级域混合、实例级对比学习和伪标签质量估计加权损失三个主要贡献点,实现了跨数据域的无监督域适应。算法在LEVIR-CD和S2Looking数据集上进行了域迁移实验,与先进算法对比分析和消融实验,验证了其有效性。然而,该方法存在局限性,如无法端到端完成训练,需要分两个阶段进行,未来研究可探索更优的训练策略。","language":"zh"}]”
“[{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"1 引言","content":"合成孔径雷达SAR(Synthetic Aperture Radar)是一种主动式微波成像传感器,具有全天时、全天候观测地球的能力。近年来,随着SAR图像数据的不断增长,SAR舰船检测作为SAR图像解译的一个重要分支,因其在海洋监测、国防安全等方面的重要价值而备受关注。在民事领域,对民船进行准确的检测,有利于推动渔业安全管理、海面监管、海洋救援等工作的开展,同时可以在一定程度上打击偷渡和违法捕捞等行为。利用SAR图像数据在深度学习领域中开展目标检测工作已经成为一个重要的研究方向。由于技术限制,早期遥感图像的成像分辨率较低,研究时将舰船等效为点目标,传统方法针对舰船与海平面背景有较强的对比度这一特性,对SAR图像中的舰船目标进行检测(Pappas等,2018)。其中,恒虚警检测算法CFAR(Constant False Alarm Rate)是一种具有代表性的传统算法。然而,CFAR算法对于干扰存在严重的复杂场景会产生较高的虚警率,其高度依赖于背景杂波模型的构建,实际应用效率较低(Zhang等,2018;侯卫和李勇,2023)。此外,CFAR算法使用时需要专业人员有针对性地设置参数,因此其泛化能力较差。因此,这些方法在实际应用中仍然面临着巨大的困难。随着深度学习技术的飞速发展,目标检测领域也受到了广泛的关注。目前基于深度学习的方法大致可以分为双阶段(Two-stage)算法和单阶段(One-stage)算法两大类。双阶段算法首先对输入图像进行特征提取和区域筛选,得到大量的候选框,之后进行分类检测,在检测精度上具有优势。经典的双阶段算法如:Fast R-CNN(Girshick,2015)、Faster R-CNN(Ren等,2015)、Cascade R-CNN(Cai和Vasconcelos,2018)等。单阶段算法简化了整个流程,将其视为一个回归问题,推理速度得到极大的提高。经典的单阶段算法如:SSD(Liu等,2016)、YOLO系列(Redmon等,2016;Redmon和Farhadi,2017,2018)、RetinaNet(Lin等,2017)等。受到光学目标检测算法(Liu等,2018;Wu等,2020;Lu等,2019;Dai等,2017)的启发,遥感图像目标检测领域发展迅速(Zhou等,2021;Yao等,2021;Yu等,2020)。当前阶段的SAR图像目标检测算法主要集中在网络模型的创新上,以提升SAR图像目标检测的性能。研究人员通过调整网络结构和设计先进的特征提取器来实现这一目标。例如,有研究(Lin等,2019;Zhao等,2020)选择引入新的注意力机制,增强骨干网络的特征提取能力。另一些研究(Wang等,2023a;Zhang等,2022)则采用特征融合的思想,通过有效地利用提取到的不同特征,将它们进行联合建模,以提升模型的鲁棒性和性能。此外,还有一些研究(Miao等,2022)选择设计更轻量化的模型,以提高算法的效率和实时性。但是由于SAR图像的成像机理与光学图像存在显著差异,使得SAR图像具有独特的特征和问题,相比于光学图像,SAR图像的成像机理和特征表示具有一定的复杂性,其特征更加抽象和难以直观理解。这些创新方法虽然为SAR图像目标检测带来了显著的改进,但是大多都是直接参照光学图像算法的改进思路,并不完全适用于SAR图像,尽管在网络模型和特征提取器的创新方面取得了进展,但在SAR图像目标检测的性能提升方面仍存在一定的限制。因此,仅仅将光学图像算法直接应用于SAR图像往往不能取得理想的结果。另一方面,由于SAR图像数据获取和标注较为困难,需要巨大的经济成本。相较于光学数据而言,现阶段SAR图像的数据量比较匮乏,仅仅采用现有的SAR图像数据去训练出一个检测性能好、鲁棒性又高的模型难度较高。然而光学数据量要远远大于SAR图像数据,并且光学图像具有丰富的细节信息和直观的特征表示,因此更易于观察和解译。在遥感图像研究领域,为了解决由单源数据的局限性而导致的模型性能提升遇到瓶颈的问题,一些学者(Cao等,2019;Wang等,2023b,2023c;Li等,2022;Zhang等,2023)也选择采用多源数据融合的方法来进行智能解译,从而提升网络性能。在SAR图像目标检测任务中,光学图像可以作为一种补充数据源,通过大量的光学数据来辅助训练SAR数据,有助于学习出一个知识更为丰富的模型,因此选用什么样的训练方式能够更为合理的将这两种模态的图像进行利用是一个值得探索的问题。由于SAR模态数据与光学模态数据在成像机理和特征表示上存在显著差异,实现这种跨模态知识的异质迁移具有很大的挑战性。Li等(2019)选择基于预训练模型进行微调的方法,通过在大规模光学图像数据上预训练的卷积神经网络,将预训练模型的权重用于初始化跨模态任务的模型,并在目标任务上进行微调,可以加快模型的收敛速度和提高性能。但是这种方法过度依赖于训练的数据规模和多样性。如果预训练数据集较小或不够多样化,预训练模型的特征表示可能无法充分适应跨模态任务的需求。Bao等(2021)选择使用配对的光学—SAR数据进行预训练,使得预训练模型更贴合目标任务。然而,目前可用于训练数据的一一配对的光学图像和SAR图像较少且难以获得,因此该方案可能是次优的。Shi等(2022)选择基于风格迁移的方法,这类方法通过风格技术,将光学图像转换为类似于SAR图像的风格和外观,以减少模态差异带来的影响。常见的风格迁移方法包括基于风格的生成器架构StyleGAN(Karras等,2019)、循环一致性生成对抗网络CycleGAN(Zhu等,2017)等。然而,这些方法仅将光学图像转换为SAR图像,没有涉及SAR图像的物理特性。这些类SAR图像并没有表现出与真实SAR图像相同的散射特性,尤其是对于目标而言(图1)。类SAR图像中存在大量的低质量数据,会影响检测的最终结果。Guo等(2021)选用基于领域自适应的方法:这类方法旨在通过领域自适应技术,将源域(光学数据)和目标域(SAR数据)的特征分布进行对齐,以实现跨模态的知识迁移。然而,SAR和光学图像的特征空间之间存在广泛的潜在异构性,域适应方法可能难以弥合如此大的域间隙。但是不可否认的是,基于域自适应的算法为使用光学图像去辅助SAR图像进行检测提供了一个很好的思路,尤其是对于不同场景下的图像而言。图1同场景下光学图像、SAR图像、以及经过风格迁移之后的类SAR图像的对比图Fig. 1In the same scene, the comparison of optical images, SAR images, and SAR-like images after style transfer综上所述,本文提出了一种基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net,该算法包括两个模块:一个基于邻域—全局注意力的特征交互网络NGAN以及一个多级模态对齐模块MLMA。通过对不同级别的模态特征信息采取不一样的关注策略以及从多个级别对齐不同模态间的特征,实现了利用光学模态中丰富的信息去辅助SAR图像数据进行训练。首先基于邻域—全局注意力的特征交互网络来进行特征提取,对于局部信息更加丰富的浅层特征而言,我们采用邻域注意力机制,直接将注意力操作范围限制到了每个像素的邻域,提升了网络对局部信息的提取能力。对于全局信息比较丰富的深层特征,采用全局自注意力机制,通过对深层特征建立一种全局级别的关联,能够获取更丰富的语义信息表示。接着,为了借助光学图像中的细节信息丰富SAR图像的特征表示,提出了多级模态对齐模块,通过从局部级别到全局级别再到实例级别的对两种模态的特征进行对齐,逐步减小光学模态图像和SAR模态图像的差异性,通过在对齐过程中探索更多的模态共享特征,实现跨模态的知识传输。最后,与现阶段的先进算法在SSDD(Li等,2017)数据集和HRSID(Wei等,2020)数据集的实验结果进行对比,证明了我们的模型具有一定的鲁棒性,且取得了较优越的性能。","result":"介绍了合成孔径雷达SAR图像舰船检测的重要性和应用背景,指出了SAR图像在海洋监测和国防安全中的关键作用。随着SAR图像数据量的增长,舰船检测技术的发展变得尤为重要。文中回顾了传统舰船检测方法,如CFAR算法,及其在复杂场景下的局限性。随后,讨论了深度学习技术在目标检测领域的应用,包括双阶段和单阶段算法,并指出了现有方法在SAR图像目标检测中的不足。\n\n文章强调了SAR图像与光学图像在成像机理和特征表示上的差异,导致直接应用光学图像算法到SAR图像上存在挑战。提到了多源数据融合方法在提升模型性能方面的潜力,尤其是在SAR图像数据量有限的情况下。介绍了几种跨模态知识迁移的方法,包括预训练模型微调、配对数据预训练、风格迁移和领域自适应,分析了它们在SAR图像目标检测中的适用性和局限性。\n\n最后,本文提出了一种新的基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net,该算法包含邻域—全局注意力的特征交互网络NGAN和多级模态对齐模块MLMA。通过不同级别的模态特征对齐,利用光学图像信息辅助SAR图像训练,提高了模型的鲁棒性和性能。实验结果表明,所提算法在SSDD和HRSID数据集上具有优越的性能。","language":"zh"},{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"2 模型方法","content":"针对由于SAR图像特殊的成像机理导致的特征不明显,以及SAR图像数据获取和标注困难导致训练样本不足等问题,提出了一种基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net,算法具体框图如图2所示。首先对于输入的图像进行特征提取,之后针对骨干网络不同级别的特征所独有的优势,对其采用不同的注意力机制。通过对浅层特征和深层特征采用不同的关注策略,提升骨干网络对不同模态不同层级特征的提取能力,挖掘更多有用信息,促进后续更好的实现跨模态对齐。接着通过采用多级模态对齐网络,尽可能的降低两种模态之间的差异性,分别对骨干网络浅层的局部特征,深层的全局特征,以及实例级的特征采用不同的对齐方式进行对齐。最后,通过上述步骤获取的信息将分别传输到边框回归以及分类子网络中进行定位和判别任务。接下来,我们将对MCMA-Net进行详细的描述。图 2MCMA-Net算法的整体流程图Fig. 2The overall framework of MCMA-Net algorithm2.1 基于邻域—全局注意力的特征交互网络NGAN现阶段的骨干网络对于浅层特征的处理还有深层特征的处理大多使用同一种方法,但是由于浅层特征和深层特征具有不同的语义信息和表达能力,这种处理方式可能并不是最优的。具体而言,在浅层网络层中,卷积和池化操作的感受野较小,只能捕捉到输入图像的局部细节和纹理等低级特征。因此,浅层特征更接近输入图像的原始信息,通常包含更多的局部信息。相比之下,深层特征具有更大的感受野,对于检测物体的整体结构、关系等全局信息更敏感,能够提供更丰富的语义表达能力。如果采用相同的处理方法来处理这些特征,可能无法充分发掘和利用它们的不同表达能力,从而限制了网络的表示能力。针对这个问题,本文提出了一种基于邻域—全局注意力的特征交互网络NGAN,通过对浅层特征、深层特征分别采用邻域注意力机制和全局自注意力机制,能够在兼顾全局上下文建模能力的同时,提升局部特征的编码能力,同时也能充分挖掘不同模态之间的局部信息和全局信息,便于后续模态对齐。对于输入图像,首先采用两个卷积核为3、步长为2的卷积进行嵌入输入,骨干网络的总体由4个级别组成,值得注意的是,前3个级别由多个邻域自注意力NA(Neighborhood Attention)块组成(Hassani等,2023),后一个级别由多个全局自注意力SA(Self Attention)块组成(Dosovitskiy等,2021),NA块和SA块的结构如图3所示。这些块类似于Transformer编码器层。每个层由邻域自注意力(NA)或者是全局自注意力(SA)、多层感知机MLP(Multi-layered Perceptron)、每个模块前的层归一化LN(Layer Norm)以及跳跃连接组成。每个级别后面都连接一个卷积核为3、步长为2的下采样器,除了最后一个级别的特征。通过使用下采样器,特征的空间大小减少了为原来的一半,而通道数量增加了一倍。图3NA块与SA块的结构示意图Fig. 3The structure of NA block and SA block具体而言,对于包含更多局部信息的浅层特征(骨干网络前3个阶段),选择采用邻域注意力机制,如图4(a)所示,网络可以学习到每个像素与其邻域像素之间的依赖关系。这有助于模型更好地理解和建模像素之间的空间关系,有助于网络能更好的利用局部信息。我们令代表来处的一个像素的相邻区域,对于的邻域,。因此,单个像素的邻域注意力为 (1)式中,为变量的线性投影,为相对位置偏差。将其加入每个注意力权重,依照其相对位置。最后,扩展到所有的像素中,构成了邻域注意力。图4邻域注意力和全局自注意力(对于单个像元)的query-key-value结构示意图Fig. 4Query-key-value structure of neighborhood attention and global self-attention (For a single pixel)而对于包含更多全局信息的深层网络特征而言(骨干网络最后一个阶段),我们通过采用全局自注意力机制,如图4(b)所示,在深层特征中引入全局上下文信息,弥补局部信息的不足,使网络可以学习到不同区域之间的长距离依赖关系,使得特征能够更好地理解和编码目标的全局结构和语义。此时,函数将每个像素映射到所有像素,即包含全部可能的像素。除此之外,这时候的,,真正实现了全局自注意力机制,通过去除偏置项,全局自注意力机制可以表示为 (2)2.2 多级模态对齐模块MLMA由于SAR图像数据获取困难以及人工标注困难导致现阶段SAR数据量要远远低于光学数据,除此之外SAR图像特殊的成像机理导致的其特征表示不直观。因此利用少量的SAR图像数据训练出一个性能较优越的检测模型存在一定的困难。与现阶段的SAR图像检测算法不同,我们选择借助包含更多细节丰富特征信息以及数据量更加庞大的光学数据,希望利用光学特征对SAR图像的模态表示进行补偿,从而建立稳健的SAR模态特征。受域自适应算法的启发(Saito等,2019),本文采用了一种多级模态对齐模块,通过模态对齐的方式来实现这种知识传输。但是由于两种模态之间巨大的差异性,仅仅进行一次模态对齐很难达到好的效果。因此为了能提取到更多的模态不变特征以及缩小这种模态之间的差异性最终选择通过分阶段的从3个级别对两种模态的特征进行对齐,使光学图像特征和SAR图像特征在特征空间中的分布尽可能相似。如图2所示,我们分别从局部级别、全局级别以及实例级别进行模态对齐。通过对不同级别的特征采取更适合自身特点的对齐方式,能够更合理的利用光学特征去辅助SAR图像特征,减少误差。模态对齐操作主要是通过特征提取器和模态分类器来实现的。其中模态分类器的主要目的是通过分析输入特征的模态信息,判断特征是来自光学模态还是SAR模态。而特征提取器的任务是它通过从输入数据中学习提取模态不变的特征表示,从而利用提取有用的特征来欺骗模态判别器,使得不同模态的特征在特征空间中更加接近。在训练过程中,特征提取器和模态判别器进行博弈,特征提取器通过最小化模态判别器对特征的模态判断误差来学习模态不变的信息。同时,通过最大化对特征模态判断的准确性来使模态判别器区分不同模态的特征。通过这种训练方式,特征提取器能够生成具有高度相似性的特征表示,从而使模态判别器更难区分特征的来源模态,使得不同模态的特征在共享的特征空间中趋于对齐,以更好的实现跨模态的信息传输。具体而言,对于浅层特征,特征往往具有较小的感受野,浅层特征上的局部信息比较丰富,因此我们对具有局部性和通用性的低级特征(骨干网络第一阶段输出的特征)采取局部对齐的方式进行处理。在局部级别,通过利用模态判别器用来区分这些浅层的特征都来自那个模态,而我们的特征提取器就不断的提取特征来对进行欺骗,通过这样可以使模态间的差异性降低。是一个卷积核等于1的全卷积网络,且输入模态的特征预测图与输出模态的特征的维度是相匹配的。在训练局部级别的模态判别器的时候,我们采取的是最小二乘损失,具体表示为 (3) (4) (5)式中,代表的是输入图像,代表的是局部特征,也就是骨干网络第一个阶段输出的特征,代表着局部级别的模态判别器的输出,代表着输入图像的模态,代表宽度,代表着高度。随着网络的加深,感受野的范围扩大。同时,深层的特征图中的全局信息变得更加丰富。为了更好的处理利用这些具有全局性和区分度的高层特征(骨干网络的第3阶段输出),我们在全局层面对这些特征进行对齐操作。为了减少具有特殊性的深层特征之间的差异,我们引入了一个模态判别器,其主要任务同样也是学习区分输入特征是来自于哪个模态。通过这样的训练,模态判别器能够学习到不同模态之间的差异,并为特征对齐提供指导。的分类损失可以表示为 (6) (7) (8)式中,代表着骨干网络第3个阶段输出的特征,代表着全局级别的模态判别器的输出。此外,由于实例级特征之间仍然存在着模态间的差异,例如外观、尺度、视角等,忽略这些差异可能会对检测结果产生不利的影响。为了解决这个问题,本文进一步进行实例级对齐,以帮助模型更准确理解光学和SAR模态之间的关系,并学习更广泛的规则,从而增强模型的泛化能力。由于实例级的特征独立地表示局部目标,缺乏对上下文整体信息的感知,有效地利用整体上下文信息可以准确地诱导实例级对齐,对后续的检测任务也至关重要。因此,我们我们首先将上下文特征(和)与实例级特征()进行级联融合,之后对融合的特征()采用了实例级判别器,通过不断的通过损失对其进行优化,从而实现实例级别的严格对齐。其损失函数表示为 (9) (10) (11)式中,代表着经过表示通过ROI-Pooling获取的目标建议特征,代表着实例级的模态判别器的输出。最后,我们方法的检测任务损失可以写为。因此,MCMA-Net的整体损失表示如下: (12)式中,表示权重因子,用于平衡检测任务和域判别器的损失。的默认值为0.1。","result":"该论文提出了一种名为MCMA-Net的SAR图像舰船检测算法,旨在解决SAR图像特征不明显和训练样本不足的问题。算法通过多级跨模态对齐,利用不同级别的特征优势,采用不同的注意力机制,提升特征提取能力。MCMA-Net包含特征交互网络NGAN和多级模态对齐模块MLMA。\n\nNGAN通过邻域注意力机制和全局自注意力机制,分别处理浅层和深层特征,挖掘局部和全局信息,为模态对齐提供基础。MLMA利用光学数据辅助SAR图像特征,通过局部、全局和实例级别对齐,减少模态差异,实现跨模态信息传输。\n\n具体实现中,NGAN采用Transformer编码器层结构,通过邻域自注意力和全局自注意力块,学习像素间依赖关系和长距离依赖。MLMA通过特征提取器和模态分类器,进行模态对齐训练,生成模态不变特征表示,使不同模态特征在特征空间中趋于对齐。\n\nMCMA-Net的损失函数包括检测任务损失和模态判别器损失,通过权重因子平衡两者,实现整体优化。算法框架如图2所示,详细介绍了特征提取、模态对齐和检测任务的流程。","language":"zh"},{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"3 实验与分析","content":"3.1 实验数据本文实验在训练的过程中采用的是光学图像数据和SAR图像数据,网络在两个模态中是完全共享的,在测试的过程中采用的是SAR图像数据。其中,采用的光学图像数据集为HRSC2016(Liu等,2017)数据集。HRSC2016数据集由1061张光学航空影像组成,图像的尺寸从300×300到1500×900不等。采用的SAR图像数据集为SSDD(Li等,2017)数据集、HRSID(Wei等,2020)数据集、以及自制数据集SSD3。其中SSDD数据集包含了1160幅大小约为500×500的SAR图像,这些SAR图像切片中一共包括2540艘舰船目标。将训练集和测试集的数量按照8∶2进行划分,按照原数据集设定的安排,将图像名称的最后一个数字为1或9的图像指定为测试集,其余图像用于训练。HRSID数据集由5604幅SAR图像组成,分辨率分别为0.5 m、1 m、3 m。这些SAR图像切片中一共包含16951艘舰船,每幅图像具有800×800像素。对于HRSID数据集,按照原始的数据集设定,65%的图像用于训练,35%的图像用于测试。SSD3数据集由910张SAR图像组成,分辨率为1 m。这些SAR图像切片中一共包含1730艘舰船,每幅图像的大小为256×256。我们按照8∶2的比例随机划分训练集和测试集。3.2 实验环境所有实验均在相同的硬件平台上进行,包括GPU(GTX-3090)、CPU(Intel 4210R)和32 G内存。实验环境为PyTorch 1.10.0,CUDA 11.1和cuDNN 11.1,Python 3.7。我们在Faster R-CNN上实现了MCMA-Net,设置(在总体损失函数中)为0.1。为了保证比较的公平性,包括我们在内的所有船舶检测器都在MMDetection工具箱下实现,所有模块的参数均参照MMDetection工具箱的原始设置,均采用随机梯度下降SGD(Stochastic Gradient Descent)作为优化器,采用0.01的学习率、0.9的动量、0.0001的权重衰减和0.5的IoU(Intersection over Union)阈值。3.3 评价指标为了有效的评估本文方法的检测性能,实验主要使用了5个评估指标,即:检出率d(detection probability)、虚警率f(False alarm probability)、准确率p(precision)、召回率r(recall)和平均精度mAP(mean Average Precision)。 (13) (14) (15) (16)式中,是将目标正确预测的数量,是将负样本错误预测为目标的数量,是将目标错误预测为负样本的数量,是正样本的数量。是一种被广泛采用的评价目标检测模型有效性的性能指标。它是一种兼顾准确率和召回率的综合度量,提供了对模型准确检测物体能力的全局评价。因此,在目标检测领域,常被作为首要的评价标准: (17)3.4 实验结果分析为了证明本文方法在跨模态特征传输上的有效性,本文在SSDD数据集上将本文实验结果与现阶段的6种检测算法:Faster R-CNN(Ren等,2015),PANET(Liu等,2018),Cascade R-CNN(Cai和Vasconcelos,2018),Double-Head R-CNN(Wu等,2020),Grid R-CNN(Lu等,2019),DCN(Dai等,2017)进行对比,如表1所示。实验结果表明,本文方法MCMA-Net取得了优于其他几种算法的最好的实验结果:96.6% mAP。相较于第二高的DCN算法,本文算法能够在检测精度上高出4.4%,这表明本文算法的设计是合理的。为了进一步证明本文算法的鲁棒性及优越性,本文还在HRSID数据集上进行了实验,结果如表2所示。可以看出,与现阶段较为先进的算法相比,本文算法MCMA-Net仍然取得了最好的检测精度,精度可以达到87.4%。与精度第二高的检测算法DCN相比,我们的精度提升了5.4%。表1不同的算法在SSDD数据集上的实验结果Table 1Experimental results of different algorithms on SSDD dataset表2不同的算法在HRSID数据集上的实验结果Table 2Experimental results of different algorithms on HRSID dataset与此同时,我们还比较了本文算法与其他算法的检出率与虚警率,通过表1和表2可以看出,虽然我们的算法的虚警率并不是最低的,但是与其他算法相较而言,差距并不明显。其中,在SSDD数据集上,本文算法的虚警率仅比基线模型Faster R-CNN高2.3%,仅比检测精度第二的DCN高1.5%。在HRSID数据集上,本文算法的虚警率仅比基线模型Faster R-CNN高1%,仅比检测精度第二的DCN高1%。但是与其他所有算法相比,MCMA-Net的检出率有大幅的提升。其中,在SSDD数据集上,本文算法的检出率比基线模型Faster R-CNN高7.5%,比检测精度第二的DCN高4.9%。在HRSID数据集上,我们的算法的检出率比基线模型Faster R-CNN高7.0%,比检测精度第二的DCN高5.5%。因为检出率的提升必然会带来误检导致虚警率增大,所以在虚警率差别不大的同时能大幅的提升检出率,证明本文算法的性能更优越。图5和图6是基于所有算法在SSDD数据集和HRSID数据集上的检出率和虚警率绘制得到的ROC曲线,可以看出本文算法MCMA-Net对应的粉色曲线在相同虚警率的情况下检出率最高,在虚警率极大值相差不大的情况下,检出率极大值点均远大于其他曲线,具有明显的优势。图5不同算法在SSDD数据集上的ROC曲线Fig. 5ROC curves of different algorithms on SSDD dataset图6不同算法在HRSID数据集上的ROC曲线Fig. 6ROC curves of different algorithms on HRSID dataset为了进一步验证我们提出的算法的实际应用价值,也在自制数据集SSD3上进行了定量实验,实验结果如表3所示。可以看出,我们的算法MCMA-Net取得了最优的检测性能,检测精度达到了89.2%,比基线模型Faster R-CNN高10.9%。与精度第二高的算法PANET相比,我们的精度提升了9.3%。更值得注意的是,在SSD3数据集上,我们的算法MCMA-Net同时拥有最高的检出率和最低的虚警率,远远优于其他所有算法,证明了我们的算法具有不错的鲁棒性。表3不同的算法在SSD3数据集上的实验结果Table 3Experimental results of different algorithms on SSD3 dataset由这些实验结果可以得出结论,本文设计的基于邻域—全局注意力的特征交互网络能够更好的挖掘不同级别的特征信息以取得更好的检测结果。除此之外,还说明了我们设计的多级模态对齐模块实现了利用光学信息去辅助SAR图像进行检测,并有益于检测效果的提升。图7本文算法与其他3种算法的可视化结果图Fig. 7Visual detection results of our method and some comparison methods on SSDD3.5 消融实验为了进一步证明我们设计的模块的有效性,我们对提出的MCMA-Net算法进行了消融实验,结果如表4所示,首先,我们评估了基于邻域—全局注意力的特征交互网络NGAN的性能,可以看出,相较于基础模型而言,在加入NGAN模块之后,总体检测精度提升了1.7%,更直接的证明了NGAN模块能够更有效的挖掘和利用SAR图像特征信息。与此同时,相较于基础模型而言,在只加入MLMA模块的时候,总体检测精度提升了0.9%,这证明了MLMA很好的实现了将光学模态特征迁移到SAR模态中,并有助于提升网络的性能。最后,当两个模块一起使用的时候发现并没有出现互斥的效果,也就是整体的检测结果仍然是提升的,相较于基础模型而言,提升了2.7%的检测精度,从而有效的证明了我们的算法的合理性。注:“√”表示使用相应模块;“×”表示没有使用相应模块。表4MCMA-Net的消融实验结果Table 4Ablation experimental results of MCMA-Net除此之外,为了证明浅层特征与深层特征之间存在互补关系,我们也进行了一组消融实验,即只对浅层特征进行跨模态学习、只对深层特征进行跨模态学习、以及同时对浅层特征和深层特征进行跨模态学习,如表5所示。实验结果表明在没有采用NGAN模块(基于邻域—全局注意力的特征交互网络)的情况下,仅对浅层特征进行跨模态学习的mAP为94.3%,仅对深层特征进行跨模态学习的mAP为94.2%,同时对浅层特征和深层特征进行跨模态学习的mAP为94.6%,检测精度高于前两种情况。由此可见对深浅层特征同时进行跨模态对齐的效果最好,即浅层特征和深层特征存在互补性,更进一步的证明了我们设计的跨模态算法MCMA-Net的合理性。注:“√”表示使用相应模块;“×”表示没有使用相应模块。表5对深、浅层特征进行跨模态学习的实验结果Table 5Experimental results of cross-modality learning for high-level and low-level features","result":"的实验与分析章节详细描述了基于多级跨模态对齐的SAR图像舰船检测算法的实验过程和结果。实验使用了光学图像数据集HRSC2016和SAR图像数据集SSDD、HRSID以及自制数据集SSD3。训练和测试集按照8:2的比例划分,实验在统一的硬件平台和软件环境下进行,采用Faster R-CNN作为基础模型,并通过MMDetection工具箱实现所有检测器。\n\n评价指标包括检出率、虚警率、准确率、召回率和平均精度mAP。实验结果显示,所提出的MCMA-Net算法在SSDD和HRSID数据集上均取得了优于其他6种检测算法的最佳性能,分别达到96.6%和87.4%的mAP。此外,MCMA-Net在自制数据集SSD3上也展现出了最高的检测精度和鲁棒性。\n\n消融实验进一步证明了所设计模块的有效性。邻域—全局注意力的特征交互网络NGAN和多级模态对齐模块MLMA均显著提升了检测精度。同时,消融实验还证实了浅层和深层特征之间存在互补性,表明跨模态算法MCMA-Net的合理性。\n\n可视化结果展示了MCMA-Net与其他算法相比在检测精度和鲁棒性方面的优势。整体而言,实验结果充分证明了所提出算法在SAR图像舰船检测任务中的有效性和优越性。","language":"zh"},{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"4 结论","content":"本文提出了一种基于多级模态对齐的SAR图像舰船检测算法MCMA-Net,通过将光学模态中更为丰富的知识迁移到SAR模态,有效的解决了由于SAR图像数据量少且特征表示不直观带来的问题。该算法首先采用基于邻域—全局注意力的特征交互网络NGAN,对骨干网络的特征表现不同的浅层特征和深层特征采取不同的注意力机制,提升了骨干网络对不同模态特征的提取性能,充分挖掘最具代表性的模态特征,有助于后续不同模态的对齐效果。接着采取多级模态对齐模块,通过逐步探索光学模态与SAR模态之间的模态不变表示,学习到更加丰富的特征表示,使得我们能够更好地利用光学模态的丰富特征来弥补SAR图像的特征表示的不足。最终进行实验验证所提出算法的有效性,实验表明,与现阶段算法相比,本文提出的算法能达到最佳的检测性能,更具有优越性。在未来研究中,将致力于提升本文算法对复杂场景下小目标的检测精度,在更具有挑战性的数据集上探索所提出方法的性能。","result":"提出了一种SAR图像舰船检测算法MCMA-Net,通过多级模态对齐解决SAR图像数据量少和特征不直观的问题。算法使用NGAN提升特征提取性能,并通过多级对齐模块学习模态不变表示,利用光学模态丰富特征弥补SAR图像不足。实验验证了算法的有效性和优越性,未来将提高对复杂场景小目标的检测精度。","language":"zh"}]”
“[{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"1 引言","content":"遥感技术是获取大规模地理信息的重要手段,随着遥感图像获取技术的不断改进和发展,遥感图像被广泛应用于土地利用、城市规划、交通监测、灾害防治、生态保护(Chen等,2006;Lenhart等,2008;Liu和Wu,2016;Lopez和Frohn,2017;李强 等,2022)等众多民用领域。在遥感图像中,地物目标是最关键的信息之一,包括建筑物、道路、水体、森林等。然而,由于遥感图像具有分辨率高、数据量大、复杂多样等特点,传统目标检测方法已经无法满足对大规模遥感图像数据的自动化处理需求,因此需要开发高效、准确、自动化的遥感图像目标检测技术。遥感目标检测主要目的是从遥感图像中自动检测出目标物。目前,遥感目标检测已经取得了显著的研究成果,如基于深度学习的目标检测算法和多源遥感数据融合技术等,但仍然存在一些问题,如遥感图像中目标物种类繁多、光照和天气等因素的干扰以及遥感图像分辨率低等。因此,如何提高遥感目标检测的准确率和效率,是当前遥感目标检测研究亟待解决的问题。现有遥感图像目标检测方法主要从以下3个角度来提升性能:(1)增强特征鲁棒性,能够提高检测的性能和稳定性,使得算法在不同的场景和条件下都能够准确地识别目标,现有手段主要有多尺度特征融合,多模态特征融合及注意力机制。代表性算法有ICN(Azimi等,2019),CAD-Net(Zhang等,2019),DRN(Pan等,2020)和改进的CenterNet(田壮壮 等,2023)。ICN提出了一个带多个不同尺度卷积核的级联网络来提取鲁棒的多尺度特征,以提升检测精度。CAD-Net利用注意力调制特征以及全局和局部上下文来解决从遥感图像中检测目标的挑战。DRN提出了一个由特征选择模块和动态优化头组成的动态优化网络,它能够自动调制感受野并以对象感知的方式动态地改进检测效果。(2)改善损失传导机制,从这方面可以提高网络对目标的检测准确度和鲁棒性。其中,多尺度损失,联合损失,梯度裁剪应用广泛,代表性算法有RetinaNet(Lin等,2017),DAL(Ming等,2021)和R3Det(Yang等,2021)。DAL提出了一种动态锚点学习方法,利用新定义的匹配度算法来综合评估锚点的定位潜力,并进行更有效的标签分配。R3Det提出了一个端到端的精细化单级旋转检测器,通过使用从粗到细粒度的渐进回归方法来快速准确地检测目标。(3)从语义级提升检测性能,能够利用更高级别的语义信息,包括目标物体的形状、大小、方向和背景等因素来提高遥感目标检测的准确性和鲁棒性。代表性算法有ROI Transformer(Ding等,2019),CenterMap(Wang等,2021)和Mask-OBB(Wang等,2021)。CenterMap将边界框回归转换为中心概率图预测问题,从而在很大程度上消除了目标定义和背景像素上的模糊性。Mask-OBB将边界框回归转换为像素级分类问题,这可以在很大程度上消除歧义。上述方法虽然取得了较好的检测精度,但仍存在一些问题。增强特征鲁棒性可以普遍提高检测的性能和稳定性,适应更多的场景,而针对目标小而密集的场景表现得不够出色。改善损失传导机制可以提高网络对目标的检测准确度和鲁棒性,而无法提高小目标的召回率。同时,现有的语义关系联合上下文背景信息,忽略了周围前景信息可能带来的影响,因此需要更高级别的语义信息来提高检测的准确性。本文通过对现有算法分析发现造成上述问题的根本原因是单目标检测因其受限的感受野和内在的学习机制始终无法充分地利用上下文信息。因此,本文创新性地构建了群目标检测框架,首先提出群目标的概念定义,并采用搜索式自动化标注设计了群目标自动化标注方案,最后提出了一个群目标检测算法,旨在充分挖掘多个相同或者不同类型目标之间的上下文关联信息,对同属一个群体的目标进行关联,从而更进一步地提升检测精度。","result":"介绍了遥感技术在民用领域的广泛应用,指出了遥感图像目标检测的重要性和挑战。遥感图像具有高分辨率、大数据量和复杂性,传统目标检测方法已不适用。现有研究通过增强特征鲁棒性、改善损失传导机制和提升语义级检测性能来提高检测准确率和效率。然而,现有方法在小目标检测、召回率和利用上下文信息方面仍存在不足。本文提出了群目标检测框架,定义了群目标概念,设计了自动化标注方案,并提出了群目标检测算法,以挖掘目标间的上下文关联信息,提升检测精度。","language":"zh"},{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"2 群目标检测框架","content":"2.1 群目标的概念定义传统的目标检测算法是独立地对每个目标进行逐一定位,忽略了多个相同或不同类型目标之间的上下文情景信息,空间位置信息,而群目标检测不是独立地对每个目标进行逐一定位,能够充分挖掘多个相同或者不同类型目标之间的上下文情境信息,对不同位置的目标进行关联分析。本文提出通过检测群目标,将单目标在空间上加以约束,从而提升检测效果。一般来讲,群目标可以定义为:在表观形状、空间位置等方面具有相符性的多个目标联合体被称为一组群目标。群目标既可以包含不同类型、但相互关联的多个目标,也可以包含同一类型多个实例联合在一起的多个目标,可以根据不同的目标特性、关联关系及应用场景进行定义。在具体实践中,群目标检测需要考虑目标之间的关联性和群体结构,即同时检测出包含多个目标实例的群目标整体,并识别它们之间的群体关系或群体属性。针对本文关注的遥感图像目标感知应用场景,基于以下两个方面给出群目标的定义:(1)空间接近:当不同目标间的距离非常接近时,这些目标无论是否属于同一类别都可以被视为一个群体。如图1(a)所示,右下角的小车和飞机排列紧密,两类物体共同组成群目标。(2)类别相同:当目标之间属于相同的类别或者具有相似的特征时,这些目标即使不符合空间接近也可以被视为一个群体。如图1(b)所示,所有的小车组成群目标,所有的飞机组成群目标。(a)空间接近 (b)类别相同(a) Spatial approach (b) Same category图1群目标两种定义方式Fig. 1Two definition of group object上述两种定义方式对群目标的侧重点有所不同,第1种定义方式侧重于空间上的距离关系,而第2种定义方式侧重于目标间的语义关联。对比两种定义方式,空间接近更符合实际情况,因此本文将基于空间接近的方式进行标注。2.2 群目标自动化标注方案2.2.1 聚类式自动化标注基于上述群目标的第一种定义,即空间接近,本文在已有目标检测实例标注的基础上设计了群目标自动化标注方案,以DOTA-v1.0数据集为例,标注结果如图3所示。本文基于Kmeans聚类算法(易茹,2020)在已有数据标签上进行标注,Kmeans算法根据给定的分类数量随机选取一定簇的数量进行聚类,而在遥感数据集中,目标大小及数量不是固定的,因此需要根据空间距离分布和数量大小动态地调整分簇数量。具体来说,计算每张图片最远两个目标间的距离dis,按照以下逻辑计算分类数量group_num。具体计算过程如下:当disdis2,若numnums2,group_num=5,其余情况group_num=4;如果dis>dis1且nums1,group_num=2,若num>nums2,group_num=4,其余情况group_num=3。(a)随机标记 (b)距离最远标记 (c)平均距离最远标记 (d) 标注结果(a)Random labelling (b)Farthest distance labelling (c) Farthest average distance labelling (d) Labelling result图2群目标自动化标注流程Fig. 2Automatic labelling process of group object图3聚类式标注示例Fig.3Examples of K-means labelling其中,dis1、dis2代表距离阈值,nums1、nums2代表数量阈值,得到分类数量后,为了避免K-means算法随机选取分簇中心造成分类结果重叠分布,相互覆盖,本文在分簇中心点选择上做出调整,K-means方法一次性随机选取n个点作为初始分簇中心,不同的是,本文首先选取一个中心点,然后计算其和所有其他点的相对距离,选取最远的点作为下一个中心点,然后再次遍历所有其他点到已有中心点的距离平均值,选取平均距离最大的点作为下一个中心点。如图2所示,首先随机选取一点A(图2(a)),计算其他目标与之距离,得到距离最远的B(图2(b)),然后计算剩余目标与已有中心点的距离,得到平均距离最大的C点(图2(c)),由此得到3个聚类中心进行聚类,最终群目标标注如图2(d)所示。针对不同数据集,需要根据其分布动态调整自适应分簇阈值区间。基于此标注方法,得到的标注结果如图3所示。2.2.2 搜索式自动化标注由于聚类方法的初始点选取是随机的,聚类结果存在一定的不确定性,因此本文提出了第2种聚类方法,搜索式聚类。受图论思想启发,结合空间接近的定义,本文制定了搜索式群目标标注的规则,即对于任一目标A,如果在以其中心点为圆心,半径为r的范围内,存在另一个目标B,那么A和B共同归属于一个群目标。对于一张图片而言,遍历所有的目标,计算每一个目标和哪些目标的距离在规定范围内,记录所有的符合条件的目标,然后根据这些目标生成矩形框,标注为集群,结果如图4所示。相比于聚类式方法,搜索式方法更加简单直观,具有更好的确定性,只要给定搜索距离,分类结果就是确定的,而聚类方法初始一个点的选择是随机的。因此,本文后续的实验选用了第二种搜索式方法进行标注,并在消融实验证明了该方法的优越性,同时对搜索距离进行了定性分析。图4搜索式标注示例Fig.4Examples of search labeling2.3 群目标检测算法2.3.1 概述与传统单一目标检测不同,群目标检测在大范围上预测一群目标的位置,为了利用群目标带来的空间位置约束,使单目标检测向群目标靠拢,本文提出了对称区域卷积神经网络(Dual-RCNN),利用群中心约束关联群目标和单目标的位置信息。算法整体流程如图5所示,给定一个输入的图像,通过骨干特征提取网络获得多尺度特征,然后将特征输入到上下两个并行检测分支,即群目标检测分支和单目标检测分支。每个分支与传统检测算法Faster RCNN(Girshick,2015;Ren等,2017)类似。每个分支除了预测群目标和单目标之外,本方法还设计了群中心约束,对上下2个分支的提议检测框结果进行匹配,利用中心点偏移量在空间位置上加以约束,以优化单目标以及群目标分支检测结果。图5群目标检测算法框架图Fig. 5Framework of group object detection2.3.2 单目标分支该分支由RPN,ROIpooling以及RCNNPredictor构成。RPN由AnchorGenerator及RPNHead构成,RPNHead由两个3×3的卷积分支构成,分别预测由AnchorGenerator产生的锚框的类别(前景或背景),以及该锚框的修正参数(中心点偏移量,长宽偏移量),最后RPNHead和AnchorGenerator会得到含有目标的提议框,由于目标大小不同,得到的提议框大小是变化的。通过ROIpooling将维度不一致的提议框转化成统一大小的特征向量,然后做展平处理,之后通过RCNNPredictor进行预测,该模块主要由几个全连接层构成,得到最终的检测类别和检测框位置。2.3.3 群目标分支群目标分支和单目标分支组成类似,同样由RPN,ROIpooling以及RCNNPredictor构成。不同的地方在于群目标分支对应的地面实测为群目标标注。2.3.4 群中心约束为了充分利用群目标提供的空间信息,本文在算法中引入了群中心约束,从群目标检测分支得到群目标预测提议框,从单目标检测分支得到单目标预测提议框,获得这两个结果后,对两者进行匹配,为每个单目标匹配对应的群目标,即该单目标归属于哪个群。具体匹配规则为,针对每一个单目标,计算所有群目标中心点和该单目标中心点的绝对距离,距离最近的群目标为该单目标的唯一匹配(图6)。图6单目标匹配群目标示意图Fig. 6Single object matches group object如图6所示,对于一个单目标来说,在o1,o2,o3,o4,o5这5个距离中,o2最小,所以该单目标就与o2对应的群目标匹配。匹配过程中,每个单目标匹配一个群目标,而每个群目标会匹配多个单目标。匹配完成后,计算所有单一目标与其所匹配的群目标之间的中心点相对偏移量,让所有单目标预测该偏移(对应框架图中OffsetPredictor)。并计算匹配的单目标和群目标中心点的绝对距离,然后除以其所匹配的群目标框的对角距离,得到相对偏移量。按照同样的方法计算真实的相对偏移量,相对偏移损失计算公式如下: (1)式中,代表预测的偏移值,代表真实的偏移值,N代表预测的单目标提议数量。模型总的损失函数为 (2)式中,代表RPN部分的提议框分类和回归损失,代表RCNNPredictor部分的分类和回归损失。计算公式如下: (3)式中,是Softmax loss,用于分类锚框属于前景还是背景;为Smooth L1 loss,用于修正锚框,前面乘一个表示只回归有目标的框;表示网络预测出来第i个锚框是目标的概率,表示对应真实值。若第i个锚框与某个真实目标的交并比>0.7,则=1;若IOU<0.3,则=0;表示参数化坐标向量,表示预测框和锚框之间的偏移;表示对应真实偏移。的表示方法和相同,不同的在于回归的类别数量不同。2.3.5 训练给定一个输入大小为1024像素×1024像素×3通道的图片,经过骨干特征提取网络后,获得5个多尺度特征,经过RPN网络,对所有提议框筛选得到分数排在前2000的提议框。得到2000个提议之后,在训练阶段,从2000个提议里随机选取256个正样本,256个负样本用于后续的训练,然后通过ROI融合所有尺度,得到(批大小,512,7,7)的特征,最后通过RCNNPredictor得到输出结果,包括512个样本的分类结果(512,类别数)以及每个样本的检测框位置参数(512,4)。2.3.5 推理在推理过程,移除偏移分支,直接得到单目标和群目标提议,结合预测的回归参数计算最终的bbox坐标,移除背景信息和低概率小尺寸目标,然后进行NMS处理,返回最终预测结果。","result":"介绍了面向遥感图像目标感知的群目标检测框架,包括群目标的概念定义、自动化标注方案、检测算法的概述和详细流程。\n\n群目标检测框架与传统目标检测不同,它通过检测群目标,将单目标在空间上加以约束,以提升检测效果。群目标可以定义为在表观形状、空间位置等方面具有相符性的多个目标联合体,可以包含不同类型、但相互关联的多个目标,也可以包含同一类型多个实例联合在一起的多个目标。\n\n自动化标注方案包括聚类式和搜索式两种方法。聚类式方法基于Kmeans聚类算法,在已有数据标签上进行标注,通过动态调整分簇数量来适应遥感数据集中目标大小和数量的不确定性。搜索式方法则通过遍历所有目标,计算每个目标与其他目标的距离,生成矩形框标注为集群,具有更好的确定性。\n\n群目标检测算法采用对称区域卷积神经网络(Dual-RCNN),利用群中心约束关联群目标和单目标的位置信息。算法包括单目标分支和群目标分支,每个分支都由RPN、ROIpooling和RCNNPredictor构成。通过群中心约束,对两个分支的提议检测框结果进行匹配,优化检测结果。\n\n训练过程中,从筛选得到的提议框中随机选取正负样本进行训练,通过ROI融合所有尺度的特征,最后通过RCNNPredictor得到输出结果。推理过程中,移除偏移分支,直接得到单目标和群目标提议,结合预测的回归参数计算最终的bbox坐标,进行NMS处理后返回预测结果。","language":"zh"},{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"3 测试实验","content":"为了验证本方法的有效性,本文在目前最热门的DOTA-v1.0(Xia等,2018;Ding等,2022)数据集上进行了广泛实验。3.1 数据准备DOTA-v1.0数据集包含了2806张来自不同传感器和平台的航空影像,每张影像大小都在4000像素×4000像素内,分为飞机(PL)、舰船(SH)、储罐(ST)、棒球场(BD)、网球场(TC)、篮球场(BC)、田径场(GTF)、海港(HA)、桥梁(BR)、大型车辆(LV)、小型车辆(SV)、直升机(HC)、环岛(RA)、足球场(SBF)、游泳池(SP)15个类别,总计188282个目标,每个目标都标记为一个带方向的边界框。同时,对每张图片添加了额外的群目标标注,每张图像被分成1—5个集群,每个集群以矩形框的形式进行标注。本文使用训练集和验证集进行训练。通过将测试结果发送到DOTA的在线评估服务器来获得最终的检测精度。3.2 训练参数配置本方法使用4张英伟达3090显卡来进行训练,训练中单卡批大小为1,采用同步批归一化,测试时也是在1张3090显卡进行,实验在mmdetection开源框架上进行。在训练过程中统一使用水平、垂直及对角翻转的图片增强。本方法采用SGD优化器优化整个网络,动量为0.9,权重衰减为0.0001。将原始图像裁剪成1024像素×1024像素,裁剪的步长设置为824,即两个相邻部分之间的像素重叠为200。对于多尺度训练和测试,首先在0.5、1.0和1.53个尺度上调整原始图像的大小。训练12个epoch,初始学习率设置为0.005,并在epoch为8和11时降为原有的十分之一。3.3 实验结果及分析本文将提出的群目标检测框架和其他12种主流的旋转物体检测框架进行了对比,结果如表1所示。注: 加粗数据的显示代表该列的最大值。表1DOTA数据集检测精度对比Table 1Comparison of detection accuracy on DOTA dataset /%可见在DOTA-v1.0数据集上,该方法超越了所有参与对比的其他方法,获得了78.2%的mAP。本文算法Dual-RCNN的可视化结果如图7所示。可见该方法在困难的情境下发现了原来未检测到的目标,提高了召回率。图8为该算法在有无群中心约束情况下的检测结果对比,可见在小目标密集的情况下,该方法检测到了更多小目标,更好地关注到了小目标周围区域的其他小目标,加强了目标与目标之间的位置信息关联。同时,本文对比了一些算法在群目标检测上的精度,结果见图9。可见在群目标和单目标的相互优化下,本算法在群目标检测上表现地更加出色。本文通过对15种类别目标尺度分析,统计了所有标注种类的平均长宽,得到像素统计结果如下:飞机107、舰船33、储罐43、棒球场135、网球场104、篮球场117、田径场231、海港103、桥梁41、大型车辆39、小型车辆24、直升机65、环岛145、足球场259、游泳池45。本文认定长宽小于50的类别为小目标,因此在统计后将桥梁,小车,大车,轮船,存储罐,泳池归类为小目标,其余为大目标。由此得到的大小目标检测的mAP如表2所示,结果表明,本文提出的的群目标检测在面对小目标时有着更加突出的表现,通过群目标检测很好的提高了小目标检测准确率和召回率。图7Dual-RCNN在DOTA数据集的可视化检测结果(群目标 单目标)Fig.7Visualization of Dual-RCNN on DOTA dataset. Group prediction with blue rectangle, single prediction with other color图8群约束对检测结果的影响对比Fig. 8Visualization comparison of constraint图9不同方法的群目标检测精度对比Fig. 9Comparison of object detection results of different methods on group object detection表2不同尺度目标的检测精度对比Table 2Comparison of object detection results of different scales%3.4 消融实验3.4.1 群中心约束分析验证群中心约束对检测结果的影响如表3所示。可见在有群中心约束监督的情况下,检测精度提升了1.7个百分点。这表明,群中心约束在空间范围上对单目标进行约束,提高了目标检测精度。表3群中心约束对mAP的影响Table 3Effect of group center constraint on mAP /%3.4.2 标注方式分析本文对提出的两种标注方法进行了实验比较。针对聚类式标注,group_num的取值首先与分类的最大集群数量有关,基于此我们在考虑分类的最大集群数量时进行了实验验证,固定其他参数不变,调整最大分类数量,得到实验结果如图10所示,由此可见,选择最大分类数量为5是最合适的。然后,统计得出在DOTA数据集中,平均每张图片包含67个目标,为了保证每张图片群的个数不唯一,第一个阈值nums1不宜过大,限定其在平均数量的1/4范围内,nums1可选值为5、10和15。阈值nums2不超过平均数量的1/2,nums2可选值为20、25、30和35。我们对这些取值进行组合实验,并得出了如表4的实验结果。因此,我们选择了nums1=15,nums2=25。最后实验结果如表5所示,其中,L代表图片对角线长,r代表搜索距离。聚类式标注方法在各种情况下的最好结果是77.42%,搜索式标注方法最好结果是78.21%,显著优于聚类式标注。搜索式具有更强的规律特点,仅取决于搜索距离,效果更好。图10群目标最大集群数量与Map相关性Fig. 10Correlation between group object quantity and Map表4不同nums参数的对比Table 4Results of different nums注:黑体表示最优结果。表5不同标注方式及距离参数对结果的影响Table 5Effect of different annotation methods and distance parameters on results3.4.3 群目标标注搜索距离分析对于搜索式标注方法,确定搜索距离是一个关键的选择,本文对不同的搜索距离进行了实验对比,结果如表5所示。可见搜索距离偏大和偏小都会阻碍群目标检测性能,因为当搜索距离偏小时,群目标框将会趋近于单目标框,搜索距离偏大时,一个标注将可能涵盖过多单目标,使模型的针对性下降。针对DOTA数据集图片尺度为1024像素×1024像素,实验确定搜索距离为75是最有效的。","result":"在DOTA-v1.0数据集上进行了广泛实验,验证了所提群目标检测框架的有效性。数据集包含2806张航空影像,涵盖15个类别,总计188282个目标。实验使用4张英伟达3090显卡,基于mmdetection框架,采用SGD优化器,训练12个epoch。实验结果显示,所提方法在DOTA-v1.0数据集上超越了其他12种主流旋转物体检测框架,获得了78.2%的mAP。Dual-RCNN的可视化结果表明,该方法在困难情境下提高了召回率。有无群中心约束的检测结果对比显示,该方法在小目标密集情况下检测到更多小目标,加强了目标间的位置信息关联。群目标与单目标检测精度对比表明,所提算法在群目标检测上表现更出色。对15个类别目标尺度的分析表明,所提群目标检测在小目标上表现更佳,提高了小目标检测的准确率和召回率。\n\n消融实验进一步分析了群中心约束、标注方式和搜索距离对检测结果的影响。群中心约束分析表明,引入群中心约束可提升1.7个百分点的检测精度。标注方式分析比较了聚类式和搜索式标注方法,结果表明搜索式标注方法效果更好,其规律特点更强,仅取决于搜索距离。搜索距离分析发现,搜索距离对群目标检测性能有显著影响,DOTA数据集上75像素的搜索距离最有效。","language":"zh"},{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"4 结论","content":"本研究提出了一个面向遥感图像感知的群目标检测框架,旨在解决当前遥感图像感知中目标特征信息不足、准确率差的问题,针对小目标集群检测效果出色。主要结论如下:(1)提出群目标检测理念,并对群目标概念进行定义;(2)基于群目标定义,提出群目标自动化标注方法;(3)提出群目标检测算法Dual-RCNN,利用中心约束引导检测框回归。实验结果表明,相比于其他遥感目标检测算法,Dual-RCNN能够召回更多小目标,有效提升小目标检测精度。本文的研究使目标检测不再局限于单个目标,将集群信息利用起来,以缓解遥感目标分辨率低,准确率差的问题。然而,不同的定义方法及标注方式还是会对群目标检测产生一定的影响,在后续的研究中,将会对这些变量作进一步探索,以找到最佳方案,进一步地提高群目标检测能力。","result":"总结了面向遥感图像目标感知的群目标检测框架,提出了群目标检测理念,定义了群目标概念,并提出了自动化标注方法和Dual-RCNN检测算法。实验结果表明,该框架在小目标集群检测方面表现优异,有效提升了小目标检测精度。同时指出,不同的定义方法和标注方式对检测效果有影响,未来研究将进一步探索以提高检测能力。","language":"zh"}]”
“[{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"1 引言","content":"多目标跟踪旨在检测和估计视频中多个目标的时空轨迹,在视觉领域有着广泛应用,如安防监控、自动驾驶、智能交通等。随着遥感技术的发展,通过卫星平台获得地球表面运动目标的视频数据,实时观测地球表面目标的运动轨迹和状态,在城市规划、交通监控、军事侦察等发挥着重要作用。主流的多目标跟踪算法主要解决监控视频或移动设备拍摄视频下的目标跟踪问题,由于卫星视频与监控视频存在巨大差异,导致现有多目标跟踪算法应用在卫星视频上的性能较差。卫星视频和监控视频存在如下差异:(1)成像距离和视角不同。在相同图像分辨率下,卫星视频下的目标尺寸更小,目标的细节特征不明显,而监控视频下的目标细节特征更加显著,但是存在严重的目标间的遮挡问题;(2)卫星视频的背景更加复杂多样。遥感场景变化多样,目标的检测容易受背景干扰,如云雾、舰船运动产生的尾流等,导致误跟和漏跟的可能。目前,主流多目标跟踪算法遵循基于检测的跟踪TBD(Tracking-By-Detection)范式,包含目标检测和帧间关联两个步骤。首先检测出每帧中目标可能出现的位置,然后根据检测出的候选目标位置建立时间上的关联匹配,实现目标运动轨迹关联。随着目标检测技术的发展,许多方法利用更强的目标检测器来提高多目标跟踪的性能,如RetinaTrack(Lu等,2020)、CenterTrack(Zhou等,2020)、TransTrack(Sun等,2021)、ByteTrack(Zhang等,2022)等。这些检测器通常用于检测自然场景下的目标,因此在监控视频下仍然可以很好地检测目标,然而由于遥感影像与自然场景下的影像存在巨大差异,这些检测器直接应用在遥感场景下无法取得很好的性能。遥感图像中的小目标是导致检测性能下降的因素之一,而针对遥感图像中的小目标,目前有很多改进方案用于提高小目标的检测能力,如使用浅层特征(Van Etten,2018)、生成对抗网络(Rabbi等,2020)、目标之间的度量(Xu等,2021;Wang等,2022)等。基于浅层特征检测小目标的方法最为简单直观,浅层特征能够保留小目标的特征,从而提高小目标的检测能力,但是会引入更大的计算量;基于生成对抗网络GAN(Generative Adversarial Network)的方法通过GAN生成高质量的目标图像,增强了小目标的特征,这种方法同样会引入额外的计算;基于度量的方法,虽然不会引入额外的计算,但仍没有解决小目标可用特征少的问题。数据关联阶段根据检测目标的特征计算目标和轨迹的相似度(特征相似度、IoU距离等),进而采取适当的匹配策略将检测目标和轨迹进行匹配。常用于计算相似度利用空间位置、运动信息以及外观特征等。Bewley等(2016)提出SORT (Simple Online and Realtime Tracking),结合目标的位置和运动信息,基于卡尔曼滤波预测轨迹在下一帧的位置,计算预测结果和检测结果的IoU距离作为相似度;Wojke等(2017)提出DeepSORT,在SORT的基础上加入重识别(ReID)模型,用于提取目标的外观特征,通过IoU相似度和外观特征相似度关联轨迹和检测目标;Zhou等(2020)使用目标和轨迹的中心位置来计算两者的相似度;Zhang等(2022)提出ByteTrack,在匹配过程中考虑低置信度的检测结果,只使用目标的运动信息和空间位置有效地缓解了遮挡以及小目标的问题;Du等(2023)提出StrongSORT,基于DeepSORT的架构,采用更强特征提取器和更加鲁棒的运动模型,此外还提出Appearance-Free Link model和Gaussian-Smoothed Interpolation模块,分别用于建模轨迹的全局联系和轨迹插值,提高关联的准确度。基于目标位置和运动信息的模型通常比较简单,但无法处理复杂的情况,如遮挡问题,适用于短时跟踪;而基于外观特征的匹配对遮挡问题更鲁棒,更适用于长时间的跟踪。轨迹和目标的匹配问题可以视为二分图匹配问题,通常采用匈牙利算法(Hungarian Algorithm)(Kuhn,1955)解决,随着深度学习的发展,基于深度神经网络计算匹配关系成为一种趋势。Pang等(2021)提出一个拟密集对比学习(Quasi-Dense Similarity Learning)学习目标的嵌入特征,通过双向的Softmax操作计算轨迹和检测目标的嵌入特征相似度,然后通过搜索最近邻完成匹配过程;Jiang等(2019)提出利用图神经网络来学习出轨迹和目标的匹配关系;Chu等(2021)提出一个图Transformer模型TransMOT,TransMOT将轨迹和检测结构建模成无向图,利用图Transformer编码器编码轨迹的时空信息,然后通过图Transformer解码器建立轨迹和检测的匹配关系。基于匈牙利算法的匹配方法简单高效,是多目标跟踪算法中主流的匹配算法,而通过深度神经网络计算出的匹配关系虽然准确性更高,但是其计算量更大,难以满足实时性的需求。由于缺少高质量的公开卫星视频多目标跟踪数据集,现有的卫星视频多目标跟踪研究较少。Feng等(2021)提出Spaital Motion Information-Guided Network(SMTNet),用双分支的Long Short-Term Memory(LSTM)分别计算轨迹的运动特征以及空间特征,SMTNet基于已有的轨迹预测一个虚拟位置,最后通过匈牙利算法将检测结果以及虚拟位置与轨迹匹配;Wu等(2021a)使用Yolov3作为检测器,利用多粒度网络MGN(Multiple Granularity Network)提取更加丰富的目标外观信息,以提高关联的准确性;Wu等(2022)提出SFMFMOT,首先利用低速特征辅助检测网络检测运动目标,然后在关联阶段基于外观特征和空间信息匹配,最后利用运动特征消除静态误跟;He等(2022)提出一个联合检测与关联的模型TGraM,通过图卷积网络构建目标的时空关系,在训练过程基于多任务对抗梯度学习解决检测和ReID任务不一致的问题。综上所述,为解决目前卫星视频中小目标的跟踪问题,本文提出面向小目标检测的卫星视频多目标跟踪算法。首先,针对卫星视频中的小目标检测问题,在检测网络中增加一个预测分支,提高预测特征图的分辨率,保留小目标的细节特征,还利用注意力机制进一步增强小目标的细节特征;其次,利用Transformer的自注意力机制,编码全局的上下文信息,增强目标之间的联系,提高网络对于目标的响应,抑制复杂的背景;最后,为确保检测出的目标能够与轨迹匹配,在关联阶段考虑低置信度的检测结果,以期提高跟踪性能。","result":"介绍了多目标跟踪技术在视觉领域的广泛应用,特别是在卫星视频跟踪中的重要性。由于卫星视频与监控视频在成像距离、视角和背景复杂性上的差异,现有多目标跟踪算法在卫星视频上的应用面临挑战。文章概述了基于检测的跟踪(TBD)范式,包括目标检测和帧间关联两个关键步骤,并讨论了目标检测技术的发展,如RetinaTrack、CenterTrack等,以及它们在遥感场景下的应用限制。针对遥感图像中小目标检测的挑战,提出了多种改进方案,包括使用浅层特征、生成对抗网络和目标间度量等方法。此外,还探讨了数据关联阶段的相似度计算和匹配策略,如SORT、DeepSORT、ByteTrack等算法,以及基于深度学习的方法,如Quasi-Dense Similarity Learning、图神经网络和图Transformer模型。最后,指出了现有卫星视频多目标跟踪研究的局限性,并提出了本文面向小目标检测的卫星视频多目标跟踪算法,包括检测网络的改进、Transformer自注意力机制的应用,以及关联阶段的优化,以提高跟踪性能。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"2 研究方法与原理","content":"现有多目标跟踪算法无法有效解决卫星视频的目标跟踪问题,图1展示了卫星视频与监控视频存在的显著差异:(1)卫星视频中的目标尺寸更小,可用特征少,给检测带来难度;(2)由于小目标和遮挡等问题导致目标置信度更低,使得关联难度更大。因此,本文提出一种卫星视频的多目标跟踪算法,具体流程如图2所示:(1)针对卫星视频中目标的特点设计小目标检测器YOLOS(YOLOX for small object),检测卫星视频中第T帧图像的目标;(2)采用一种两步关联策略,根据置信度不同设计两种不同的匹配策略。图1监控视频和遥感卫星视频的差异Fig. 1Differences between surveillance video and remote sensing satellite video图2多目标跟踪算法流程Fig. 2Overview of proposed MOT method2.1 小目标检测器YOLOX(Ge等,2021)是无锚框的一阶段目标检测算法,其主干网络为DarkNet53,颈部网络为PANet, YOLOX的检测头为解耦头,能进一步提高网络的检测性能。此外在YOLOX采用了一种更高效的SimOTA算法,在训练过程中自动为每个真值(ground-truth)分配正负样本,从而解决正负样本不均衡问题。尽管YOLOX取得良好的性能,但是其在小目标上的检测结果仍然比较低,在COCO test-dev数据集(Lin等,2014)上的AP指标仅为31.2%。因此,本文提出来解决卫星视频中的小目标检测问题,YOLOS结构图如图3所示:(1)在YOLOX中增加一个预测分支,得到更高分辨率的特征图,从而更好地保留小目标的特征,此外,还利用CBAM增强小目标的细节特征,提高小目标的检测能力;(2)为了更好地检测位于复杂背景中的目标,利用Transformer在目标之间建立更加鲁棒的关联,进一步提高检测卫星视频中目标的能力。图3YOLOS结构Fig. 3Architecture of YOLOS2.1.1 主干网络当目标位于某些复杂背景中,如云雾、波浪、舰船运动产生尾流等,目标所在的局部区域很难为识别目标提供有效的信息,而图像中的目标存在相似性,如大小、形状、颜色等特征,因此利用全局的目标信息能够更好地识别位于复杂背景中的目标。受Transformer(Vaswani等,2017)的启发,本文利用Transformer中的编码器来为特征图提供全局的上下文信息。Transformer编码器模块如图4所示,该模块包含两个子层,一是多头注意力层(Multi-Head Attention),该层通过自注意力机制建模图像中不同位置的关系;二是多层感知机(MLP),用于变换维度,提高模型表达能力。两个子层都引入了层标准化(layerNorm)和Dropout层,并通过残差结构连接。为了在特征图中融入全局的上下文信息,在主干网络的最后一个模块使用Transformer编码器,其位置和结构如图3中的Transformer Dark5模块所示。这样做一是可以减小使用Transformer带来的计算量和内存的增加,二是高层的特征图包含丰富的语义信息,借助Transformer的自注意力机制,加强全局目标间的联系,提高网络对位于复杂环境下目标的响应,增大目标与背景之间的差异,进而提高网络的检测能力。图4Transformer编码器模块Fig. 4Diagram of Transformer encoder2.1.2 卷积注意力颈部网络尽管使用Transformer能够间接提高网络的检测能力,但是卫星视频中存在大量小目标,而且由于成像距离较大,卫星视频中的目标视觉特征都不明显,这就会导致大量的误检和漏检。因此,本文利用注意力机制来增强目标的特征,提高检测器整体的检测能力。YOLOX的每个颈部网络模块包含一个卷积层和CSP模块(Cross Stage Partial Module,跨阶段局部连接模块),在CSP模块前将多个特征图进行连接,本文在颈部网络中的每个Neck模块最后添加了一个卷积注意力模块(CBAM)(Woo等,2018),每个模块的结构如图3中的CBAM Neck1_1所示。CBAM是一个轻量级的注意力模块,通过空间注意力和通道注意力来对特征进行增强。卫星视频中大部分区域为城市、海洋等地理区域,使用CBAM模块能够让检测网络更好地关注目标所在的区域。2.1.3 检测头低分辨率的高层特征图包含丰富的语义信息,但缺少细节信息。相较之下,高分辨率的低层特征图能够保留小目标的细节,所以使用高分辨率的特征图对检测小目标是非常必要的。如图3所示,本文增加了一个预测分支解耦头1(Decoupled Head 1),该预测分支的输入为卷积注意力颈部网络中的低层特征图,其下采样率为4,相较于其他预测分支能够得到高分辨率的特征图,该特征图对小目标更敏感,能够显著提升网络对卫星视频中小目标的检测能力。2.1.4 损失函数每个解耦头包含回归和分类分支,分别用于回归目标的边界框和分类,对于回归边界框分支,采用GIoU损失函数(Rezatofighi等,2019),对于分类分支采用交叉熵损失函数。2.2 关联算法由于小目标尺寸小、细节特征不明显的特点,卫星视频中的小目标在检测阶段的预测置信度比较低,如果在数据关联阶段中将低置信度的检测结果视为背景,就会造成大量小目标的漏跟,显然在遥感卫星场景下是不适用的。因此,本文采用更加关注低置信度检测的弱数据关联算法Byte(Zhang等,2022)。关联算法1具体流程如下:输入:卫星视频,检测器,检测置信度阈值和,卡尔曼滤波器,轨迹初始化阈值。输出:卫星视频目标轨迹。具体步骤如下:1. for in do;2. 检测器检测当前帧;3. 根据检测置信度阈值和划分检测结果;4. 基于预测轨迹在第帧的位置;5. 基于IoU相似度,关联和;6. 未匹配的高置信度检测结果;7. 未匹配的轨迹段;8. 基于IoU相似度,关联和;9. 未匹配的轨迹段;10. 从中删除;11. 基于阈值将初始化为新的轨迹;12. return 。","result":"介绍了一种面向小目标检测的卫星视频跟踪算法。现有多目标跟踪算法难以应对卫星视频目标跟踪的挑战,如目标尺寸小、特征少、置信度低等。为此,本文提出了一种新的算法,包括小目标检测器YOLOS的设计和两步关联策略。YOLOS基于YOLOX算法,通过增加预测分支和CBAM模块,以及利用Transformer编码器提供全局上下文信息,增强了小目标的检测能力。此外,还改进了卷积注意力颈部网络和检测头,提高了对复杂背景下小目标的检测性能。在关联算法方面,采用了弱数据关联算法Byte,特别关注低置信度检测结果,以避免小目标漏跟问题。整个算法流程包括输入卫星视频、检测、关联、轨迹初始化和更新等步骤,旨在实现更准确的卫星视频多目标跟踪。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"3 数据结果处理与分析","content":"3.1 实验设置3.1.1 实验数据和评价指标本文所用的实验数据来自2021高分遥感图像解译大赛,使用的数据集为高分辨率光学卫星视频中多目标跟踪数据集AIR-MOT((https://github.com/HeQibin/TGraM[2022-03-07])(He等,2022),数据由吉林一号光学卫星采集,图像场景包括不少于15个国内外常用民用机场、港口等。该数据集中包含两类目标,飞机和舰船,训练集共80个由图像序列组成的视频,图像的分辨率为1080×1920,数据集示例如图5所示。由于训练集中有21个视频无目标标注,因此在实验中将有标注的59个视频的70%划分为训练集,用于训练模型,30%划分为测试集,用于测试模型的有效性。图5AIR-MOT数据集示例Fig. 5Examples of the AIR-MOT dataset试验测试使用的评价指标为MOTA(Bernardin和Stiefelhagen,2008),其计算公式如下: (1)式中,表示第帧中目标漏检的个数,表示第帧中目标误检的个数,表示第帧中目标ID发生切换的次数,表示第帧中真值(ground-truth)的个数。3.1.2 对比方法表1为对比实验选用的方法。联合检测与跟踪JDT(Joint Detection and Tracking)方法是指将检测和跟踪联合,进行端到端地学习训练。MSOT-CNN(Bahmanyar等,2019)、Yolov3+MGN(Wu等,2021a)以及DSFNet+SORT(Xiao等,2022)是应用在遥感场景下的多目标跟踪算法,所有对比方法的参数设置都遵循原论文使用的参数。表1对比实验选用的方法Table 1Comparative methods used in the experiments3.2 实验数据本文所提算法通过Pytorch框架实现,硬件环境为:Ubuntu18.04操作系统,Intel Xeon 5220R CPU,NVIDIA RTX3090 GPU显卡。基于SGD优化器,YOLOS在训练集上训练90个epoch,初始学习率为每张图像0.0000625,在训练过程中采用预热(warmup)和余弦学习率衰减策略。数据增强采用Mosaic(Bochkovskiy等,2020)和MixUp(Zhang等,2017),此外采用了强的旋转数据增强,即图像的旋转角度范围设为,在训练的最后20个epoch,关闭所有的数据增强。训练采用多尺度训练的方法,图像最长边包含的像素个数范围为1120—1632,batch size大小为4。和分别设置为0.1和0.3,设置为0.6。3.3 消融实验结果分析为了验证提出的各项改进对于跟踪性能的影响,本文采用高分辨率光学卫星视频中多目标跟踪数据集的测试集进行消融实验,结果如表2所示。在增加一个预测分支(解耦头1)后,跟踪性能有一个明显的提升,MOTA指标从49.6%增加到52.0%;在使用了强的旋转数据增强后,MOTA指标提升非常大,本研究的分析发现遥感图像中的目标会呈现出各种不同的角度,使用强的旋转数据增强能够使网络学习到目标在不同方向的特征,从而提高网络的泛化性能;在上述基础上增加CBAM注意力机制后,增强了目标的特征,MOTA指标也有一定程度的提升;通过Transformer将全局的上下文信息融合到特征中也能提升跟踪性能。由于在检测网络中增加了一个预测分支以及使用了Transformer,本文提出的方法相较于Baseline,处理速度有所降低,Baseline的处理速度能够达到15 FPS,本文的方法仅为10 FPS左右。注: √表示使用这个模块或方法。↑表示越高越好,↓表示越低越好。表2检测器的消融实验Table 2Ablation study on detector为了更直观地展示各项改进的有效性,本研究可视化了网络最后一层的特征响应图,结果如图6所示。图6(a)为测试集中的某一帧图像,图中红色越深的区域代表网络对于该区域的响应值越高。图6(b)—(e)依次展示了解耦头1到解耦头4的特征图的可视化结果,其特征图的分辨率依次减小。可见:随着预测舰船目标的特征图分辨率增加,网络对于单个小目标的响应值更高,更容易检测出小目标。图6(f)和(g)表示分别表示在增加CBAM和Transformer后,解耦头1特征图的可视化结果。可见在使用了CBAM注意力后,只有目标所在位置的响应值高,网络对小目标的注意权重更大,这有利于小目标的检测;在增加Transformer编码上下文信息后,特征图中目标与背景之间的差异更大,进一步提高小目标的检测能力。图6视频帧及其特征图可视化结果(图中红色越深的区域代表网络对于该区域的响应值越高)Fig. 6Video frame and its feature maps visualization results (The deeper red area in the image, the higher network’s responsevalue for that region)本文还验证了弱数据关联的有效性,采用了两个实验,一是只使用高置信度的检测结果与轨迹进行匹配,二是同时考虑高置信度和低置信度的检测结果,其结果如表3所示。可见在卫星视频场景下直接忽略低置信度的检测是不合理的,会导致部分小目标无法匹配轨迹,造成跟踪精度的降低。注: ↑表示越高越好,↓表示越低越好。表3数据关联的消融实验Table 3Ablation study on data association本文选取了SORT (Bewley等,2016)、 DeepSORT(Wojke等,2017)、MOTDT(Chen等,2018)3种数据关联方法与Byte进行比对。为了公平地比较不同轨迹关联的差异,检测阶段都使用本文提出的改进YOLOX,对比结果如表4所示。可见采用Byte的MOTA指标最高,而且SORT、MOTDT、Byte在MOTA指标相近的情况下,Byte的IDF1指标更高,表明Byte的关联准确性更高。此外DeepSORT和MOTDT在匹配时使用了ReID模型,这两种方法的MOTA指标都低于不使用ReID模型的SORT和Byte,这是因为在卫星视频中,不同目标之间的外观特征差异小,以及目标与复杂背景之间的差异不突出,使用目标的外观特征会损害跟踪器的性能,因此在关联阶段需要根据卫星视频中目标的特点针对性地设计外观特征提取器,或者注重利用目标的时空、运动等信息提高关联的准确性。注: ↑表示越高越好,↓表示越低越好。表4不同数据关联方法的对比Table 4Comparison of different data association methods如表5所示,本文还验证了检测与关联对跟踪性能的影响,检测阶段分别采用YOLOX和YOLOS,检测阶段分别采用SORT和Byte。表5的结果说明,在检测上的改进能够极大提升卫星视频多目标跟踪的性能,而不同的关联算法对跟踪性能的影响相对较小。推测这是由于遥感视频成像的特点造成的,即以鸟瞰视角观测到的目标运动模式相对简单,使得关联阶段的难度低于自然场景的监控视频。注: ↑表示越高越好,↓表示越低越好。表5本文方法采用不同检测与关联方法对跟踪性能的影响Table 5Effect of adopting different detection and association methods in the proposed method on tracking performance3.4 对比实验结果及分析本研究将提出的方法与其他多目标跟踪算法进行比较,对比结果如表6所示。由表6可见,本文提出的方法在MOTA和IDF1指标上都优于其他方法。基于式(1)和表6可知,在卫星视频的多目标跟踪中,FN和FP对于MOTA指标的影响更大,即检测器的好坏更容易影响跟踪器的性能,如MSOT-CNN是基于单目标跟踪的方法,在复杂的背景下容易跟丢,导致FP过高;DSFNet更加注重检测运动目标,无法精准的检测出静止目标,导致FN过高。此外,相较于未使用ReID特征的方法,使用ReID特征关联的方法在卫星视频的跟踪中没有展现出其优势,如FairMOT和CenterTrack、StrongSORT和ByteTrack,这是因为卫星视频中目标之间的外观特征差异小,基于外观特征更容易产生匹配错误。在遥感场景和监控场景下进行多目标跟踪存在明显的差异,如ByteTrack在MOT17数据集上MOTA指标高达80.3%,而在卫星视频数据集中MOTA仅为49.6%,在卫星视频下进行多目标跟踪存在更大的挑战。注: 黑体数值表示该指标的最好的结果。↑表示越高越好,↓表示越低越好。表6不同方法下的跟踪性能比较Table 6Comparison of tracking performance under different methods表7展示了2021高分遥感图像解译大赛高分辨率光学卫星视频中多目标跟踪赛道的结果,结果表明,本文提出的多目标跟踪算法具有一定的优越性,并且本研究的检测器只在比赛给定的训练集上训练,未使用额外的数据。注: ↑表示越高越好。表72021高分大赛多目标跟踪赛道前5名结果Table 7Top 5 results of MOT in 2021 Gaofen Challenge","result":"章节详细描述了面向小目标检测的卫星视频跟踪算法的实验设置、数据结果处理与分析。实验数据来源于2021高分遥感图像解译大赛的高分辨率光学卫星视频多目标跟踪数据集AIR-MOT,包括飞机和舰船两类目标。实验中,70%的视频用作训练,30%用作测试,评价指标为MOTA。对比实验选用了联合检测与跟踪JDT方法和其他几种多目标跟踪算法。\n\n实验在Pytorch框架下进行,使用Ubuntu18.04操作系统、Intel Xeon 5220R CPU和NVIDIA RTX3090 GPU显卡。优化器采用SGD,数据增强包括Mosaic和MixUp,以及强的旋转数据增强。消融实验结果表明,增加预测分支、使用强旋转数据增强、引入CBAM注意力机制和Transformer均能提升跟踪性能,但处理速度有所降低。\n\n可视化特征响应图展示了网络对小目标的响应值,证明了CBAM和Transformer对小目标检测能力的提升。弱数据关联实验显示,忽略低置信度检测结果会导致跟踪精度降低。不同数据关联方法的比较表明,Byte方法在MOTA和IDF1指标上表现最佳,而使用ReID模型的方法在卫星视频跟踪中并未展现优势。\n\n检测与关联方法对跟踪性能的影响实验表明,检测阶段的改进对跟踪性能提升显著,而不同关联算法的影响相对较小。最终,与其他多目标跟踪算法的比较结果证明了本文提出方法在MOTA和IDF1指标上的优越性。此外,2021高分遥感图像解译大赛的结果进一步证实了算法的有效性。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"4 结论","content":"针对在高分辨率光学卫星视频中小目标跟踪问题,本文提出了一种面向小目标检测的卫星视频跟踪算法。主要结论如下:(1)由于卫星视频中的目标尺度小、特征信息弱,本文在检测器中添加一个预测分支,使用高分辨率的特征图来检测小目标,并且通过注意力机制在特征图中融合全局的上下文信息,并增强小目标的特征,有效地提高了对小目标的检测能力。(2)在关联阶段,由于数据中存在的大量小目标导致检测出的目标置信度较低,同时考虑高置信度和低置信度的检测结果,保证检测到的小目标能够与轨迹关联。(3)在AIR-MOT数据集上的实验结果表明,本文提出的方法在跟踪性能上超越了其他先进方法。此外,本文提出的方法仍存在局限性,首先为了提高跟踪的准确性能,牺牲了模型的运行效率,难以达到实时性的需求;其次在关联阶段未充分考虑遥感场景下多目标跟踪的特点,如由云雾、隧道等因素引起的目标遮挡问题,目标之间的相对关系等。本文所提方法对于舰船的跟踪效果仍不理想,未来应更加关注遥感场景下舰船的多目标跟踪问题。","result":"提出了一种针对高分辨率卫星视频中小目标检测的跟踪算法。通过在检测器中加入预测分支和注意力机制,增强了小目标的特征并提高了检测能力。关联阶段考虑了高低置信度的检测结果,确保小目标与轨迹的关联。实验结果表明,该方法在AIR-MOT数据集上的跟踪性能优于其他先进方法。然而,该方法存在局限性,如牺牲了模型的运行效率,难以实现实时性,且在关联阶段未充分考虑遥感场景下的多目标跟踪特点,如目标遮挡和相对关系等问题。未来研究应更关注遥感场景下舰船的多目标跟踪问题。","language":"zh"}]”
“[{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"1 引言","content":"遥感卫星对地观测具有可覆盖区域广、持续时间长、不受空域国界限制等独特优势,在民用领域发挥重要作用(贺仁杰,2004)。大范围区域目标快速观测对高精度地图绘制、目标搜索、自然灾害紧急救援等方面具有重要的意义(阮启明,2006),因此对区域目标观测的时效性和覆盖率提出了更高的要求。单颗遥感卫星单次波束覆盖范围有限,且受到轨道、载荷、分辨率、重访周期等限制无法实现任意大范围区域任务的快速观测响应(李春升 等,2016),利用多星协同技术是解决大范围区域快速观测任务的主要手段(Du等,2020)。相比于点目标规划调度,大范围区域目标规划更加复杂(Hu等,2021),且人工规划的方式无法满足日益复杂的卫星运行管控需求,研究高效的多星协同区域目标任务规划系统对提高遥感卫星的观测时效、提升卫星运管系统的智能化程度具有重要意义。光学成像卫星和SAR成像卫星是两类主要的遥感观测卫星且各有特点,光学卫星图像更加直观、清晰、易于判读,但是光学卫星易受光照条件、云雾、雾霾等环境的影响导致遥感图像获取不可控,而SAR卫星具备全天时、全天候、作用距离远等优势(Sun等,2021),使得SAR遥感观测更加稳定可控。当前,光学卫星发展较快且在轨光学卫星数量多(周晓青 等,2022),因此光学多星协同区域目标观测规划技术起步较早也发展较快。相对而言,SAR卫星协同观测任务规划技术涉及面更广、更复杂导致发展较慢。近年来SAR系统体制和成像技术发展迅速,微小型SAR卫星组网已成为主流发展趋势(邓云凯 等,2020),并且SAR卫星发射数量不断增加(张永贺等,2022),为充分发挥SAR多星协同观测的性能,迫切需要研究SAR多星协同区域观测任务规划技术。当前针对SAR成像卫星的区域观测协同任务规划技术研究较少。Wei(2013)对SAR调度问题进行分析并研究了点目标的调度问题,通过蚁群算法和模拟退火算法进行求解。王聪(2014)研究了编队干涉SAR对地测绘任务规划方法,提出了具有约束满足特性的区域分解方法,设计了混合遗传模拟退火算法为基础的模型求解框架。Kim和Chang(2015)研究了基于最小系统响应时间的SAR卫星的规划调度,首先通过条带模式进行感兴趣区域观测并进行相关变化检测,然后使用聚束模式对点目标进行精细观测。Kim和Chang(2020)还研究单星多次航过感兴趣区域中多个点目标的快速调度算法,并考虑指令上传和数据下传。从当前SAR卫星规划技术发展现状分析可知,当前SAR卫星规划任务以点目标为主,且规划对象多以单星或者双星为主,对多星区域观测规划技术缺乏研究。光学卫星在轨数量多且发展速度快,因此当前光学多星协同观测规划技术研究较多。在光学卫星区域规划研究中,将区域目标的调度规划过程分为两个阶段:第1个阶段为区域目标的分解;第2个阶段为区域目标的调度规划。美国空间成像公司对Landsat系列光学成像卫星进行规划时通过预定义参考系统进行分割,法国SPOT光学成像卫星根据网格参考系统进行区域目标的分割,此类方法工作量小、操作简单,适用于星载传感器固定且垂直于星下线的光学单景成像卫星(阮启明 等,2006)。Lemaı̂tre等(2002)提出基于相邻等宽矩形条带的光学成像卫星区域分割方法,依据卫星轨道运动方向和成像幅宽将区域目标分解为固定宽度的平行条带,在此基础上进行区域观测规划,此方法能够简化分割图像的预处理和后处理工作。阮启明(2006)提出了一种结合区域目标特性与光学载荷覆盖范围的区域分割方法,考虑卫星观测范围与目标区域的覆盖关系,采取有重叠的相邻等宽矩形条带分割方法,丰富了备选区域并增加了求解空间。白保存等(2008)提出了基于立体几何的区域分解方法,通过光学卫星成像立体几何计算卫星的覆盖范围并基于卫星运动方向和固定角度偏差进行区域划分。余婧等(2015)基于变化相机视场角进行相邻有重叠不等宽条带划分方法,以此构建了光学敏捷卫星同轨多条带拼幅成像工作模式。Zhu等(2019)提出最长基本覆盖模式对光学卫星区域目标进行分解,通过对网格空间的充分利用进行候选区域生成,并能通过改变网格空间改变候选区域的细粒度。从光学卫星区域任务规划的发展来看,光学卫星的区域分解方法与光学卫星的成像模式、覆盖范围等紧密结合。SAR卫星与光学卫星具有不同的成像机理和成像模式(李春升 等,2016),因此对于SAR观测区域分解应该与SAR卫星成像特点密切结合。光学卫星规划和SAR卫星规划的一个不同体现在下视角度上。光学卫星为下视成像,可以通过卫星姿态调整实现侧视成像,但是受限于卫星姿态调整能力,且侧视成像会导致光学成像分辨率下降(Xu等,2020)以及图像扭曲(Niu等,2018),因此光学卫星一般侧摆角度较小,在进行覆盖计算时多进行平面假设以简化问题。SAR卫星因其特殊的成像机理需要侧视成像,并且SAR卫星在卫星姿态调整基础上,还可以通过相控阵方式进行扫描角度调节,并且对于SAR卫星下视角度越大,地距分辨率越接近斜距分辨率,所以SAR卫星通常具有更大的下视角度和宽广的可覆盖范围,导致区域分解受地球曲面影响更加严重,不能进行平面近似。针对此问题,本文以实现精确的覆盖计算为研究对象,拟在计算星载SAR条带成像覆盖范围时采用精确的椭球计算方法,并且在计算区域覆盖面积使用高斯投影,保证覆盖计算的准确性。除此之外,在区域分解时对宽广的下视角度范围进行限制预处理,提高优化速度并减少计算浪费,以期为后续的优化算法提供精简的候选分解区域。通过区域分解后可以将多星协同区域规划问题数学建模为一个整数规划问题进行调度规划求解,调度规划方法一般分为精确求解算法和启发式算法两大类,适用于光学卫星和SAR卫星。传统的精确求解方法随着求解规模的增加会急剧增加求解时间和计算量。进化计算方法在复杂优化领域应用广泛且取得了不错的结果(Zhan等,2022),且对求解规模增加不敏感,其中遗传算法在成像卫星规划中表现优异(Song等,2023),因此开展基于遗传方法的SAR多星协同区域观测任务规划方法研究具有重要意义。","result":"介绍了遥感卫星在民用领域的重要性,特别是在大范围区域目标快速观测方面。由于单颗遥感卫星的覆盖范围有限,多星协同技术成为实现快速观测任务的主要手段。SAR卫星因其全天时、全天候的优势,在遥感观测中具有稳定性和可控性。然而,SAR卫星协同观测任务规划技术相对复杂,发展较慢。文章回顾了SAR成像卫星的区域观测协同任务规划技术的研究现状,指出当前研究多以点目标为主,且规划对象多以单星或双星为主,缺乏对多星区域观测规划技术的研究。同时,对比了光学卫星和SAR卫星在区域观测规划方面的差异,强调了SAR卫星规划需要考虑的成像机理和成像模式的特点。最后,提出了本文的研究目标,即基于改进遗传算法的SAR多星协同区域观测任务规划方法,以提高观测时效和运管系统智能化程度。","language":"zh"},{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"2 研究方法","content":"2.1 整体流程本文开展SAR多星协同区域目标观测任务规划技术研究,以区域目标最大覆盖面积为优化目标。由于当前星载SAR中条带成像模式应用范围最为广泛,为简化研究内容,本研究中SAR卫星统一使用条带成像模式。对于聚束、滑聚等其他成像模式,所提区域目标规划方法同样适用,但是需要根据具体的成像模式进行覆盖范围计算与访问计算。本文方法整体流程图如图1所示。输入为区域目标、规划时间段和卫星载荷参数,通过卫星工具包进行轨道递推和访问计算,最后通过本文所提区域规划方法进行区域覆盖规划。图1SAR多星协同区域观测规划方法流程图Fig. 1Flowchart of the SAR multi-satellite cooperative regional observation method本文所提区域规划算法包含3个部分:首先是对规划区域进行网格划分和覆盖计算的基础部分;然后是进行角度限制和两维分解的预处理部分;最后分别是使用贪婪算法进行快速优化、使用遗传算法进行2次优化的两阶段优化部分。2.2 星载SAR条带模式覆盖范围星载SAR条带模式成像几何模型如图2所示,卫星沿轨道飞行,从点开始录取数据,到点停止录取数据。SAR波束近似为椭圆形,方位向波束宽度为,距离向波束宽度为,波束中心下视角为。为满足成像的合成孔径时间要求,实际有效成像区域可近似为ABDC灰色矩形区域,因此只需要确定矩形区域的4个顶点,即可确定覆盖区域。A、B点为卫星在点分别以角度和发出的波束射线与地面相交的点,中第一个角度为方位向角度,第二个角度为距离向角度,C、D点为卫星在点分别以角度和 发出的波束射线与地面相交的点。图2星载SAR条带模式成像几何模型Fig. 2Geometry of spaceborne SAR strip mode imaging对于方位角为,距离角为的波束射线,在天线坐标系中的波束射线方向可表示为 (1)在已知卫星轨道六根数后,可以根据轨道外推获得卫星在任意时刻的位置。在时刻,卫星在地球固定坐标系位置为。卫星在时刻以波束方向照射在地球表面1点,设卫星到波束照射点之间的距离为。在时刻,由卫星轨道坐标系和地固坐标系的转换关系得到旋转矩阵,因此可以得到波束在地固坐标系的方向为,卫星和照射点之间的向量可以表示为,则点在地球固定坐标系中的坐标可以表示为 (2)同时,点还位于地球表面,满足椭球方程,由此可以解出距离,进而可以得到点的坐标。通过上述方式即可确定任意波束射线与地面相交点的位置,进而可以求得ABDC矩形区域位置。2.3 区域覆盖面积计算方法要完成对区域目标的观测规划,需要对区域目标的当前覆盖情况进行描述。区域目标经纬度跨度大,且经纬度空间不是标准的距离单位,在经纬度空间进行网格划分不合理,会导致覆盖面积计算不准确。高斯投影变形小且投影精度高,本文使用高斯投影与高斯反投影进行经纬度空间与平面空间的转换,在高斯投影平面进行网格划分与覆盖计算。为保证高斯投影的精度,以目标区域所在的中心经度为投影中心线进行投影,如图3所示。图3上海市经纬度地图与高斯投影地图对比Fig. 3Comparison of the longitude and latitude map and Gaussian projection map of Shanghai如图4所示,不同的SAR卫星具有不同的轨道和载荷参数,多星协同对复杂区域目标的覆盖情况表现为多方向不等宽不等长矩形条带覆盖,因此直接计算卫星对复杂区域目标的覆盖面积困难。当前区域规划的通常做法是进行网格划分,计算每个条带矩形对每个网格的覆盖情况,进而得到整个区域的覆盖情况,采用大小的网格对上海区域外接矩形框进行网格划分结果如图5(a)所示。在此基础上,通过目标区域对每个网格的相交情况计算可以得到真实复杂区域的网格化表示,结果如图5(b)所示。图4多方向矩形条带对上海区域覆盖图Fig. 4Multi directional rectangular strips covering the Shanghai area图5复杂区域网格划分与网格表示Fig. 5Grid division and representation of the Shanghai region为计算每次条带模式成像的矩形覆盖对复杂区域目标的覆盖情况,本文将条带覆盖矩形的4个点投影到高斯投影空间,然后得到矩形覆盖区域的4条边的直线表达式。对区域划分网格依次进行判断是否在矩形覆盖范围内,进而完成条带成像覆盖复杂区域的面积计算,结果如图6所示。图6区域内部和边界的两种条带覆盖情况Fig. 6Two types of strip coverage within and at the boundaries of the region2.4 角度限制预处理SAR卫星可以通过卫星姿态调整或者相控阵的方式改变波束中心下视角角度,进而改变单次成像的观测范围。因SAR卫星的波束中心下视角调整范围较大,因此SAR卫星在距离向的可调整观测范围较大,但是实际观测距离向波束宽度并不大,实际观测距离向幅宽较小。对区域目标的每1次访问,并不是整个可观测角度都可以对目标进行完成访问,部分角度下无法观测到目标区域,此时会造成访问资源浪费。同时使用整个可观测角度进行优化会导致优化变量维度高,造成计算浪费。因此需要对SAR卫星的观测角度进行限制,结合SAR卫星可观测范围和区域目标特征进行角度限制。对区域目标的角度限制思路如图7(a)所示,区域目标为绿色多边形区域,SAR卫星可观测区域为矩形区域。角度限制计算在高斯投影平面进行:首先将轨道星下点近似为直线;然后遍历绿色区域目标顶点,找到区域目标顶点中离星下点直线最近和最远的两个顶点,分别为和。其中,过点作与平行的直线,交于点,交于点;过点作与平行的直线,交于点,交于点。计算点和点的下视角分别为和,即为目标区域限制下视角范围。将目标区域限制下视角范围与可观测下视角范围作交集,既为实际下视角限制角度范围。角度计算如图7(b)所示。其中,为地球中心,向量与向量夹角为,同理可得,具体计算公式如下: (3) (4)图7区域目标的角度限制以及角度计算Fig. 7Angle limitation and calculation of region target采用两颗卫星对上海区域进行限制角度计算的两个情况,结果如图8所示。黄色矩形区域为卫星可观测矩形范围,蓝色矩形区域为限制角度后的观测区域,图8(a)为标准情况,图8(b)为边界情况。图8角度限制计算中的两种情况Fig. 8Two situations in angle limit calculation2.5 区域分解方法对于大范围区域目标,SAR卫星单次成像只能覆盖部分区域,需要多星多次成像进行联合覆盖。单次成像需决策卫星实际观测范围,对于星载SAR条带成像模式可以简化为控制两个参数,开始录取数据时间和波束中心下视角。综合考虑卫星存储以及能源消耗,在本文中固定有效数据录取时间为10 s,因此确定数据开始录取时间后即可确定数据录取结束时间,进而决定方位向数据录取范围。通过波束中心角度控制即可确定距离向数据录取范围。因此对于SAR卫星单次访问区域目标需要确定开始录取时间和波束中心下视角两个参数。设定固定的数据录取时间为10 s,为综合考虑数据存储约束、数传约束,并为简化问题研究而设定的值,实际工程中需要根据不同成像模式、卫星存储约束、数传约束、以及用户需求决定具体数据录取时间。对于SAR多星系统对于区域目标的每1次访问,按照开机录取时间和波束中心下视角两个参数进行区域分解,可得到诸多候选观测目标。后续通过优化算法从每1次访问的诸多候选观测目标中选择一个观测目标,最终形成观测计划,因此区域划分是区域目标观测的基础工作,区域划分的好坏以及可行性直接决定了区域规划算法的可行性。在本方法中,开机时间和波束中心角度都进行等间隔采样,构建有一定冗余的候选区域。图9(a)为固定观测角度,按照时间维度进行分解的结果,时间间隔选择3 s;图9(b)为固定开机时间,按照波束中心下视角维度进行划分的结果,角度间隔为1°;同时按照时间和角度两个维度进行分解,即可得到此次访问的候选区域分解列表。图9单次访问时间和角度维度分解结果Fig. 9Time and angle decomposition results of a single access所提方法对于每1次访问都进行时间和角度的两维分解,保证候选区域与卫星的轨道方向、SAR载荷的可观测范围、目标的区域特性相匹配,保证后续优化工作的可行性。2.6 改进遗传算法SAR多星协同观测区域目标,在规划时间段内可访问目标区域的总次数为次,构建长度为的染色体,编码方法采用整数编码,按照访问时间顺序进行编码,奇数位基因表示此次访问数据录取时间段编号,从0开始编号,-1表示此次不开机。偶数位基因表示此次访问下视角编号,从0开始编号。如图10所示,对于访问1,表示在第1个时间段开机,选择第2个下视中心角。图10染色体整数编码方法Fig. 10Chromosome integer encoding method表1为访问1在不同下视角与开始时间下的网格覆盖数量,对图10中的访问1编码数据与表1进行查询可知,图10中访问1的开机时间为5 h 54 min 52 s,波束中心下视角为34.8°,进而可以获得此情况下的区域覆盖情况,覆盖区域网格数为90。对于图10中的访问2开机时间段为-1,表示此次访问不进行观测。表1访问1在不同下视角与开始时间下的网格覆盖数量Table 1Number of grid coverage corresponding to different perspectives and start times of access 1通过多个染色体构建优化种群,采用随机初始化方法对种群进行初始化。为提高算法的优化速度以及取得Pareto最优解的能力,使用贪婪算法对问题进行优化,并将优化结果保存为种群中的1个染色体。采用精英保留策略,保证已经得到的满意解不会丢失,以此保证算法的收敛速度和性能。多星协同区域观测目的是要实现尽可能大的观测区域覆盖,因此适应度函数与覆盖面积正相关。线性面积覆盖适应度函数形式如式(5),表示覆盖率。但是线性适应度函数在整个覆盖范围给与的奖励相同,这样不利于摆脱局部最优解。本文提出3次面积适应度函数如式(6)所示,随着覆盖率的提升给与的奖励也会增加,更加有利于实现更大面积覆盖。图11为2种适应度函数的对比图像。图11不同网格覆盖率下两种适应度函数对比Fig. 11Comparison of two fitness functions under different grid coverage rates (5) (6)选择算子采用轮盘赌方法,通过计算种群中每个染色体个体的适应度,然后根据各自适应度确定被选择概率,最后通过轮盘赌的形式选择下一代种群,适应度越大的个体具有更大的概率被保留。交叉算子采用以单次访问为最小粒度的单点交叉,如图12所示。可见:染色体长度为8,所以表示有4次访问机会;从4次访问机会中随机选取1次作为交叉点,图12选取访问2作为交叉点,染色体1和染色体2进行交叉操作得到新染色体1,新染色体1由染色体1交叉点之前部分和染色体2交叉点之后部分构成。图12以单次访问为最小粒度的单点交叉操作Fig. 12Single-point crossover operation with single visit as the minimum granularity变异操作采用以单次访问为最小粒度的随机变异,如图13所示,染色体的访问2对应的基因发生变异,访问2的开机时间段变为编号为1的时间段,访问2的角度变为编号为2的时间段。图13以单次访问为最小粒度的随机变异操作Fig. 13Random mutation operation with single access as the minimum granularity","result":"研究了基于改进遗传算法的SAR多星协同复杂区域观测规划技术。研究方法包括整体流程、星载SAR条带模式覆盖范围、区域覆盖面积计算方法、角度限制预处理、区域分解方法和改进遗传算法六个部分。\n\n整体流程中,研究以区域目标最大覆盖面积为优化目标,采用条带成像模式,通过卫星工具包进行轨道递推和访问计算,最后进行区域覆盖规划。区域规划算法分为网格划分和覆盖计算、角度限制和两维分解的预处理、以及两阶段优化。\n\n星载SAR条带模式覆盖范围部分,通过成像几何模型确定有效成像区域,利用波束射线与地面相交点的位置确定覆盖区域。\n\n区域覆盖面积计算方法中,使用高斯投影与高斯反投影进行经纬度空间与平面空间的转换,通过网格划分与覆盖计算得到区域覆盖情况。\n\n角度限制预处理部分,针对SAR卫星的观测角度进行限制,以减少资源浪费并降低优化变量维度,通过高斯投影平面进行角度限制计算。\n\n区域分解方法中,对于大范围区域目标,通过固定数据录取时间并控制开始录取时间和波束中心下视角,进行区域分解,得到候选观测目标。\n\n改进遗传算法部分,构建染色体并采用整数编码,通过随机初始化方法对种群进行初始化。使用贪婪算法优化问题,采用精英保留策略保证收敛速度和性能。适应度函数与覆盖面积正相关,提出三次面积适应度函数以摆脱局部最优解。选择算子采用轮盘赌方法,交叉算子和变异操作以单次访问为最小粒度进行操作。","language":"zh"},{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"3 结果与分析","content":"3.1 仿真场景本文选择4颗SAR卫星进行组网仿真,以验证本文所提方法。本文仿真的组网SAR卫星分别为高分三号01星、高分三号02星、高分三号03星、海丝一号,规划时间为北京时间2022年8月15日0点到2022年8月20日0点。卫星轨道数据使用两行轨道参数TLE(Two Line Elements)格式,4颗卫星轨道数据如表2所示,轨道递推方法采用简化常规摄动模型SGP4(Simplified General Perturbation 4)。4颗卫星的单轨星下点轨迹如图14所示。表2卫星TLE轨道参数以及传感器参数Table 2Satellite TLE orbit parameters and sensor parameters图144颗卫星的单轨星下点轨迹Fig. 14Single orbit substellar point trajectories of four satellites本文仿真中高分三号3颗卫星统一使用超精细条带模式,入射角为20°—50°,卫星高度近似为755 km,通过简化计算波束下视角变化范围为17.6°—39.2°。在本文仿真中海丝一号卫星成像采用条带模式,入射角范围为20°—35°,高度512 km,通过简化计算波束下视角变化范围为18.2°—30.4°。SAR卫星实际规划中需要考虑波位参数,通过合理选择脉冲重复频率PRF(Pulse Repetition Frequency)和入射角保证回波信号同时避开发射截止区和星下点回波窗,同时满足距离模糊度、方位模糊度、成像幅宽、分辨率等限制条件。为简化本文研究问题便于分析处理,本文对波位参数进行简化处理,设定距离向波束宽度固定为2.0°。实验选择北京市、天津市、上海市3个区域进行仿真实验,3个区域各自轮廓如图15所示。图15北京、天津和上海3个区域的高斯投影图对比Fig. 15Comparison of Gaussian projection maps in three regions: Beijing, Tianjin and Shanghai本方法所使用遗传算法的种群数量为120,迭代次数为100,交叉概率为0.8,变异概率为0.1。3.2 结果与分析使用不同算法对3个实验区域进行访问实验结果如图表3所示。改进遗传1为使用贪婪算法初始化和精英保留策略的遗传算法,改进遗传2为使用3次面积适应度函数的遗传算法。从表3可以看出,通过使用贪婪算法和使用精英保留策略,能够进一步优化覆盖率。在此基础上,进一步使用3次函数形式的适应度函数,能够进一步提高覆盖率,证明本文改进算法的有效性。对比3个区域,所提算法都有覆盖率提高效果,但是提升效果不一,原因在于形状、位置、访问次数等差异导致各自陷入局部最优程度不一致,但是所提算法在3个区域都能实现效果提升证明所提方法的鲁棒性。注:加粗数值表示最优数值。表3不同算法在3个区域上的优化结果对比Table 3Comparison of optimization results of different algorithms in three regions /%图16为表2中4种不同算法在上海区域的覆盖优化曲线变化图,黄色方形虚线为贪婪算法结果,贪婪算法不需要迭代优化,所以在图16中表示为1条直线。蓝色X形虚线为原始遗传算法优化曲线,原始遗传算法虽然能够实现优化,但是优化过程不稳定,且优化效果不够好。绿色三角虚线为添加贪婪算法初始化和精英保留策略的遗传算法,能够在贪婪算法基础上继续优化,但是一段时间后收敛不再继续优化。红色圆形实线为添加3次适应度函数的遗传算法结果,能够实现效果最好的覆盖优化,证明所提3次适应度函数有利于更大面积覆盖优化。图16上海区域不同算法下覆盖率差异Fig. 16Optimization curves for different algorithms in the Shanghai region图17为北京市、上海市、天津市3个区域目标的覆盖结果图,左侧为贪婪算法优化结果,右侧为改进遗传算法优化结果,本文仿真采用固定距离向波束宽度为2°,因此随着下视角增大,幅宽也会相应增大,覆盖结果表现出不同的距离向幅宽。从图17中可以直观看出,改进遗传算法2对区域的覆盖率更高。图17不同算法下北京市、天津市、上海市3个区域的覆盖结果图Fig. 17Coverage results of Beijing, Tianjin, and Shanghai under different algorithms观察图17区域优化覆盖结果以及图18(a)可以看出,部分网格在条带覆盖边界区域,由于划分网格较大,导致网格没有全部位于条带覆盖范围内,因此在计算面积时没有计算这种网格区域,导致覆盖区域计算不准确。解决此问题方法为提高网格划分的精细度,图18为采用不同大小的网格划分后的区域覆盖结果,可以看出采用更加精细网格划分后区域覆盖计算更加精准。图18不同精细网格覆盖结果Fig. 18Different fine grid coverage results在精细网格基础上,对上海区域采用上述几种算法进行优化,结果如表4和图19所示。在精细网格划分条件下,本文所提算法依旧能够实现优异的优化结果,证明算法的通用性和稳定性。表4精细网格下算法优化结果Table 4Algorithm optimization results under fine grid /%图19精细网格下两种算法的优化结果Fig. 19Optimization results of two algorithms under fine grid","result":"通过仿真实验验证了基于改进遗传算法的SAR多星协同复杂区域观测规划方法的有效性。实验选择了4颗SAR卫星,包括高分三号01星、02星、03星和海丝一号,规划时间为2022年8月15日至20日。卫星轨道数据采用TLE格式,使用SGP4模型进行轨道递推。仿真中考虑了卫星的成像模式、入射角、高度和波束下视角变化范围,同时简化了波位参数的处理。\n\n实验选取了北京市、天津市和上海市3个区域进行仿真,使用遗传算法进行优化,种群数量为120,迭代次数为100,交叉概率为0.8,变异概率为0.1。通过对比不同算法的优化结果,发现改进遗传算法1(使用贪婪算法初始化和精英保留策略)和改进遗传算法2(使用3次面积适应度函数)能够进一步提高覆盖率,证明了所提算法的有效性。不同区域的覆盖率提升效果存在差异,但所提算法在所有区域均能实现效果提升,显示出良好的鲁棒性。\n\n在上海区域的覆盖优化曲线变化图中,改进遗传算法2(红色圆形实线)表现出最佳的覆盖优化效果。北京市、上海市和天津市的覆盖结果图也显示,改进遗传算法2对区域的覆盖率更高。然而,部分网格在条带覆盖边界区域由于网格划分较大而没有全部位于覆盖范围内,导致覆盖区域计算不准确。通过提高网格划分的精细度,可以更准确地计算区域覆盖。\n\n在精细网格划分条件下,所提算法依然能够实现优异的优化结果,证明了算法的通用性和稳定性。通过对比不同算法在精细网格下的优化结果,进一步验证了所提算法的有效性。","language":"zh"},{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"4 结论","content":"为优化SAR多星协同复杂区域覆盖规划技术,本文构建了一个可行的SAR多星协同复杂区域观测规划流程,提出了一种适合SAR多星条带成像模式的复杂区域覆盖规划方法。主要结论如下:(1)现有的区域规划针对简单形状区域进行研究,本文提出了一种结合高斯投影、网格划分与几何运算的复杂大范围区域覆盖面积计算方法;(2)针对SAR卫星具有宽广下视角范围的特点,提出了结合角度限制与二维分解的区域分解方法,所提方法能够实现高效可行的区域分解;(3)针对当前SAR多星区域覆盖规划方法人在环路、效率低下的问题,提出了结合贪婪算法、精英保留策略、3次适应度函数的改进遗传算法,能够实现高效优异的区域覆盖结果。由于SAR卫星规划需要考虑成像波位的选择,对PRF和入射角产生更多的限制条件,并且还要考虑距离模糊度、方位模糊度等因素对成像质量的影响,这都将增加本文规划模型的复杂度。因此,本文进行了简化处理。后续研究将深入结合SAR卫星成像信号处理特点,开展考虑SAR成像波位、SAR图像质量的SAR多星协同复杂区域覆盖规划方法研究。","result":"提出了一种基于改进遗传算法的SAR多星协同复杂区域观测规划方法,构建了可行的观测规划流程,针对复杂大范围区域覆盖面积计算、区域分解和多星区域覆盖规划问题提出了创新性解决方案。研究简化了模型以适应SAR卫星成像波位选择和成像质量影响因素,后续将深入考虑SAR成像信号处理特点,优化规划方法。","language":"zh"}]”