MtSCCD数据集: https://sites.google.com/view/zhouwx/dataset1 引言高空间分辨率遥感影像能够获取地物的纹理、结构等细节信息,因此广泛应用于土地利用/土地覆盖相关任务,其中土地利用场景分类与变化检测是广受遥感领域研究人员关注的研究热点。土地利用场景分类是从高分影像中提取图像的语义信息从而识别场景对应的土地利用类型(白坤 等,2022;钱晓亮 等,2018),土地利用场景变化检测则是利用多时相的遥感影像监测土地利用类型的变化情况(眭海刚 等,2018;张良培和武辰,2017),二者对于城市发展规划和土地利用优化具有重要的指导意义(袁静文 等,2020)。土地利用场景分类与变化检测的关键在于获取表征能力强的图像特征。深度学习通过层次化的深层网络结构能够实现特征的自适应学习(LeCun等,2015),因此面向自然图像的众多方法和模型被借鉴并用于遥感领域,形成一种新的基于数据驱动的遥感信息提取范式(Ma等,2019;Zhang等,2016;Zhu等,2017)。对于一个有效的深度学习模型来说,高质量、大规模的遥感图像标注样本是必不可少的(冯权泷 等,2022)。在这一背景下,国内外学者发布了多个面向深度学习的遥感数据集,包括遥感图像军用飞机目标识别数据集MAR20(禹文奇 等,2022)、SAR建筑数据集SARBuD1.0(吴樊 等,2022)、点云基准数据集WHU-TLS和WHU-MLS(杨必胜 等,2021)。对于土地利用场景分类,当前有多个包含土地利用场景的数据集,如UC Merced(Yang 和Newsam,2010)、WHU-RS19(Xia等,2010)、RSSCN7(Zou等,2015)、AID(Xia等,2017)、NWPU-RESISC45(Cheng等,2017)、PatternNet(Zhou等,2018)、天宫一号高光谱数据集(刘康 等,2020)。但上述数据集仅包含少部分土地利用类别,且数据集侧重的是目标而非土地利用类型。例如,PatternNet数据集中包含飞机、飞机跑道、桥梁、篮球场、足球场等目标,不能直接反应土地利用类型。作为土地利用类型变化的有效监测方法,当前的变化检测研究大多是像素级的(Cheng等,2022)。然而,从土地利用的角度来说,场景内部一些地物的变化并不会直接导致场景类别发生变化。例如,一幅居住用地场景内部分房屋变成了裸地,虽然发生了像素级变化,但该场景仍然属于居住用地。因此,从标注成本和实际需求的角度来说,图像级的变化检测数据集更适合土地利用类型监测。现有的图像级土地利用变化检测数据集包括MtS-WH(Wu等,2017,2016)和WH-MAVS(Yuan等,2022)。其中,MtS-WH数据集各时相包括190幅训练集影像、1920幅测试集影像,由于样本数量较少,不适合基于深度学习的土地利用变化检测研究。与MtS-WH不同,WH-MAVS数据集的样本数量更多,各时相包括16496幅训练集影像、4713幅验证集影像和2356幅测试集影像,且包含的更多的土地利用类型。但WH-MAVS数据集存在以下几个局限:(1)部分土地利用类型划分粒度过细。例如,一类、二类和三类居住用地的主要区别在于建筑物的高度或者密度,无论是前期样本构建还是后期的土地利用类型识别,三者都是比较容易混淆的,因此将3个类别合并为居住用地更为合理。(2)数据集中的样本仅包括武汉市中心城区的土地利用场景,由于不同城市的土地利用规划与景观格局存在差异,因此构建覆盖更多城市的土地利用数据集有利于训练泛化性能更好的深度学习模型。(3)数据集中训练集、验证集与测试集是按一定比例随机划分的,这种划分方式不符合真实的业务需求,且不能评估模型的泛化性能。例如,实际业务应用中,往往是将训练好的深度学习模型用于和训练集不重合的区域,这样不仅可以实现模型的重复利用,而且可以验证模型的泛化性能。(4)数据集不开源,不能用于模型训练和算法评估。为了推动高分辨率土地利用场景分类与变化检测的研究进展,针对现有土地利用分类与变化检测数据集存在的局限性,本文利用高分辨率遥感影像构建了面向深度学习的大规模场景分类与变化检测数据集MtSCCD(Multi-temporal Scene Classification and Change Detection)。该数据集具体包括MtSCCD_LUSC(MtSCCD Land Use Scene Classification)和MtSCCD_LUCD(MtSCCD Land Use Change Detection)两个子数据集,分别用于土地利用场景分类与变化检测研究。基于两个子数据集,本文进一步评估了多个场景分类与变化检测深度学习方法,为后续研究提供了参考基准。MtSCCD的两个子数据集MtSCCD_LUSC和MtSCCD_LUCD分别与现有场景分类和变化检测数据集的对比如表1所示。可以看出,对于土地利用场景分类和变化检测两个任务来说,MtSCCD数据集在图像分辨率、样本数量、数据组织方式、开放获取等方面具有明显的优势。10.11834/jrs.20243210.T001表1MtSCCD数据集与现有的场景分类与变化检测数据集对比Table 1Comparison between MtSCCD and the existing datasets数据集分辨率/m图像尺寸类别数目图像数目数据集是否划分是否开源场景分类UC Merced(Yang和Newsam,2010)0.3256×256212100否是WH-RS19(Xia等,2010)最高0.5600×600191005否是RSSCN7(Zou等,2015)未知400×40072800否是AID(Xia等,2017)8—0.5600×6003010000否是NWPU-RESISC45(Cheng等,2017)30—0.2256×2564531500否是PatternNet(Zhou等,2018)4.69—0.06256×2563830400否是RSI-CB(Li等,2020)3—0.22256×2563524000否是MtSCCD_LUSC1300×3001065548是是变化检测MtS-WH(Wu等,2016,2017)1150×15084220是是WH-MAVS(Yuan等,2022)1.2200×2001447134是否MtSCCD_LUCD1300×3001065548是是2 MtSCCD数据集2.1 数据来源与标注为了保证MtSCCD数据集中土地利用场景图像的多样性以便更好地评估土地利用场景分类与变化检测算法,本文选择杭州、合肥、南京、上海和武汉5个城市中心区域的高分影像作为数据源,并且每个城市的数据均包含同区域两个时相的影像。高分辨率影像来自World Imagery(https://livingatlas.arcgis.com/wayback[2023-06-13]),空间分辨率大约为1 m,包括R、G、B这3个波段。对大尺寸高分辨率影像按照300×300像素大小进行裁剪得到土地利用场景图像,图像的命名格式为:xx_yyyymm_nx_ny_c。其中,xx表示城市的首字母缩写,yyyymm表示影像获取的年份和月份,nx和ny表示图像裁切时在原影像中的位置编号,c表示场景类别。本文参考城市用地分类与规划建设用地标准(GB50137-2011)(http://www.risn.org.cn/Xxbz/ShowForceStandard.aspa?Guid=61387[2023-06-13])和现有公开的城市土地利用数据(Wu等,2016;Yuan等,2022),确定了MtSCCD数据集中土地利用场景的分类体系,具体包括居住用地(residential land)、公商用地(public service and commercial land)、教育用地(educational land)、工业用地(industrial land)、交通用地(transportation land)、农业用地(agricultural land)、水体(water body)、绿地(green space)、林地(woodland)、裸地(bare land)共10种类别。杭州、合肥、南京、上海和武汉5个城市的土地利用场景经目视解译后分别划分到上述10个土地利用类别。为了保证数据集质量,人工标注过程中丢弃成像质量不高的场景图像(如不清晰、云雾遮挡等),并对难以确定类别的土地利用场景借助Google Earth影像进行解译。MtSCCD数据集中5个城市两个时相各类别场景的数目、标签(类别编号)、影像的获取时间如表2所示。由表2可知,各城市两个时相的影像的获取月份比较接近,这样可以充分降低季节因素对地物的影响,便于后续构建土地利用场景分类与变化检测数据集。但由于裁剪获取土地利用场景样本时去掉了样本的坐标信息,因此无法绘制各城市的采样点分布图,导致不能展现采样时的空间分异性以及评估样本空间分布的合理性,这是MtSCCD数据集的一个缺陷。10.11834/jrs.20243210.T002表2MtSCCD数据集各城市土地利用数据概况Table 2Overview of the land use data of each city in the MtSCCD dataset类别标签杭州上海武汉南京合肥时相1时相2时相1时相2时相1时相2时相1时相2时相1时相2居住用地1110312272447251710191292118713398551017公商用地21341763544171632566579248274教育用地3203249275303207247206247204293工业用地4355260613488342405500436396411交通用地51892207914471455923126975891013571466农业用地62484210845229873464891761016593水体762963635235721612067521493412402绿地8414394453438619732373398250334林地9200319779919924681479476141裸地10114225206195482242149190264147图像数目9331933162016201710271025062506250785078影像获取时间2013-102018-102010-072019-112013-072021-092013-052019-032014-122021-102.2 数据集的构建2.2.1 MtSCCD_LUSC子数据集由表2可知,各城市同一类别的土地利用场景均包括两个时相,而两个时相的同类别场景必然是有差异的。因此,为了增加每个土地利用类别的图像数目且使图像库更具挑战性,将两个时相的数据合并构建MtSCCD_LUSC子数据集。首先,把每个城市两个时相的数据按照类别进行合并得到单时相场景数据;然后,分别将杭州、上海、武汉3个城市各类别数据按照80%和20%的比例划分为训练集与验证集;最后,将南京与合肥两个城市的数据作为两个测试集,其中,测试集A和测试集B分别为合肥和南京的土地利用数据。表3给出了MtSCCD_LUSC数据集中训练集、验证集以及测试集的划分情况,可以看到,训练集和验证集分别包含36215和9053幅图像,测试集A和B分别包含10156和10124幅图像。同时,从图1给出的各土地利用类别的样本图像可以看出MtSCCD_LUSC数据集类内差异较大(如交通用地、公商用地)。因此,MtSCCD_LUSC是一个大规模且具有挑战性的土地利用场景分类图像库,可用于基于深度学习的场景分类方法研究。10.11834/jrs.20243210.T003表3MtSCCD_LUSC数据集划分Table 3Data splits in MtSCCD_LUSC dataset类别标签训练集验证集测试集AB居住用地17684192118722526公商用地21200300522144教育用地31187297497453工业用地41971492807936交通用地57253181228231668农业用地6479411981609665水体7496112418141014绿地82440610584771林地935548892171608裸地101171293411339图像数目3621590531015610124MtSCCD_LUSC数据集图像数目65548图1MtSCCD_LUSC数据集各类别图像实例Fig. 1Example images of each category in the MtSCCD_LUSC dataset10.11834/jrs.20243210.F1a1(a)居住用地(a)Residential land10.11834/jrs.20243210.F1a2(b)公商用地(b)Public service and commercial land10.11834/jrs.20243210.F1a3(c)教育用地(c)Educational land10.11834/jrs.20243210.F1a4(d)工业用地(d)Industrial land10.11834/jrs.20243210.F1a5(e)交通用地(e)Transportation land10.11834/jrs.20243210.F1a6(f)农业用地(f)Agricultural land10.11834/jrs.20243210.F1a7(g)水体(g)Water body10.11834/jrs.20243210.F1a8(h)绿地(h)Green space10.11834/jrs.20243210.F1a9(i)林地(i)Woodland10.11834/jrs.20243210.F1b1(j)裸地(j)Bare land2.2.2 MtSCCD_LUCD子数据集MtSCCD数据集中每个城市均包含两个时相的土地利用场景数据,因此可以利用各城市的数据直接构建MtSCCD_LUCD子数据集。首先,分别将5个城市时相1和时相2的各类别数据合并在一起,得到各城市时相1和时相2的数据;然后,按照80%和20%的比例依次将杭州、上海、武汉3个城市的时相1与时相2的数据随机划分为训练集与验证集,划分时需保证训练集与验证集中同一地面区域两个时相的场景图像同时划分到训练集或验证集;最后,将南京与合肥两个城市的数据作为测试集,其中,测试集A和测试集B分别为合肥和南京的土地利用数据。MtSCCD_LUCD是图像级的变化检测数据集,支持二值变化(即场景类别是否发生变化)和类别变化(即场景的变化类别)两种检测任务。表4给出了MtSCCD_LUCD数据集中训练集、验证集以及测试集的划分情况,可以看到,训练集和验证集分别包含18108和4526幅图像对,测试集A和B分别包含5078和5062幅图像对,各类别变化与未变化图像实例如图2所示。10.11834/jrs.20243210.T004表4MtSCCD_LUCD数据集中训练集、验证集与测试集的划分Table 4Data splits of training set, validation set and testing set in MtSCCD_LUCD dataset类别标签训练集验证集测试集AB时相1时相2时相1时相2时相1时相2时相1时相2居住用地136964073873963855101711871339公商用地25136711381782482746579教育用地3551644134155204293206247工业用地41058925252228396411500436交通用地53402382586097813571466758910农业用地6278819687285081016593489176水体725122446630614412402521493绿地811931243293321250334373398林地91754176645746676141814794裸地10641547161115264147149190图像数目1810818108452645265078507850625062MtSCCD_LUCD数据集图像数目6554810.11834/jrs.20243210.F002图2MtSCCD_LUCD数据集各类别变化与未变化图像实例Fig. 2Changed and unchanged example images of each category in the MtSCCD_LUCD dataset此外,由表5给出的土地利用场景变化矩阵可知,MtSCCD_LUCD数据集包含丰富的土地利用变化,共有14.52%的场景发生了变化。具体来说,时相1中4.27%的居住用地发生了变化,6.81%的交通用地发生了变化,18.68%的绿地发生了变化。此外,工业用地、农业用地、绿地和裸地的变化比例较高,分别为20.04%、36.77%、18.68%和79.26%。因此,MtSCCD_LUCD是一个大规模的土地利用场景变化检测图像库,包含丰富的土地利用场景变化信息,可用于基于深度学习的场景变化检测方法研究。10.11834/jrs.20243210.T005表5MtSCCD_LUCD数据集土地利用场景变化矩阵Table 5Land use scene change matrix of MtSCCD_LUCD dataset时相2图像数目变化比例/%类别12345678910时相11632973011816211113366114.2259400113002039642.493921076040100310951.74459620176411550242211220620.04519160653859431164581063776.816273575984626317563312106266502136.77715327871838126646140756.45810825252110724017152541210918.6891605718128730091931012.97103871025767185162311412252121579.26图像数目7392120213392000717932453955229631679993277414.522.3 数据集的特点MtSCCD数据集是一个面向深度学习的高分辨率遥感土地利用场景数据集,支持场景分类与变化检测研究,具有以下特点:(1)图像数量大规模:MtSCCD是目前公开的规模最大的高分辨率土地利用场景分类与变化检测数据集,MtSCCD_LUSC和MtSCCD_LUCD两个子数据集均包含65548幅图像和10种土地利用类型。(2)高度可扩展性:MtSCCD数据集是根据城市分别划分训练集、验证集以及测试集,因此具有较高的可扩展性。后续对于新增的城市土地利用数据,可以按照一定比例划分到训练集与验证集,或直接作为测试集,实现数据集的灵活扩充。(3)符合实际应用场景:MtSCCD_LUSC和MtSCCD_LUCD两个子数据集中训练集和验证集与测试集不重合,即模型训练和测试所用的数据来自不同区域,因此更符合实际应用场景。此外,这种不重合的数据集划分方式也有利于验证模型的泛化性能。(4)场景类内差异大:MtSCCD数据集包含5个城市的土地利用数据,而不同城市的同类别土地利用场景受成像条件等因素的影响存在较大的视觉差异。同时,MtSCCD数据集构建分类体系时,对于相近的类别进行了合并,进一步增加了场景的类内差异性。例如一类、二类、三类居住用地统一划分到居住用地,道路、铁路、桥梁统一划分到交通用地。类内差异大使得MtSCCD数据集对训练的模型更具挑战性。3 MtSCCD数据实验与分析本节以MtSCCD数据集为基础,对基于深度学习的土地利用场景分类与变化检测方法进行评估。3.1 评价指标为了评价土地利用场景分类与变化检测方法的精度,本文基于混淆矩阵,采用总体精度OA(Overall Accuracy)和Kappa系数作为评价指标。其中,对于场景变化检测,由于本文研究的是二值变化检测(即土地利用类型发生变化和未发生变化两类),因此以变化场景为正类、未变化场景为负类,采用二分类混淆矩阵来计算总体精度和Kappa系数。3.2 实验设置对于土地利用场景分类任务,本文选择常用的网络,包括AlexNet(Krizhevsky等,2012)、VGG网络(VGG16和VGG19)(Simonyan和Zisserman,2015)、GoogLeNet(Szegedy等,2015)、ResNet系列网络(ResNet18、ResNet50、ResNet101)(He等,2016)、DenseNet(Huang等,2017)、EfficientNet(Tan和Le,2019)、SENet(Hu等,2018)、ViT(Vision Transformer)(Dosovitskiy等,2021)和SwinT(Swin Transformer)(Liu等,2021)进行分类。其中,AlexNet和VGG网络提取第一个全连接层的输出作为特征,GoogLeNet和ResNet网络提取最后一个池化层的输出作为特征,训练SVM分类器进行分类,其余网络直接用自带的分类器进行分类。具体训练时,以预训练网络为基础进行训练。其中,AlexNet、VGG、GoogLeNet、ResNet的学习率设置为8E-5,批次大小50,优化器sgdm。DenseNet和EfficientNet的学习率为1E-3,批次大小分别为50和128,优化器sgdm,预训练网络分别采用densenet201和efficientnetb0。SENet、ViT和SwinT的学习率为1E-4,批次大小32,优化器sgd(SwinT采用AdamW),采用的预训练网络分别为se_resnet50、vit_base_patch16_224_in21k和swin_ tiny_patch4_window7_224。对于土地利用场景变化检测任务,本文选择两种变化检测方法,一是常规的基于分类的“先分类后检测”方法CDC(Change Detection after Classification),二是基于场景相似度的变化检测方法,包括CNN特征相似性度量方法CFSM(CNN Feature Similarity Measure)和基于相似性学习的变化检测方法SSCD(黄宇鸿和周维勋,2022)。图3给出了两种变化检测方法的基本流程,可以看出利用场景对相似性进行变化检测是一种更为简单的方法,能够避免基于分类的方法中的两次分类过程。图3基于分类和相似性的变化检测基本流程Fig. 3Flowchart of classification-based and similarity-based change detection10.11834/jrs.20243210.F3a1(a)基于分类的变化检测基本流程(a)Flowchart of classification-based change detection10.11834/jrs.20243210.F3a2(b)基于相似性的变化检测基本流程(b)Flowchart of similarity-based change detectionCDC方法包括两个:一是利用场景分类任务中训练的AlexNet、VGG19、GoogLeNet和ResNet101提取时相1和时相2土地利用场景的特征训练SVM进行变化检测,或利用训练的DenseNet、EfficientNet、SENet、ViT、SwinT直接分类进行变化检测,记为CDC_1;二是参考手工特征与视觉词袋模型BoVW(Bag of Visual Words)结合的思路(Wu等,2016),利用上述4个网络提取最后一个卷积层的特征,并采用BoVW对卷积层特征进行编码得到特征向量用于训练SVM进行变化检测,记为CDC_2,其中字典大小设置为128。CFSM方法同CDC_1方法,不同之处在于提取特征后通过欧氏距离计算两个时相场景的相似度进行变化检测。其中,DenseNet、EfficientNet、SENet、ViT、SwinT网络从分类层的前一层提取特征计算相似度。SSCD方法也是利用场景相似度进行变化检测,但与CFSM方法不同,SSCD是通过网络直接学习场景的相似度。此外,对于CFSM和SSCD两种相似性变化检测方法,本文采用相似度阈值搜索方法(黄宇鸿和周维勋,2022)获取相似度阈值,且相似度阈值通过验证集获取。3.3 MtSCCD_LUSC数据集实验结果表6给出了各网络对MtSCCD_LUSC的测试集A和B的分类结果,可以看出网络层较浅的AlexNet在测试集A和B上的效果最差,但简单增加网络深度并不能明显提升分类精度,例如ResNet18、ResNet50和ResNet101分类性能基本一致,且和VGG16、VGG19、GoogLeNet相比,也并没有表现出明显优势。ResNet之后提出的新型网络结构,如DenseNet和EfficientNet,取得了更好的分类结果,尤其是DenseNet,在两个测试集上的精度最高。此外,SENet、ViT和SwinT等3个网络均在特征提取时考虑了注意力,整体上分类效果比传统网络更好。若采用更优的预训练网络,有望进一步提升分类精度。10.11834/jrs.20243210.T006表6MtSCCD_LUSC数据集不同网络分类结果Table 6Scene classification results of different networks on MtSCCD_LUSC dataset方法总体精度/%测试集A测试集BAlexNet63.1762.37VGG1672.4169.77VGG1974.0370.17GoogLeNet70.0969.68ResNet1870.3770.27ResNet5071.6971.47ResNet10171.9671.93DenseNet76.9575.99EfficientNet73.2073.52SeNet74.7674.25ViT71.8169.59SwinT76.7472.61注: 表中加粗数值表示最好结果。为了进一步分析MtSCCD_LUSC数据集的分类结果,选择AlexNet、VGG19、GoogLeNet、ResNet101、DenseNet、EfficientNet、SENet、SwinT绘制了在测试集A和B上分类结果的混淆矩阵(行表示真实结果,列表示分类结果,方格颜色越深表示数值越大),分别如图4和图5所示。图4、图5中AL表示农业用地、BL表示裸地、EL表示教育用地、GS表示绿地、IL表示工业用地、PSCL表示公商用地、RL表示居住用地、TL表示交通用地、WB表示水体、WL表示林地。由混淆矩阵可知,公商用地与工业用地、居住用地以及交通用地混淆严重,从而分类精度相对较低,这与土地利用场景的实际情况一致,即4种土地利用类型视觉上相似性较高,如图1所示。图4MtSCCD_LUSC测试集A各网络的分类结果混淆矩阵Fig. 4Confusion matrixes for each network on testing set A in MtSCCD_LUSC dataset10.11834/jrs.20243210.F4a1(a)AlexNet10.11834/jrs.20243210.F4a2(b)VGG1910.11834/jrs.20243210.F4a3(c)GoogLeNet10.11834/jrs.20243210.F4a4(d)ResNet10110.11834/jrs.20243210.F4a5(e)DenseNet10.11834/jrs.20243210.F4a6(f)EfficientNet10.11834/jrs.20243210.F4a7(g)SENet10.11834/jrs.20243210.F4a8(h)SwinT图5MtSCCD_LUSC测试集B各网络的分类结果混淆矩阵Fig. 5Confusion matrixes for each network on testing set B in MtSCCD_LUSC dataset10.11834/jrs.20243210.F5a1(a)AlexNet10.11834/jrs.20243210.F5a2(b)VGG1910.11834/jrs.20243210.F5a3(c)GoogLeNet10.11834/jrs.20243210.F5a4(d)ResNet10110.11834/jrs.20243210.F5a5(e)DenseNet10.11834/jrs.20243210.F5a6(f)EfficientNet10.11834/jrs.20243210.F5a7(g)SENet10.11834/jrs.20243210.F5a8(h)SwinT3.4 MtSCCD_LUCD数据集实验结果表7给出了传统分类后检测方法(CDC_1和CDC_2)和基于相似度的变化检测方法(CFSM和SSCD)对MtSCCD_LUCD数据的变化检测结果。由表7中结果可知,对于测试集A和B,基于相似度的变化检测方法优于传统的基于分类的变化检测方法。这是因为基于分类的变化检测方法需要对两个时相的场景各做一次分类,从而导致最终的变化检测结果受两次分类的影响较大。与之相反,基于相似度的变化检测利用两个时相场景的相似度阈值判断场景是否发生变化,避免了两次分类带来的误差累积,从而能够得到更好的变化检测结果。此外,对于两种相似度变化检测方法,CFSM(SwinT)的总体精度和Kappa系数均高于SSCD方法,尤其是显著提升了SSCD方法的Kappa系数。然而,SSCD是更具潜力的变化检测方法,主要体现在SSCD虽然使用VGG16作为骨干网络提取特征,但总体精度和CFSM(SwinT)相差较小,因此,若以ResNet或Transformer作为骨干网络进行特征提取,SSCD的变化检测精度有望进一步提升。10.11834/jrs.20243210.T007表7MtSCCD_LUCD数据集不同方法场景变化检测结果Table 7Change detection results of different methods on MtSCCD_LUCD dataset方法网络测试集A测试集B阈值OAKappaOAKappaCDC_1AlexNet0.61220.24940.63040.2357—VGG190.62680.25080.65570.2633—GoogLeNet0.63270.26230.63670.2320—ResNet1010.67880.32090.69930.3233—DenseNet0.76370.74640.77780.7640—EfficientNet0.73630.71550.75130.7345—SENet0.74200.72210.74520.7275—SwinT0.77590.45880.75960.4116—ViT0.60040.21740.65860.2529—CDC_2AlexNet0.68810.27800.68120.3039—VGG190.73020.38120.74950.3890—GoogLeNet0.69580.30020.64790.2688—ResNet1010.66850.27900.63290.2644—CFSMAlexNet0.78080.23130.82480.36870.3428VGG190.76740.16690.79660.24750.3461GoogLeNet0.80620.36610.78610.27470.3567ResNet1010.86200.45160.84690.37070.2847DenseNet0.81630.81630.82510.82510.5072EfficientNet0.81630.81630.82640.82640.4525SENet0.83220.82660.85560.85150.5063SwinT0.87750.87350.88200.87740.5191ViT0.81630.81630.82640.81640.7765SSCD0.85330.52020.81960.46750.5159注: 表中加粗数值表示各评价指标的最好结果。为了直观分析各方法的检测效果,表8给出了MtSCCD_LUCD数据集部分检测实例。可以看出,对于同一网络,基于相似度方法的检测效果优于传统的基于分类的检测方法。10.11834/jrs.20243210.T008表8MtSCCD_LUCD数据集变化检测实例Table 8Change detection examples of MtSCCD_LUCD dataset数据变化检测方法时相1时相2真值CDC_1(DenseNet)CDC_1(SwinT)CFSM(DenseNet)CFSM(SwinT)SSCD测试集A未变化×√√×√农业用地农业用地未变化××√√√绿地绿地变化√×√×√工业用地裸地变化√√√×√农业用地裸地测试集B未变化√×√√√裸地裸地未变化××√√√教育用地教育用地变化√√√×√裸地农业用地变化√√×√√裸地教育用地注: 表中“√”和“×”分别表示变化检测结果正确和错误。4 结论本文利用中国5个城市中心区域的高分影像,构建了目前规模最大的场景分类与变化检测数据集MtSCCD。该数据集包括MtSCCD_LUSC和MtSCCD_LUCD两个子数据集,两个子数据集均包含10种土地利用类型,共65548幅图像。基于上述两个子数据集,本文评估了多个深度学习网络的场景分类与变化检测效果,为相关研究人员提供了重要参考。最后,希望本文构建的MtSCCD数据集能够促进土地利用类型识别与监测领域的研究进展。