Processing math: 100%
 注册 登录 English Version
遥感智能解译 | 浏览量 : 0 下载量: 547 CSCD: 0 更多指标
  • 导出

  • 分享

  • 收藏

  • 专辑

    • 生成式对抗网络的高光谱遥感图像分类方法研究

    • Research on classification method of hyperspectral remote sensing image based on Generative Adversarial Network

    • 张健

      12

      保文星

      1
    • 2022年26卷第2期 页码:416-430   

      纸质出版日期: 2022-02-07

    • DOI: 10.11834/jrs.20219192     

    扫 描 看 全 文

  • 引用

    阅读全文PDF

  • 张健,保文星.2022.生成式对抗网络的高光谱遥感图像分类方法研究.遥感学报,26(2): 416-430 DOI: 10.11834/jrs.20219192.
    Zhang J and Bao W X. 2022. Research on classification method of hyperspectral remote sensing image based on Generative Adversarial Network. National Remote Sensing Bulletin, 26(2):416-430 DOI: 10.11834/jrs.20219192.
  •  
  •  
    论文导航

    摘要

    针对基于深度学习的分类模型在训练样本较少时所遭受的潜在过拟合问题,提出一种具备过拟合抑制的生成式对抗网络分类算法,并应用于高光谱图像分类。该算法在每次迭代时,首先,依据训练样本的标签信息使判别器网络拟合训练样本的数据分布;然后对训练样本的高维特征进行均值最小化,该过程会重新更新判别器网络参数,减小参数的值和方差,以抑制过拟合;最后,将本算法应用于针对高光谱图像所设计的光谱空间分类模型进行分类。实验结果表明,在标准数据集Indian Pines和Pavia University中随机选取1%标记样本进行训练,总体分类精度分别达到了89.61%和98.79%,相比于其他现有算法有明显的提高,较表现最好的分类方法,总体分类精度分别提升了5.17%和1.38%。在Indian Pines数据集取1%标记样本,Pavia University数据集取0.1%标记样本的情况下,本文算法对过拟合的抑制效果优于几种常用的过拟合抑制算法,较表现最好的Dropout算法,总体分类精度分别提升了5.60%和3.20%。

    Abstract

    Deep learning has strong learning ability and has become a widely studied method in the hyperspectral image classification community. However, the deep learning-based classification model requires a large number of training samples to train a good model. Overfitting will occur when the training sample is small. The accuracy of the model on the test set is lower than the accuracy on the training set. Researchers have proposed overfitting suppression methods such as weight decay and dropout to suppress overfitting. However, these methods need to work in a specific environment and have limited suppression effect on overfitting. Thus, this study proposes an overfitting suppression algorithm based on generative adversarial networks to suppress the overfitting phenomenon of the model.

    First, a spatial neighborhood block for the standard dataset is constructed, and the dataset is divided into labeled, unlabeled, and test samples. Then, the labeled and unlabeled samples are sent to the generative adversarial networks for training. During input, the pixels in the neighborhood block are independently fed into the fully connected network discriminator to extract the spectral features of each pixel. Finally, the spectral features of each pixel are fused by the average pooling, and they connected to the output layer to obtain the classification result. The overfitting is caused by the large value and variance of the network parameters. Thus, the large parameter values enable the model to fit more samples. Therefore, the network is first fitted to the data by labeled samples in each iteration, and then, the optimizer is used to minimize the mean of the high-dimensional features. This process will re-update the network parameters, reduce the value and variance of the parameters, and thus suppress the overfitting.

    The algorithm was applied to two standard datasets, namely, Indian Pines and Pavia University datasets. The 1% labeled samples were randomly selected for training. The overall classification accuracy rates were 89.61% and 98.79%, which were better than those of several algorithms. Compared with several commonly used overfitting suppression methods such as batch normalization, L2 regularization, and dropout, the proposed overfitting suppression algorithm obtains 5.60% and 3.20% higher results on randomly selected 1% labeled samples from the Indian Pines dataset and randomly selected 0.1% labeled samples from Pavia University dataset.

    The model of generative adversarial networks designed for the characteristics of hyperspectral data can fully utilize the spectral and spatial features of hyperspectral images. The proposed overfitting suppression algorithm can significantly improve the classification performance of the model. However, the overfitting suppression effect of the algorithm is not obvious when the number of labeled samples is large. Thus, further research is needed.

    关键词

    遥感; 高光谱图像分类; 小样本; 过拟合; 生成式对抗网络; 光谱空间特征; 特征提取

    Keywords

    remote sensing; hyperspectral image classification; small training samples; overfitting; generative adversarial network; spectral-spatial feature; feature extraction

    1 引言

    高光谱图像(HSI)通常包含数百个连续波段,为区分地物类别提供了可靠的依据(

    Qureshi等,2019)。HSI分类是许多高光谱遥感应用的基础(杜培军 等,2016),已广泛应用于植被研究(Demarez,1999),精准农业(Teke等,2013),大气环境监测(Yuen和Richardson,2010)等多个领域。

    在过去的几十年中,国内外学者提出了大量的HSI分类方法。如基于支持向量机(SVM)的分类方法(

    Camps-Valls等,2006),基于结构化字典的分类方法SADL (Soltani-Farani等,2015),基于随机森林的分类方法CK-CSRF (Liu等,2017),基于稀疏表示的HSI分类方法KSPCK (Chen等,2013)等。近年来,随着GPU在深度学习领域的广泛应用以及GPU性能的不断提升,深度学习得到飞速发展,并在语音识别,自然语言处理和计算机视觉等众多机器学习任务中取得了令人瞩目的成就(Krizhevsky等,2012)。Chen等(2014a)首次将深度学习应用于HSI分类。深度学习可以利用GPU强大的运算能力提取最有利于分类的光谱特征。目前已有诸多基于深度学习的HSI分类方法,如Zhong等(2018)提出的基于ResNet的SSRN,Pan等(2017)提出的R-VCANet,Chen等(2016c)提出的3D CNN,Chen等(2017)提出的Gabor-CNN以及Zhao和Du(2016)提出的MCNN等。这些方法通过设计不同的网络结构试图提取更加精准的分类特征,一般都包括多个非线性隐藏层,使得它们具有强大的表征能力,可以学习输入和输出之间非常复杂的关系。然而,对于有限的训练样本,这种复杂的关系是采样噪声的结果,它们存在于训练样本但不存在于真实的测试数据中,这就导致了过拟合。而HSI标签获取成本高,标记样本较少,研究如何在少量训练样本的情况下抑制过拟合,进而提升分类精度具有重要意义(崔宾阁 等,2017)。

    目前,抑制过拟合的方法有数据集扩增,提前停止,集成学习,批量归一化(Batch Normalization (BN),L2正则化,Dropout等。数据集扩增后可以利用更多的规则来约束模型,使模型更接近于数据的真实分布,然而在实际应用中高光谱遥感图像标签获取成本高,标记样本较少,数据集扩增方法并不可行。提前停止通过设置约束条件,使网络在测试集准确率不再提升或测试集损失不再降低时停止训练,可以防止由于训练次数过多导致模型过拟合(

    Zur等,2009),该方法没有从本质上提升模型的分类性能。集成学习将多个分类器通过某种策略组合起来,然后对每个基分类器的预测结果进行投票以确定最终类别,通常可获得比单一分类器更加优越的泛化性能(Giacinto等,2000),但是集成学习没有研究单个分类器的过拟合问题。批量正则化在神经网络的每层之间加入将激活值调整成标准正态分布的正则化层,可以通过调整和缩放激活值来标准化输入层,达到平滑目标函数以抑制过拟合的目的(Ioffe和Szegedy,2015),但是当一个批次中样本较少时,批量正则化的有效性就会降低(Ioffe,2017),而高光谱遥感图像样本较少,批量正则化难以充分发挥作用。L2正则化在损失函数中加入惩罚项,防止参数过大,使模型泛化能力更强(Burden和Winkler,2008),但L2正则化对参数的约束不依赖于输入数据,对过拟合的抑制效果存在局限性(Cogswell等,2016)。Dropout在训练过程中,通过随机丢弃神经元来模拟具有大量不同网络结构的单一模型,可以有效抑制单一模型过拟合的问题,但实验过程中需要设置的参数较多,而参数的调节又与具体的数据集和网络模型有关,实际应用中Dropout难以达到理想的效果(Srivastava等,2014)。由此可见,上述方法虽然有效抑制了过拟合,但都存在一定的局限性,过拟合仍然是导致当前分类模型泛化能力较弱的主要原因之一。

    Goodfellow等(2014)提出一种新的深度学习模型:生成式对抗网络(GAN),并迅速成为各大领域研究的热点,随后衍生出针对不同任务的改进GAN,如Chen等(2016b)提出的InfoGAN,Mao等(2017)提出的LSGAN,Arjovsky等(2017)提出的WGAN等。GAN通常用于生成,如超分辨率任务,语义分割等。Salimans等(2016)提出了一种基于GAN的半监督分类方法,为GAN在分类领域的应用提供了一种新的思路。目前,已经提出了多种基于GAN的HSI分类方法,Zhan等(2018)首次将GAN应用于HSI分类,提出了HSGAN分类模型,随后Zhu等(2018)提出了基于光谱特征的分类方法1D-GAN以及基于光谱空间特征的分类方法3D-GAN,Zhong和Li(2018)提出了基于GAN和概率图模型的分类方法SS-GAN。这些方法取得了很好的分类效果,但都是通过判别器和生成器的对抗来增强判别器表征数据分布的能力,对抗依据的是无标记样本和伪样本,并没有从标记样本的角度来解决过拟合问题,而过拟合时网络拟合的是标记样本,优化网络对标记样本的拟合效果能够更加有效地抑制过拟合,提升分类精度。

    本文受对抗思想的启发,提出一种基于GAN的高维特征均值最小化(HFAM)过拟合抑制算法。利用优化函数对神经网络输出层前一层特征的均值进行最小化,以减小网络参数。较小的网络参数能够有效抑制过拟合(

    Cogswell等,2016)。该算法在GAN判别器每次迭代训练样本的过程中,首先依据标签信息使判别器网络拟合标记样本的数据分布,然后利用优化器对标记样本的高维特征均值进行最小化处理,该过程会重新更新网络参数,减小参数的值和方差,防止过拟合。最终,通过合理设置拟合和对抗拟合过程的学习率,判别器会达到最优的拟合效果。

    2 本文算法

    2.1 算法整体框架

    大量研究表明,GAN能够很好地适用于分类任务。本文针对HSI的特点设计了一种基于GAN的HSI分类模型。算法框架如图1所示,首先在标准数据集的有标记像元中按比例选取训练样本和测试样本,并将训练样本拆分为标记样本和无标记样本。然后对所有样本构造空间邻域块,并将标记样本和无标记样本输入所设计的分类模型进行训练,使用测试样本进行测试。训练过程中,判别器将标记样本映射到正确的类,将无标记样本判断为真,将生成器生成的伪样本判断为假,通过判别器和生成器的不断对抗,增强判别器的判别能力。每次迭代过程中,在判别器通过标记样本的标签信息更新判别器网络参数后,利用HFAM再次更新网络参数,以抑制当前批次标记样本的拟合效果,防止过拟合。最后当测试样本的准确率不再提升时停止训练,用训练好的模型对HSI进行分类,得到分类结果。

    fig

    图1  本文算法框架

    Fig.1  Algorithm framework

    icon 下载:  原图 | 高精图 | 低精图

    2.2 判别器网络结构

    HSI通常包含数百个波段,其中某些波段可能会受噪声干扰,影响分类精度(

    张康 等,2018)。人工剔除噪声工作量较大,且易受主观经验影响。全连接网络可以连接HSI的每一个波段,通过网络自主学习每个波段的权重,从而减少异常波段的干扰。另外,HSI中存在大量同质区域,同一区域中的像元极有可能是同一类地物(Wu等,2016)。合理利用空间特征可以在有限训练样本的情况下提升分类准确率。基于此,本文设计了一种简单高效的判别器网络结构,有效利用HSI的光谱和空间特征。判别器网络结构如图2所示,首先将三维邻域块数据(k×k×b)按像元拆分成k2个一维向量(1×b),其中b为HSI的波段数量,k2为邻域块中像元的个数,然后将每个一维向量(1×b)分别独立输入三层全连接网络(每层神经元个数分别是1024,1024,512),提取每个像元的光谱特征,再将特征数据(1×512,k2)转换为(k×k×512),用平均池化进行特征融合,得到(1×512)的一维特征向量,最后连接到输出层得到分类结果。

    fig

    图2  判别器网络结构

    Fig.2  Discriminator network structure

    icon 下载:  原图 | 高精图 | 低精图

    2.3 GAN分类算法

    GAN包括一个判别器D和一个生成器GD用于判别数据是否来自真实数据分布,G用于生成尽可能真实的数据去欺骗D,在理想状态下,G可以生成判别器无法判断真假的数据。该过程可以表示为

    minGmaxDV(D,G)=𝔼x~pdata(x)(log D(x))+𝔼z~pz(z)(log(1-D(G(z)))) (1)

    式中,x为真实数据,Pdata(x)x的概率分布,D(x)Dx判断为真的概率,z为噪声数据,P(z)z的概率分布,D(G(z))D将伪数据G(z)判断为真的概率,V(D,G)为损失函数。

    将GAN应用于分类任务中,可以使用任何标准的深度学习分类模型,只需将G生成的伪样本添加到训练样本中,并用y=K+1标记,相应地增加判别器的输出维数KK+1。对于未标记样本,最大化log pmodel(y<K+1| x)使其对应于K类真实数据之一。用于训练GAN的损失函数为

    L=Lsupervised+Lunsupervised (2)
    Lsupervised=𝔼x,y~pdata(x,y)log pmodel(y | x,y<K+1) (3)
    Lunsupervised=-𝔼x~pdata(x)log(1-pmodel(y=K+1| x))-𝔼x~𝔾log pmodel(y=K+1| x) (4)

    式中,L为总损失,Lsupervised为有监督分类的损失,Lunsupervised为无监督分类的损失。pmodcl(y | x,y<K+1)为将x分到正确类的概率,pmodel(y=K+1 | x)为将x判断为假的概率。

    2.4 抑制过拟合

    过拟合是导致基于深度学习的分类模型准确率难以提升的主要原因之一(

    Srivastava等,2014)。存在过拟合的原因是选择模型的标准与判断模型是否合适的标准不同。例如,可以通过最大化训练数据集的分类性能来选择模型,但其适用性取决于该模型在测试数据上的表现能力,当模型开始“记忆”训练数据而不是“学习”它的分布时,就会发生过拟合。

    过拟合时拟合函数需要顾及每一个样本,越复杂的模型,其参数受噪声的影响越严重,当模型复杂性增加时,通常偏差减小,方差增加(

    Lever等,2016)。在对神经网络模型进行拟合时,通常利用随机梯度下降和训练数据集来学习网络参数,网络训练时间越长,参数与训练数据的匹配度越高,对训练数据的拟合也越好,与此同时,为了适应训练数据中单个数据点的突然变化、不连贯或其他高维现象,网络参数将增大(Hammer,2001)。减小参数的值和方差可以缓解拟合函数在小范围的波动,达到抑制过拟合的目的(Burnham和Anderson,2002),但参数过小又会导致拟合函数无法有效拟合数据的分布。依据奥卡姆剃刀法则,需要寻找一个最简单的模型(网络参数最小),使网络的拟合效果达到最优。

    基于此,本文受对抗思想的启发,提出一种新的过拟合抑制算法HFAM,判别器网络一方面根据标记样本的标签信息拟合数据的分布;另一方面通过对标记样本的高维特征均值最小化并反向更新网络来减小网络参数的值和方差,以抑制判别器的拟合效果,抑制过拟合的过程为

    θ*=argminθ1NNi=1(average(f(xi;θ))) (5)

    式中,xi为训练样本,θ为网络参数,N为一次迭代的样本数量,f为模型的高维输出,本算法中代表的是平均池化层的输出,是一个一维特征向量。在本文提出的模型中,3个全连接层都使用ReLU激活函数,每一层的输出都是非负数,故f也为非负数。最小化f中特征的平均值,可以使网络参数减小,抑制拟合过程,同时可以减小网络参数的方差,使参数更加平滑。平滑的网络参数会充分考虑每个波段的特征,不太依赖某些局部特征,泛化能力更强。抑制过拟合算法流程为

    输入:训练样本Xtrain={x1train,x2train,,xntrain},训练样本标签Ytrain={y1train,y2train,,yntrain}

    测试样本Xtest={x1test,x2test,,xmtest},测试样本标签Ytest={y1test,y2test,,ymtest}

    每次迭代的样本数量 k.

    过程:  

    计算完成一轮训练所需的迭代次数l=n/k

    repeat

    for i=1,2,,l do

    Xtrain中选取一次迭代的训练样本{x1train,x2train,,xktrain}

    for j=1,2,,k do

    计算xjtrain的输出f1(xjtrain;θ0)与标签yjtrain的损失Lij(yjtrain,f1(xjtrain;θ0))

    end for

    计算当前迭代样本的平均损失Li=1kkj=1(Lij)

    通过优化函数最小化Li,得到参数θ1=argminθ0(Li)

    for j=1,2,,k do

    xjtrain输入网络得到xjtrain的高维特征hij=f2(xjtrain;θ1)

    计算xjtrain高维特征的平均值average(hij)

    end for

    计算当前迭代样本高维特征的平均值hi=1kkj=1average(hij)

    通过优化函数最小化hi得到新的参数θ=argminθ1(hi)

    end for

    将测试样本Xtest送入网络得到Ypred,根据Ytest计算测试样本的准确率

    until测试样本的准确率不再提升

    输出:训练好的分类模型

    3 实验及结果分析

    3.1 数据集

    本文使用的是两个具有不同光谱和空间分辨率的真实高光谱遥感数据集Indian Pines和Pavia University。

    (1)Indian Pines数据集是最早用于HSI分类的测试数据,由AVIRIS传感器1992年在印第安纳州西北部农业区成像并截取145×145大小的图像进行标注得到的印度松树数据集。波长范围为0.4—2.5 μm,空间分辨率为20 m,共包含220个波段,但第104—108、150—163和第220个波段受水汽吸收的影响信噪比较低,去除这20个波段之后,保留了200个波段。该数据集共有21025个像元,其中10249个像元是有标签的,有标签像元共包括16种地物类别,最多的一类有2455个像元,最少的一类只有20个像元。Indian Pines数据集假彩色图片,真实地物类别图及各类样本数量如图3所示。

    fig
    icon 下载:  | 高精图 | 低精图

    图3  Indian Pines数据集

    Fig.3  Indian Pines dataset

    (2)Pavia University数据集是由意大利帕维亚大学的ROSIS传感器2003年在意大利帕维亚城市上空成像并截取610×340大小的图像进行标注得到的数据集。波长范围为0.43—0.86 μm,空间分辨率为1.3 m,共包含115个波段,在去掉12个受噪声影响的波段后,保留了103个波段。该数据集共有207400个像元,但其中只有42776个像元是有标签的,有标签像元共包含9种地物类别,最多的一类有18649个像元,最少的一类有947个像元。Pavia University数据集假彩色图片,真实地物类别图及各类样本数量如图4所示。

    fig
    icon 下载:  | 高精图 | 低精图

    图4  Pavia University数据集

    Fig.4  Pavia University dataset

    3.2 实验设置

    本实验在配备Intel i7 2600k CPU、8 G内存和Nvidia GTX 1080 GPU的PC机上运行。使用Window 7×64操作系统,Spyder开发环境,Tensorflow框架,Python编程语言。判别器网络主要包括3个全连接层和1个平均池化层,生成器网络主要包括两个反卷积层和3个卷积层。判别器和生成器都使用Adam优化器,学习率为0.0002,batch size为16。所有实验都按比例选取训练样本,并且无标记训练样本数量均为有标记训练样本的5倍,其余为测试样本。由于选取的训练样本较少,使用不同训练样本得到的实验结果差异较大,所有实验结果均为随机选取训练样本并运行10次的平均值。

    3.3 与其他分类算法对比

    为了测试本文算法的分类性能,两个数据集每类都选取1%标记样本(至少一个),与基于SVM的分类方法(

    Camps-Valls等,2006),基于内核的极限学习机KELM(Chen等,2014a),最近正则化联合稀疏表示NRJSR(Chen等,2016a),基于结构化字典的SADL(Soltani-Farani等,2015),基于卷积神经网络的3D CNNs(Chen等,2016c)、MCMs+2DCNN (He等,2019)、MCNN(Zhao和Du,2016)进行比较。使用总体分类精度(OA)、平均分类精度(AA)、Kappa系数作为评价指标。Indian Pines数据集的分类准确率如表1所示,Pavia University数据集的分类准确率如表2所示。从表1可以看出,16类地物中有9类地物的分类准确率高于其他几种分类方法,从表2可以看出,9类地物中有5类地物的分类准确率高于其他几种分类方法,并且两个数据集的总体分类精度、平均分类精度及Kappa系数都高于其他几种分类方法。与分类效果最好的MCNN进行比较,Indian Pines数据集总体分类精度提升了5.17%,Pavia University数据集总体分类精度提升1.38%,说明本文算法在训练样本较少的情况下能够得到理想的分类结果。

    表1  Indian Pines数据集不同算法的分类准确率
    Table 1  Classification accuracies of different methods for Indian Pines dataset /%
    类别SVMKELMNRJSRSADL3D CNNsMCMs+2DCNNMCNN本文算法
    1 7.50 64.81 75.88 40.57 32.61 71.11 71.11 63.64
    2 58.03 66.32 64.13 63.81 74.37 76.23 85.49 92.72
    3 26.34 50.11 47.23 58.84 74.58 77.08 87.20 88.81
    4 1.77 33.46 45.58 56.10 35.44 94.36 71.74 70.15
    5 61.42 67.74 73.01 80.18 69.36 65.82 80.81 95.60
    6 90.46 90.42 97.05 90.09 85.62 88.39 90.25 95.97
    7 14.58 58.33 70.87 99.60 35.71 100 92.59 71.43
    8 96.01 97.00 95.08 99.13 91.00 80.93 39.87 100
    9 22.78 90.56 22.35 96.32 95.00 90.53 73.68 100
    10 19.89 53.75 44.73 64.67 66.46 68.21 76.56 82.73
    11 87.70 75.34 77.57 75.43 84.93 86.55 92.61 86.65
    12 18.73 52.01 43.49 48.30 57.50 42.25 75.13 90.12
    13 89.04 99.43 98.95 98.90 95.61 86.44 84.42 87.23
    14 96.61 93.15 97.55 90.93 92.41 90.37 96.09 99.58
    15 16.17 29.60 56.99 59.87 69.43 65.29 81.55 84.44
    16 75.91 80.32 94.35 85.96 93.55 71.30 64.44 77.27
    OA 63.35 70.48 71.68 73.70 78.02 78.62 84.44 89.61
    AA 48.94 68.90 69.05 75.54 72.10 75.60 78.97 86.65
    k×100 56.64 66.14 67.37 70.06 74.85 74.85 82.19 88.14

    注:  粗体为最好的结果。

    icon 下载:  导出CSV icon 下载:  下载表格图片
    表2  Pavia University数据集不同算法的分类准确率
    Table 2  Classification accuracies of different methods for Pavia University dataset /%
    类别SVMKELMNRJSRSADL3D CNNsMCMs+2DCNNMCNN本文算法
    1 86.08 83.01 62.63 89.78 91.66 94.88 95.95 98.95
    2 96.10 96.78 98.24 96.89 98.86 98.93 99.78 99.55
    3 59.03 62.63 76.85 71.36 82.99 92.10 96.01 94.16
    4 83.32 84.36 77.26 93.17 89.72 77.16 91.67 99.83
    5 98.19 98.81 99.96 99.73 98.59 98.33 99.85 100
    6 58.15 55.91 79.23 89.39 88.77 99.73 97.91 99.00
    7 55.53 69.61 92.57 73.02 64.74 99.35 94.47 100
    8 83.24 82.64 88.75 73.86 91.06 98.15 97.51 94.98
    9 95.45 92.15 54.57 99.89 84.48 42.13 80.17 100
    OA 85.03 85.18 86.03 90.82 93.07 95.17 97.41 98.79
    AA 79.45 80.66 81.12 87.45 87.87 88.97 94.91 98.50
    k×100 79.77 79.95 81.31 87.83 90.75 93.60 96.56 98.40

    注:  粗体为最好的结果。

    icon 下载:  导出CSV icon 下载:  下载表格图片

    3.4 鲁棒性验证实验

    为了验证本文算法的鲁棒性,用两个具有不同波段数目,不同光谱分辨率和空间分辨率的标准数据集进行实验。Indian Pines数据集分别随机选取0.5%、1%、2%、4%训练样本。由于Pavia University数据集样本数量多,且光谱质量较高,Pavia University数据集分别随机选取0.1%、0.4%、0.7%、1%训练样本。Indian Pines数据集总体分类精度分别为81.00%、89.61%、95.42%、97.64%,Pavia University数据集总体分类精度分别为88.53%、96.75%、97.54%、98.79%,均达到了理想水平。Indian Pines数据集取不同比例训练样本的分类准确率如图5所示,Pavia University数据集取不同比例训练样本的分类准确率如图6所示。从图6中可以看出,两个数据集的总体分类精度,平均分类精度以及Kappa系数随着标记样本数量的增加都不断提升,说明本文算法在不同数据集和不同数量训练样本的情况下,均能够获得稳定的分类结果。Indian Pines分类结果如图7所示,Pavia University分类结果如图8所示。图8中上半部分为对有标签像元的分类结果,下半部分为对整副图像的分类结果。从图中可以看出,随着训练样本数量的增加,错分像元都逐步减少。

    fig

    图5  Indian Pines数据集分类准确率

    Fig.5  Classification accuracies for Indian Pines dataset

    icon 下载:  原图 | 高精图 | 低精图
    fig

    图6  Pavia University数据集分类准确率

    Fig.6  Classification accuracies for Pavia University dataset

    icon 下载:  原图 | 高精图 | 低精图
    fig
    icon 下载:  | 高精图 | 低精图

    图7  Indian Pines数据集不同比例标记样本分类结果图

    Fig.7  Classification maps provided by different proportions of labeled samples on the Indian Pines dataset

    fig
    icon 下载:  | 高精图 | 低精图

    图8  Pavia University数据集不同比例标记样本分类结果图

    Fig.8  Classification maps provided by different proportions of labeled samples on the Pavia University dataset

    3.5 空间特征测试实验

    HSI的空间特征表示某个像元与其周围像元很有可能是同一类地物,因此,合理利用空间特征将有助于提升分类准确率。为了验证本文所提出的模型对空间特征提取的有效性,两个数据集都取1%标记样本,采用不同大小的邻域块分别进行实验。Indian Pines数据集分类准确率如图9所示,Pavia University数据集分类准确率如图10所示。从图10中可以看出在引入空间特征后,随着邻域块大小的增加,两个数据集的分类准确率都先上升后下降。Indian Pines数据集在邻域块选择7×7时准确率达到最高,比邻域块选择1×1,即未使用空间特征时,总体分类精度提升了32.23%,平均分类精度提升了30.91%,Kappa系数提升了36.89%。Pavia University数据集在邻域块选择9×9时准确率达到最高,比邻域块选择1×1,即未使用空间特征时,总体分类精度提升了11.82%,平均分类精度提升了13.84%,Kappa系数提升了15.82%。实验结果充分验证了该模型对HSI空间特征提取的有效性。分类准确率先上升后下降的原因是扩充邻域块后可以用更多的特征来表征地物,但邻域块越大,邻域块中异类像元的数量可能越多,异类像元会干扰邻域块表征地物的能力。

    fig

    图9  Indian Pines数据集分类准确率

    Fig.9  Classification accuracies for Indian Pines dataset

    icon 下载:  原图 | 高精图 | 低精图
    fig

    图10  Pavia University数据集分类准确率

    Fig.10  Classification accuracies for Pavia University dataset

    icon 下载:  原图 | 高精图 | 低精图

    3.6 过拟合抑制实验

    在少量训练样本的情况下,基于深度学习的分类模型通常会遭受潜在的过拟合影响,导致模型在训练集上的分类准确率很高,而在测试集上的分类准确率不够理想。合理减小参数的值和方差可以有效缓解过拟合(

    Ioffe,2017)。在深度学习分类模型中通过使权重趋近于0来减小参数,达到抑制过拟合的目的(Cogswell等,2016)。为了验证本文过拟合抑制算法HFAM对参数约束的有效性,在GAN分类模型中分别使用BN、L2正则化、Dropout与本文过拟合抑制算法HFAM进行比较。通过TensorBoard可视化工具对Indian Pines数据集训练过程中模型参数的变化过程进行可视化,用直方图的形式显示每次迭代后参数的分布情况。不同方法参数的变化情况如图11所示,图中横坐标为参数的值,纵坐标为迭代次数,第1列为激活值的变化情况,第2列为偏置的变化情况,第3列为权重的变化情况。从图中可以看出,未使用过拟合抑制方法的权重分布在-0.02—0.14,使用BN后权重分布在-0.03—0.09,使用L2后权重分布在-0.03—0.07,使用Dropout后权重分布在-0.025—0.045,使用HFAM后权重分布在-0.012—0.016,权重分布的范围越来越窄,说明不同的过拟合抑制方法都使权重一定程度的向0靠近,而本文算法效果更加明显。同时,本文给出了偏置和激活值的变化情况,从图中可以看出BN、L2正则化、Dropout没有对偏置进行约束,HFAM使偏置趋近于0,激活值取决于权重和偏置,在权重减小后激活值也同时减小,并且由于使用ReLU激活函数,激活值非负。

    fig
    icon 下载:  | 高精图 | 低精图

    图11  不同方法参数的变化情况

    Fig.11  Variation of parameters in different methods

    为了验证所提出过拟合抑制算法HFAM的有效性,Indian Pines数据集随机选取1%标记样本,Pavia University数据集随机选取0.1%标记样本,分别使用BN、L2正则化、Dropout以及HFAM进行过拟合抑制实验。Pavia University数据集分类准确率如表3所示,Indian Pines数据集分类准确率如表4所示,加粗数值代表各类最高分类准确率。从表3可以看出,Pavia University数据集使用GAN分类模型的总体分类精度为81.55%,在使用BN后准确率提升了1.99%,使用L2正则化后准确率提升了2.85%,使用Dropout后准确率提升了3.78%,使用HFAM算法后准确率提升了6.98%。从表4可以看出,Indian Pines数据集使用GAN分类模型的总体分类精度为79.92%,在使用BN后准确率提升了2.51%,使用L2正则化后准确率提升了3.30%,使用Dropout后准确率提升了4.09%,使用HFAM算法后准确率提升了9.69%。并且两个数据集中数量最少的地物分类准确率提升的最多,而数量较多的地物分类准确率提升的较少,充分说明HFAM算法在训练样本较少的情况下,能够有效抑制过拟合,提升分类准确率。Indian Pines和Pavia University数据集使用不同方法的准确率变化情况分别如图12图13所示,红点代表训练结束,也就是训练结束后模型的准确率。Pavia University和Indian Pines数据集分类结果分别如图14图15所示。

    表3  Pavia University数据集分类准确率
    Table 3  Classification accuracies for Pavia University dataset /%
    类别数量GANGAN+BNGAN+L2GAN+DropoutGAN + HFAM
    1 6631 86.15 87.32 88.79 89.82 88.62
    2 18649 94.73 94.72 92.97 90.65 95.60
    3 2099 73.63 73.09 71.26 74.30 87.94
    4 3064 71.75 66.39 80.31 76.89 87.75
    5 1345 100 100 100 100 100
    6 5029 60.72 61.33 63.93 70.38 68.40
    7 1330 62.09 72.22 70.12 72.33 90.46
    8 3682 85.06 86.06 77.84 80.90 84.42
    9 947 47.57 98.19 100 100 98.91
    OA 81.55 83.54 84.40 85.33 88.53
    AA 75.75 82.15 82.80 83.92 89.12
    k×100 76.33 78.74 19.65 80.67 85.00

    注:  粗体为最好的结果。

    icon 下载:  导出CSV icon 下载:  下载表格图片
    表4  Indian Pines数据集分类准确率
    Table 4  Classification accuracies for Indian Pines dataset /%
    类别数量GANGAN+BNGAN+L2GAN+DropoutGAN + HFAM
    1 46 42.86 66.67 70.00 70.00 63.64
    2 1428 75.35 74.83 74.82 77.57 92.72
    3 830 80.92 86.36 84.67 82.52 88.81
    4 237 57.58 49.25 50.00 57.14 70.15
    5 483 80.85 89.77 92.86 95.24 95.60
    6 730 94.56 97.18 55.56 94.48 95.97
    7 28 50.00 50.00 100 62.50 71.43
    8 478 93.88 98.94 98.93 100 100
    9 20 20.00 50.00 50.00 100 100
    10 972 69.58 78.85 74.17 75.55 82.73
    11 2455 87.39 84.62 88.59 85.92 86.65
    12 593 79.66 81.69 84.21 84.62 90.12
    13 205 84.44 77.35 78.85 93.18 87.23
    14 1265 96.81 99.52 99.54 99.54 99.58
    15 386 54.23 57.50 58.12 61.78 84.44
    16 93 60.00 75.00 89.47 85.71 77.27
    OA 79.92 82.43 83.22 84.01 89.61
    AA 70.51 76.09 77.84 82.86 86.65
    k×100 77.26 80.02 80.91 81.80 88.14

    注:  粗体为最好的结果。

    icon 下载:  导出CSV icon 下载:  下载表格图片
    fig
    icon 下载:  | 高精图 | 低精图

    图12  Indian Pines数据集准确率变化情况

    Fig.12  Variation of the accuracy of Indian Pines dataset

    fig
    icon 下载:  | 高精图 | 低精图

    图13  Pavia University数据集准确率变化情况

    Fig.13  Variation of the accuracy of Pavia University dataset

    fig
    icon 下载:  | 高精图 | 低精图

    图14  Pavia University数据集取0.1%标记样本不同方法的分类结果图

    Fig.14  Classification maps provided by different approaches with 0.1% labeled samples on the Pavia University dataset

    fig
    icon 下载:  | 高精图 | 低精图

    图15  Indian Pines数据集取1%标记样本不同方法的分类结果图

    Fig.15  Classification maps provided by different approaches with 1% labeled samples on the Indian Pines dataset

    4 结论

    本文通过分析深度学习模型产生过拟合的原因,利用对抗思想在过拟合和欠拟合之间寻找平衡点,解决了高光谱遥感图像在使用深度学习模型进行分类时,由于训练样本较少而导致分类准确率较低的问题。通过分析高光谱遥感图像的光谱特征和空间特征,设计了更加高效的网络结构。首先利用全连接网络提取邻域块中各个像元的光谱特征,然后用平均池化对空间特征进行融合,提高了特征提取的效率,减少了深度学习模型训练的时间。通过在两个不同数据集上进行的实验验证了本文所设计网络结构的高效性和鲁棒性,说明在设计深度学习网络结构时充分分析数据的特性是必要的。通过与其他过拟合抑制算法对比,验证了本文过拟合抑制算法的先进性,说明在网络模型拟合数据的过程中,利用对抗思想抑制拟合过程能够改善拟合效果,防止过度拟合。

    深度学习模型通常包含大量的参数,能够拟合复杂的输入特征,但是当训练样本较少时,无约束地拟合训练样本会导致过拟合现象严重,即使训练样本较多的情况下,过拟合现象也普遍存在。通常抑制过拟合的方法是减小参数的值,认为小的参数值能够使模型更加平滑,对输入数据的拟合效果更好。然而,真实数据的分布情况复杂多变,该方法对过拟合抑制的作用存在很大的局限性。并且,产生过拟合的原因不仅是模型参数的值较大,模型参数的方差较大也是导致过拟合的原因之一,只减小参数的值难以达到理想的效果。此外,该类方法没有针对输入数据的特征来抑制过拟合,对分布较为复杂的数据难以有效发挥作用。本文通过对模型高维特征均值最小化,并与拟合过程不断对抗,不仅合理减小了模型参数的值和方差,还充分考虑了输入数据的真实分布情况。在两个标准数据集Indian Pines和Pavia University上进行的实验表明,本文算法比目前表现最好的过拟合抑制算法,准确率分别提高了5.60%和3.20%。

    实验中发现本文算法在训练样本较多时对过拟合的抑制效果不够明显,并且在训练样本较少时,训练误差和测试误差相差还比较大。下一步工作将针对深度学习模型过拟合问题进行更加详细的理论研究,并在不同类型的数据集上进行实验,进一步提高高光谱遥感图像在少量训练样本情况下的分类准确率。

    参考文献(References)

    Arjovsky M, Chintala S and Bottou L. 2017. Wasserstein generative adversarial networks//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: PMLR: 214-223 [百度学术] 

    Burden F and Winkler D. 2008. Bayesian regularization of neural networks/ (/Livingstone D J, ed. Artificial Neural Networks. [s.l.]: Humana Press: 23-42) [DOI: 10.1007/978-1-60327-101-1_3] [百度学术] 

    Burnham K P and Anderson D R. 2002. Model Selection and Multimodel Inference. New York: Springer [DOI: 10.1007/b97636] [百度学术] 

    Camps-Valls G, Gomez-Chova L, Muñoz-Marí J, Vila-Francés J and Calpe-Maravilla J. 2006. Composite kernels for hyperspectral image classification. IEEE Geoscience and Remote Sensing Letters, 3(1): 93-97 [DOI: 10.1109/LGRS.2005.857031] [百度学术] 

    Chen C, Chen N and Peng J T. 2016a. Nearest regularized joint sparse representation for hyperspectral image classification. IEEE Geoscience and Remote Sensing Letters, 13(3): 424-428 [DOI: 10.1109/LGRS.2016.2517095] [百度学术] 

    Chen C, Li W, Su H J and Liu K. 2014a. Spectral-spatial classification of hyperspectral image based on kernel extreme learning machine. Remote Sensing, 6(6): 5795-5814 [DOI: 10.3390/rs6065795] [百度学术] 

    Chen X, Duan Y, Houthooft R, Schulman J, Sutskever I and Abbeel P. 2016b. Infogan: interpretable representation learning by information maximizing generative adversarial nets//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS: 2172-2180 [百度学术] 

    Chen Y, Nasrabadi N M and Tran T D. 2013. Hyperspectral image classification via kernel sparse representation. IEEE Transactions on Geoscience and Remote Sensing, 51(1): 217-231 [DOI: 10.1109/TGRS.2012.2201730] [百度学术] 

    Chen Y, Zhu L, Ghamisi P, Jia X P, Li G Y and Tang L. 2017. Hyperspectral images classification with Gabor filtering and convolutional neural network. IEEE Geoscience and Remote Sensing Letters, 14(12): 2355-2359 [DOI: 10.1109/LGRS.2017.2764915] [百度学术] 

    Chen Y S, Jiang H L, Li C Y, Jia X P and Ghamisi P. 2016c. Deep feature extraction and classification of hyperspectral images based on convolutional neural networks. IEEE Transactions on Geoscience and Remote Sensing, 54(10): 6232-6251 [DOI: 10.1109/TGRS.2016.2584107] [百度学术] 

    Chen Y S, Lin Z H, Zhao X, Wang G and Gu Y F. 2014b. Deep learning-based classification of hyperspectral data. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 7(6): 2094-2107 [DOI: 10.1109/JSTARS.2014.2329330] [百度学术] 

    Cogswell M, Ahmed F, Girshick R B, Zitnick L and Batra D. 2016. Reducing overfitting in deep networks by decorrelating representations//Proceedings of the 4th International Conference on Learning Representations. San Juan: ICLR [百度学术] 

    Cui B G, Ma X D and Xie X Y. 2017. Hyperspectral image de-noising and classification with small training samples. Journal of Remote Sensing, 21(5): 728-738 [百度学术] 

    崔宾阁, 马秀丹, 谢小云. 2017. 小样本的高光谱图像降噪与分类. 遥感学报, 21(5): 728-738 [DOI: 10.11834/jrs.20176239] [百度学术] 

    Demarez V. 1999. Seasonal variation of leaf chlorophyll content of a temperate forest. Inversion of the PROSPECT model. International Journal of Remote Sensing, 20(5): 879-894 [DOI: 10.1080/014311699212975] [百度学术] 

    Du P J, Xia J S, Xue Z H, Tan K, Su H J and Bao R. 2016. Review of hyperspectral remote sensing image classification. Journal of Remote Sensing, 20(2): 236-256 [百度学术] 

    杜培军, 夏俊士, 薛朝辉, 谭琨, 苏红军, 鲍蕊. 2016. 高光谱遥感影像分类研究进展. 遥感学报, 20(2): 236-256 [DOI: 10.11834/jrs.20165022] [百度学术] 

    Giacinto G, Roli F and Fumera G. 2000. Design of effective multiple classifier systems by clustering of classifiers//Proceedings of the 15th International Conference on Pattern Recognition. Barcelona, Spain: IEEE: 160-163 [DOI: 10.1109/ICPR.2000.906039] [百度学术] 

    Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS: 2672-2680 [百度学术] 

    Hammer B. 2001. Neural smithing—supervised learning in feedforward artificial neural networks. Pattern Analysis and Applications, 4(1): 73-74 [DOI: 10.1007/s100440170029] [百度学术] 

    He N J, Paoletti M E, Haut J M, Fang L Y, Li S T, Plaza A and Plaza J. 2019. Feature extraction with multiscale covariance maps for hyperspectral image classification. IEEE Transactions on Geoscience and Remote Sensing, 57(2): 755-769 [DOI: 10.1109/TGRS.2018.2860464] [百度学术] 

    Ioffe S. 2017. Batch renormalization: towards reducing minibatch dependence in batch-normalized models//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA: NIPS: 1945-1953 [百度学术] 

    Ioffe S and Szegedy C. 2015. Batch normalization: accelerating deep network training by reducing internal covariate shift//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ICML: 448-456 [百度学术] 

    Krizhevsky A, Sutskever I and Hinton G E. 2012. Imagenet classification with deep convolutional neural networks //Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS: 1097-1105 [百度学术] 

    Lever J, Krzywinski M and Altman N. 2016. Points of significance: model selection and overfitting. Nature Methods, 13(9): 703-704 [DOI: 10.1038/nmeth.3968] [百度学术] 

    Liu Z, Tang B, He X F, Qiu Q C and Liu F. 2017. Class-specific random forest with cross-correlation constraints for spectral-spatial hyperspectral image classification. IEEE Geoscience and Remote Sensing Letters, 14(2): 257-261 [DOI: 10.1109/LGRS.2016.2637561] [百度学术] 

    Mao X D, Li Q, Xie H R, Lau R Y K, Wang Z and Paul Smolley S. 2017. Least squares generative adversarial networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 2813-2821 [DOI: 10.1109/ICCV.2017.304] [百度学术] 

    Pan B, Shi Z W and Xu X. 2017. R-VCANet: a new deep-learning-based hyperspectral image classification method. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 10(5): 1975-1986 [DOI: 10.1109/JSTARS.2017.2655516] [百度学术] 

    Qureshi R, Uzair M, Khurshid K and Yan H. 2019. Hyperspectral document image processing: applications, challenges and future prospects. Pattern Recognition, 90: 12-22 [DOI: 10.1016/j.patcog.2019.01.026] [百度学术] 

    Salimans T, Goodfellow I, Zaremba W, Cheung V, Radford A and Chen X. 2016. Improved techniques for training GANs//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS: 2234-2242 [百度学术] 

    Soltani-Farani A, Rabiee H R and Hosseini S A. 2015. Spatial-aware dictionary learning for hyperspectral image classification. IEEE Transactions on Geoscience and Remote Sensing, 53(1): 527-541 [DOI: 10.1109/TGRS.2014.2325067] [百度学术] 

    Srivastava N, Hinton G, Krizhevsky A, Sutskever I and Salakhutdinov R. 2014. Dropout: a simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1): 1929-1958 [百度学术] 

    Teke M, Deveci H S, Haliloğlu O, Gürbüz S Z and Sakarya U. 2013. A short survey of hyperspectral remote sensing applications in agriculture//Proceedings of the 2013 6th International Conference on Recent Advances in Space Technologies. Istanbul, Turkey: IEEE: 171-176 [DOI: 10.1109/RAST.2013.6581194] [百度学术] 

    Wu B, Zhu Y, Huang X and Li J Y. 2016. Generalization of spectral fidelity with flexible measures for the sparse representation classification of hyperspectral images. International Journal of Applied Earth Observation and Geoinformation, 52: 275-283 [DOI: 10.1016/j.jag.2016.06.006] [百度学术] 

    Yuen P W and Richardson M. 2010. An introduction to hyperspectral imaging and its application for security, surveillance and target acquisition. The Imaging Science Journal, 58(5): 241-253 [DOI: 10.1179/174313110x12771950995716] [百度学术] 

    Zhan Y, Hu D, Wang Y T and Yu X C. 2018. Semisupervised hyperspectral image classification based on generative adversarial networks. IEEE Geoscience and Remote Sensing Letters, 15(2): 212-216 [DOI: 10.1109/LGRS.2017.2780890] [百度学术] 

    Zhang K, Hei B Q, Zhou Z and Li S Y. 2018. CNN with coefficient of variation-based dimensionality reduction for hyperspectral remote sensing images classification. Journal of Remote Sensing, 22(1): 87-96 [百度学术] 

    张康, 黑保琴, 周壮, 李盛阳. 2018. 变异系数降维的CNN高光谱遥感图像分类. 遥感学报, 22(1): 87-96 [DOI: 10.11834/jrs.20187075] [百度学术] 

    Zhao W Z and Du S H. 2016. Learning multiscale and deep representations for classifying remotely sensed imagery. ISPRS Journal of Photogrammetry and Remote Sensing, 113: 155-165 [DOI: 10.1016/j.isprsjprs.2016.01.004] [百度学术] 

    Zhong Z L and Li J. 2018. Generative adversarial networks and probabilistic graph models for hyperspectral image classification//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans: AAAI: 8191-8193 [百度学术] 

    Zhong Z L, Li J, Luo Z M and Chapman M. 2018. Spectral-spatial residual network for hyperspectral image classification: a 3-D deep learning framework. IEEE Transactions on Geoscience and Remote Sensing, 56(2): 847-858 [DOI: 10.1109/TGRS.2017.2755542] [百度学术] 

    Zhu L, Chen Y S, Ghamisi P and Benediktsson J A. 2018. Generative adversarial networks for hyperspectral image classification. IEEE Transactions on Geoscience and Remote Sensing, 56(9): 5046-5063 [DOI: 10.1109/TGRS.2018.2805286] [百度学术] 

    Zur R M, Jiang Y L, Pesce L L and Drukker K. 2009. Noise injection for training artificial neural networks: a comparison with weight decay and early stopping. Medical Physics, 36(10): 4810-4818 [DOI: 10.1118/1.3213517] [百度学术] 

    文章被引用时,请邮件提醒。
    提交

    相关作者

    暂无数据

    相关机构

    中国林业科学研究院资源信息研究所
    国家林业和草原局 林业遥感与信息技术重点实验室
    云南师范大学 地理学部
    中国矿业大学 信息与控制工程学院
    南京航空航天大学 计算机科学与技术学院
    0