Loading web-font TeX/Math/Italic
 注册 登录 English Version
技术方法 | 浏览量 : 859 下载量: 670 CSCD: 8 更多指标
  • 导出

  • 分享

  • 收藏

  • 专辑

    • 完全残差连接与多尺度特征融合遥感图像分割

    • Image segmentation models of remote sensing using full residual connection and multiscale feature fusion

    • 张小娟

      1

      汪西莉

      1
    • 2020年24卷第9期 页码:1120-1133   

      纸质出版日期: 2020-09-07

    • DOI: 10.11834/jrs.20208365     

    扫 描 看 全 文

  • 引用

    阅读全文PDF

  • 张小娟,汪西莉.2020.完全残差连接与多尺度特征融合遥感图像分割.遥感学报,24(9): 1120-1133 DOI: 10.11834/jrs.20208365.
    ZHANG Xiaojuan,WANG Xili. 2020. Image segmentation models of remote sensing using full residual connection and multiscale feature fusion. Journal of Remote Sensing(Chinese),24(9): 1120-1133[DOI:10.11834/jrs.20208365] DOI:
  •  
  •  
    论文导航

    摘要

    遥感图像数据规模大,光照、遮挡等情况复杂,目标密集、尺度不一以及缺乏大量带标注图像用于训练深度网络等特点对遥感图像分割的完整性和正确性造成了更大的挑战。针对深度卷积网络中因多次卷积造成分辨率显著下降,像素类别预测精度降低的问题,本文在深度卷积编码—解码网络的基础上设计了一个采用完全残差连接和多尺度特征融合的端到端遥感图像分割模型。该模型具有两方面优点:首先,长距离和短距离的完全残差连接既简化了深层网络的训练,又为本层末端融入了原始输入信息,增强了特征融合。其次,不同尺度和方式的特征融合使网络能够提取丰富的上下文信息,应对目标尺度变化,提升分割性能。本文通过对ISPRS Vaihingen和Road Detection数据集做数据扩充并进行实验,分别从平均IOU、平均F1值两方面对模型进行评价。通过与目前先进的模型以及文献中的研究成果进行比较,结果表明本文所提模型优于对比模型,在两个数据集上的平均IOU分别达到了85%和84%,平均F1值分别达到了92%和93%,能够有效提高遥感图像目标分割的完整性和正确性。

    Abstract

    Many characteristics of remote sensing images, such as large scale, complex illumination and occlusion, dense, multiple scales, various posture targets, and the lack of a large number of labeled images for training depth networks, pose great challenges to the integrity and accuracy of remote sensing image segmentation. In deep convolutional networks for segmentation, resolution is significantly reduced by multiple pooling, thereby reducing the prediction accuracy of pixel class.

    On the basis of the deep convolutional coding-decoding network, an end-to-end remote sensing image segmentation model with full residual connection and multiscale feature fusion is proposed in this paper. First, the features in the encoder are merged into the corresponding layers of the decoder, and the residual unit is added to the corresponding convolution layer. The full residual connection constructed by the operation enables the model as a whole to effectively enhance feature fusion and be easier to train. Second, the feature pyramid module, which aggregates multiscale context information, is used on the high-level feature map of the fifth stage of the encoder before feature fusion, thus enabling the model to effectively deal with multiscale changes of the target and improve the segmentation performance.

    Experiments were conducted on the ISPRS Vaihingen and Road Detection datasets. The proposed model was evaluated from the two aspects of average IOU and average F1-score. A comparison between the current advanced models and the results in the literature shows that the proposed model is better than the comparison models. The average IOU on the two datasets is 85% and 84%, and the average F1 value is 92% and 93%, respectively.

    An end-to-end remote sensing image segmentation model with full residual connection and multiscale feature fusion is proposed in this paper. The proposed model achieves better results than the current advanced image semantic segmentation model on the two datasets. The segmentation targets are more complete, continuous, and have fewer misclassifications and leakages. The proposed model also achieves better results than the comparative model in road segmentation of remote sensing images from different sources, thereby further verifying the robustness of the model.

    关键词

    遥感图像分割,深度卷积神经网络,完全残差连接,多尺度特征融合,ISPRS Vaihingen数据集,Road; Detection数据集

    Keywords

    remote sensing image segmentation; deep convolutional neural network; complete residual connection; multi-scale feature fusion; ISPRS Vaihingen datasets; road detection datasets

    1 引 言

    随着无人机的出现和采集传感器的改进,极端分辨率(<10 cm)的遥感图像变得可用,特别是在城市地区。与普通图像相比,随着空间分辨率的提高,遥感图像包含的光谱信息和地物信息越来越丰富,目标尺度不一且图像中存在较多遮挡、阴影等现象,这些都为高分辨率遥感图像的解译带来了挑战。因此,开展遥感图像分割的研究,对人们在遥感数据日益增长的需求处理方面,如环境建模、土地利用变化检测以及城市规划等,有着重要的意义。

    图像分割是指为图像中每个像素分配一个唯一的标签(或类别),使具有相同标签的像素具有某种共同的视觉特性,使图像更容易理解和分析。传统图像分割方法众多,主要包括阈值分割(

    吴一全 等,2012)、聚类分割(于波 等,2013)和基于图的分割(杨学志 等,2014郑玮 等,2008)等。以上分割方法大多都基于图像的灰度、颜色、纹理和形状等底层特征,提取图像特征时需要专家知识的支撑或者人工设计,使其不能适应目标在外观、形态和尺度上的急剧变化以及复杂背景的特征提取。目前,深度学习方法,特别是卷积神经网络CNN(Convolutional Neural Network),例如VGG(Simonyan和Zisserman,2014)、GoogleNet(Zhong等,2015)、ResNet(He等,2016)等在图像处理领域取得了显著效果,并对遥感图像处理的影响越来越大。CNN的强大之处在于其多层结构能从大量样本中自动学习图像不同层次的特征。Zeiler和Fergus(2014)使用反卷积操作对多层结构的卷积神经网络进行特征可视化发现,较浅的卷积层(conv1 & conv2)感受野较小,学习到的是颜色、边缘等局部特征(也称低级特征),随着网络层次的加深,较深的卷积层(conv3 & conv4 & conv5)感受野变大,学习到的特征更多的是纹理以及比较有区别性的全局特征(也称高级特征)。传统CNN网络通过多层结构提取全局特征并用于分类,但因其丢失了物体的边缘等细节信息,直接使用全局特征对图像做分割其结果是不理想的。近年来,许多研究将CNN网络用于图像的像素级分类任务中,使图像分割领域发展迅速。

    Long等(2015)提出全卷积神经网络FCN(Fully Convolutional Networks),开辟了用卷积神经网络对图像做语义分割的先河。FCN将传统CNN模型中的全连接层转换成卷积层,卷积过程使特征图尺寸变小并实现特征提取功能,为了获得每一个像素的预测类别,在网络末端使用反卷积操作将尺寸较小的特征图扩大至与原图大小一样的预测图,最终在预测图上做逐像素分类进而实现对输入图像的分割。FCN模型具有两种良好的性质:首先,可以输入任意大小的图像,并产生相应大小的输出。由于其在输入之前不需要调整图像的尺寸,因此可以最大限度的保留待处理图像的真实信息;其次,FCN可以被端到端地训练,输入的是原图像和像素级标签,输出的是有类别信息的分割图像(周明非和汪西莉,2018)。然而,在全卷积神经网络中,多次池化操作会显著降低特征图的分辨率,使原始图像信息损失严重,虽然可以通过反卷积将缩小的特征图还原到原始尺寸,但并不能将丢失的信息完全还原回来,导致模型分割出的目标边缘模糊、细节信息不完整。

    目前针对该问题的一种解决办法是融合多级特征信息,为反卷积过程提供更多信息以产生高分辨率特征图。

    Long等(2015)提出将中间层特征图与高级特征图进行逐像素加和融合的跳跃结构,其中表现能力较好的为FCN8s结构。Ronneberger等(2015)提出了一种用于医学图像分割的U-Net模型,它由一个提取上下文信息的收缩路径和用以精确定位的扩张路径组成,其将收缩路径各层的特征图全部复制拼接到扩张路径的对应层中来改善模型性能。另一种解决办法是通过改善全卷积网络内部相关结构。Badrinarayanan等(2015)提出卷积编码—解码的SegNet网络,其在编码阶段保留了最大池化索引的位置,并将此位置信息应用到解码阶段以得到一个稀疏特征图,通过与可学习的卷积核进行卷积操作将稀疏特征图变得致密以获得更精细的分割结果图。Yu和Koltun(2015)提出空洞卷积(Dilated Convolutions)概念,它通过把卷积核变得“蓬松”并将蓬松出来的位置填0来实现,利用空洞卷积一方面使感受野变大,可以捕获更多的上下文信息,另一方面卷积之后特征图分辨率不变,可以使原图信息保留更多且卷积核的有效计算量不变。Chen等(2014)提出DeepLab方法,在不降低特征图分辨率的情况下,采用多比例的空洞卷积来系统地聚合不同尺度的上下文信息以获得精细分割。空洞卷积可以增大感受野而不丢失特征图分辨率。通常在深层网络中,空洞比例越大,感受野越大,能获取的上下文信息更多,但同时卷积核变得更稀疏,这样易使模型无法捕获原图中较小的目标或对目标的边缘细节信息不敏感,造成网格现象。同年,Chen等(2018)提出带孔空间金字塔池化结构ASPP(Atrous Spatial Pyramid Pooling),通过并行多个不同比例的空洞卷积核得到多尺度特征图并融合,最后进行预测。具有不同比例的空洞卷积虽然能够有效的捕获多尺度信息,但依然存在网格现象,且当空洞比例越大,空洞卷积核中的有效特征权重所占的比例会变小,使得模型不能捕获整个图像的内容信息,因此,Chen等(2017)提出改进的带孔金字塔池化结构,通过将全局信息整合到ASPP结构中改善这种现象并获得更精细的分割结果。Wang等(2018)对空洞卷积做了修改,提出了混合空洞卷积HDC(Hybrid Dilated Convolution)框架,通过将模型中所有空洞卷积核的空洞比例设计成锯齿状,使网络能够比较好的同时满足小物体和大物体的分割要求。

    此外,一些研究还借鉴了识别性能更高且层次更深的卷积神经网络来应对上述问题。

    Lin等(2017)提出一个通用的多路径优化网络(RefineNet),模型结构的设计采用跳跃结构,编码部分以ResNet为基础,解码部分的RefineNet模块采用恒等映射将编码过程中的所有特征图构成短距离的残差连接,RefineNet模块和ResNet模块之间长距离的残差连接允许梯度能直接传播到ResNet中任何一个卷积层,从而实现网络的端到端训练。Zhao等(2017)提出融合不同区域的上下文以获得全局信息的PSPNet结构,其主干网络是带有空洞卷积的ResNet101网络,在最后的池化阶段增加了一个不同步长的金字塔池化模块以获得多尺度特征图,再将其双线性插值同样尺寸,最后与ResNet输出的特征图合并起来进行预测,此外,该模型在训练时使用了一个辅助损失来应对深度网络中梯度消失问题。

    以上研究探索了深度学习在图像分割方面的应用,但依然存在一些不足。针对深度卷积神经网络而言,首先,多比例空洞卷积和空间金字塔池化结构都能够提取不同尺度下的特征信息,但空洞卷积和池化操作造成的网格现象和局部信息丢失对最终分割精度的提升有很大限制。其次,使用性能更高且层次更深的卷积神经网络作为分割的主干网络虽然在一定程度上能够提高分割精度且克服梯度消失,但是它们的网络结构过于复杂,训练以消耗大量内存为代价。我们认为各个层次的特征对语义分割都有帮助,高级特征有助于类别识别,低级特征有助于分割结果细节的提升。为此,本文提出一种新的图像分割模型,主要具有以下特点:(1)本文在卷积编码—解码网络的基础上首先将编码器中的特征以逐像素相加的方式融合到解码器相应层中,该部分连接也可称为长距离的残差连接;其次在编码器和解码器相应卷积层内部引入短距离的残差连接。长距离和短距离的完全残差连接不仅为本层融入了更多的原始输入信息,增强了特征融合,而且还能够允许梯度直接传播到任何一个卷积层,简化训练过程。(2)在将编码器中的特征融合至解码器的过程中,本文除了选用较浅层的最后一层特征,特别选用了较深层的所有高级特征,并在第5阶段使用聚合多尺度信息的特征金字塔模块,不同内容和不同尺度的特征融合使整个模型能够有效应对目标尺度变化,提升分割性能。

    2 方法原理

    2.1 卷积编码—解码网络

    本文采用卷积编码—解码网络作为分割的主干网络,它包含两个组件:编码器和解码器。编码器包含13个卷积层和5个池化层以获得良好的特征提取效果。解码器与其呈完全镜像关系,也包含13个卷积层和5个解池化层。编码器中的池化操作采用最大池化,保存了最大池化的索引位置。在解码器中,解池化层利用最大池化索引将尺寸较小的特征图扩大以获得稀疏特征图,扩充的位置进行0填充,针对稀疏特征图进行卷积操作,使得解池化操作中填充的0值发生变化,将稀疏特征图变得致密。在解码器最后一个卷积层之后增加一个额外的卷积层,以便将深度模型适用于本文分类问题。最后,附加一个softmax层来获得预测图。

    2.2 完全残差连接与多尺度特征融合遥感图像分割FRes-MFDNN (Full Residual and Multi-scale Feature Fusion)

    卷积编码—解码网络在解池化操作中利用最大池化索引值为解码阶段引入了像素的空间位置关系并加深了模型的解码过程以获得更精细的分割结果。这种对称的编码—解码网络模型虽然在一定程度上能够获得精细的分割结果,但也存在一定弊端,即在解码时利用的信息只有编码阶段最后一个池化层的特征,且该层特征图分辨率过小,保留的特征信息较少,在此基础上进行上采样对模型的性能提升有很大的限制。

    在深度卷积神经网络的学习过程中,不同深度的卷积层学习到的特征其层次是不同的。较浅的卷积层学习到的是局部特征,随着卷积层深度加深,感受野变大,较深的卷积层学到的内容包含的全局特征更多。一般来说,第3个卷积阶段之后得到的特征更具全局性。低级特征对局部变化比较敏感,抗噪性能差,高级特征对局部变化不敏感,但缺点是深层模型中梯度消失会导致模型只能获得一个笼统的预测,很难获得准确的分割边界。将低级特征和高级特征有效地融合进模型中会有助于获得更为精确的分割结果。基于以上分析,本文提出一种新颖的卷积神经网络模型(FRes-MFDNN),其结构如图1所示。

    fig

    图1  FRes-MFDNN模型结构

    Fig.1  Model structure of FRes-MFDNN

    icon 下载:  原图 | 高精图 | 低精图

    本文所提FRes-MFDNN模型以卷积编码—解码网络作为分割的主干网络,在编码器的conv2、conv3、conv4和conv5阶段和解码器中相应阶段使用残差连接,同时提取编码器的conv1和conv2阶段中最后一个卷积层与conv3、conv4和conv5阶段所有卷积层的特征信息,并对conv5阶段的特征使用特征金字塔模块提取多尺度特征,将以上特征以逐像素相加的方式融合进解码器的相应层中。

    与其他他语义分割的网络模型相比,该网络的特点主要集中在3个方面:(1)聚合多尺度上下文信息的特征金字塔模块FPM(Feature Pyramid Module)有助于分割不同尺度的目标,消除网格现象。(2)将编码器中的特征融合到解码器中能够为解码过程提供更多的信息,使分割结果的平滑性更好。(3)增加残差单元,防止因网络层数加深而造成的梯度消失,并增强特征融合。

    这3方面具体解释如下:首先,常用的提取不同尺度上下文信息的金字塔结构如PSPNet和DeepLab模型中的空间金字塔池化或带有空洞卷积的ASPP模块,这类模块以并行通道拼接的方式聚合多尺度信息,这样一方面会使模型参数过多,另一方面池化操作和空洞卷积分别易造成局部信息丢失和网格现象,最终影响特征图的局部一致性。因此本文提出新的特征金字塔模块FPM,其结构如图2所示,先分别使用3×3,5×5的卷积核对原输入特征图(conv5)提取不同尺度下的上下文信息,再逐步整合以达到结合相邻尺度上下文特征的目的。然后对原输入特征图(conv5)进行1×1卷积并与多尺度特征以像素方式相乘。最后融合全局池化信息来提高特征金字塔模块的性能。该FPM是在conv5阶段操作,由于较深层的高级特征图分辨率较小,使用较大的卷积核不会带来过多的计算负担,另外该FPM是以逐步逐像素相加的方式来聚合多尺度信息,这样做考虑到了不同尺度下特征的层次依赖关系,保持了特征信息的局部一致性。

    fig

    图2  特征金字塔模块(‘4×4,8×8’表示特征图的分辨率)

    Fig.2  Feature pyramid module (‘4×4, 8×8’ indicates the resolution of the feature map)

    icon 下载:  原图 | 高精图 | 低精图

    其次,为了获得精细的分割结果,本文将编码器中的特征融合到了解码器中。许多研究在做该形式的特征融合之时,只是考虑将编码器各卷积阶段最后一层特征图融合到解码器中,基于较深卷积层学习到的全局特征更具区别性的结论,本文对conv1和conv2阶段选择最后一层卷积特征图,对conv3、conv4和conv5阶段则特别选用所有卷积特征图来做逐像素相加融合。深度网络中多次池化会造成特征信息严重丢失,为使模型能够应对多尺度目标,故在conv5阶段的特征融合进解码器之前使用特征金字塔模块来提取不同尺度下的高级特征。其中使用1×1卷积有助于降低输入特征图的维度,从而减少内存消耗并缩短训练和推理时间。

    最后,为了有效防止梯度消失,本文在编码器和解码器对应的卷积阶段内部加入了如图3的残差单元,称为短距离残差连接。类比图3 残差单元的原理,可将上述第2点的特征融合连接称为长距离的残差连接,它与短距离残差连接共同构成了完全残差连接,一方面解决了深度模型因层次加深出现的梯度消失问题,另一方面针对深度模型因卷积操作造成的特征图信息损失,完全残差连接因为不仅融合了多尺度特征,还融合了本层的原始输入信息,从而在一定程度上对损失的信息做了补充,进一步增强了特征融合。

    fig

    图3  残差单元

    Fig.3  Residual unit

    icon 下载:  原图 | 高精图 | 低精图

    2.3 比较算法

    为了验证本文方法的性能,分别与FCN8s(

    Long等,2015)、DeconvNet(Noh等,2015)、SegNet(Badrinarayanan等,2015)和U-Net(Ronneberger等,2015)等4种语义分割模型进行实验对比。

    这4种语义分割模型,从结构方面来说,FCN8s结构最简单,基于VGG16的FCN8s模型的编码部分包括15个卷积层和5个池化层,其解码部分是将第3、4和5卷积层的特征图通过反卷积操作扩大并逐层相加进行特征融合,最后再进行像素类别预测。DeconvNet、SegNet和U-Net模型可以划归为完全对称的编码—解码模型这一大类,其结构深度相当,它们的编码器都是通过卷积和池化操作完成,DeconvNet和SegNet的解码器通过解池化和反卷积(或卷积)操作完成,而U-Net模型的解码器仅仅由反卷积操作完成。相比于FCN8s,这类编码—解码模型的解码过程更深。从特征融合方面来说,FCN8s和U-Net模型都进行了特征融合,FCN8s将编码器中第3、4、5阶段的特征图进行逐层逐像素相加融合。U-Net模型是将编码器中各卷积阶段最后一层特征图全部复制拼接到解码器的相应层中,其融合的特征信息更多、融合方式更为复杂。而DeconvNet和SegNet模型在解码过程中未利用特征融合,它们只是将编码器中的高级特征逐层扩大至与输入图像大小一样的特征图,最后做像素类别预测。

    FRes-MFDNN模型与以上4种模型相比有以下几方面的差别。特征融合方式和融合内容方面:首先,FRes-MFDNN将编码器中的特征图以逐像素相加的方式融合到解码器的相应层中,其融合方式和FCN8s模型相同,与U-Net模型不同。其次,FRes-MFDNN在融合时选用了第1、2阶段最后一个卷积特征和第3、4、5阶段的所有卷积特征,其融合内容比FCN8s和U-Net模型更多。而DeconvNet和SegNet模型未使用特征融合。此外,相比U-Net模型通道拼接的融合方式,FRes-MFDNN的融合方式不会给网络增加额外的参数。融合多尺度特征方面:在将第5阶段的特征图融合至相应层之前,FRes-MFDNN利用特征金字塔模块提取多尺度特征信息,使其能够应对目标多尺度变化,而比较的4种模型都未进行多尺度特征的融合。残差连接方面:FRes-MFDNN在编码器与解码器相应的卷积层内部增加残差连接,它与FRes-MFDNN中的特征融合连接一起构成了完全残差连接,该完全残差连接允许梯度能够直接传播到任何一个卷积层,简化训练过程。而比较的四种模型都未使用残差连接。

    3 实验设置与数据

    3.1 参数设置

    实验使用的是配备64位Ubuntu系统的工作站,硬件配置为Intel(R) Xeon(R) CPU E5-2690 v3 2.6 GHz处理器、256 GB内存和4 TB硬盘。整个模型的训练使用Caffe深度学习平台,训练过程中使用一块NVIDIA Tesla K 40c 12 GB显存GPU进行加速。网络参数使用在ImageNet数据集上预训练所得的VGG16模型来初始化,其余层参数通过

    He等(2015)提出的MSRA初始化方法进行初始化,当只考虑输入个数n时,它能够使权值服从均值为0,方差为2/n的高斯分布。在训练过程中,使用随机梯度下降,固定学习率为0.0001,batch_size为5,gamma为1,权重衰减为0.0002,动量为0.99,最大迭代次数为100000次。

    在反向传播阶段,使用随机梯度下降法更新整个网络的权值,网络的损失函数为交叉熵函数,其定义式如下

    Loss(l, p, θ)=1NNi=1Kk=1-σ(li=k)log pk, i
    (1)

    式中,li表示像素点i处的真实标签,pk, i表示像素点i属于第k类的输出概率,K表示类别总数,N表示批量图像中所有像素点的总数,σ()表示符号函数,当li=k时为1,否则为0。

    3.2 数据集与数据扩增

    本文在两个具有挑战性的公开数据集上评估所提出的方法。

    (1)ISPRS Vaihingen Dataset(ISPRS,2018):它是Vaihingen中ISPRS 2D语义标签挑战数据集,由3波段IRRG(近红外、红外、绿色)图像数据和相应的数字表面模型(DSM)以及归一化数字表面模型(NDSM)数据组成。该数据集包含33张尺寸不等、地面采样距离为9 cm的图像,其中有16张带标记图,每一张图像都被标记为6类,即不透水表面(impervious surfaces)、建筑物(building)、低矮植被(low vegetation)、树木(tree)、汽车(car)、杂波或背景(clutter/background)。从带标记的16张图像中随机选取12张作为训练集、2张作为验证集、2张作为测试集。

    该数据集对于训练深度网络而言相对较小,本文实验中选用256×256的图像块来训练网络。对于训练集和验证集,使用两阶段方法来扩充数据。第1阶段,对于给定图像,由于尺寸不等,先使用大小为256×256,步长为128的滑动窗口在IRRG图像与其对应的标记图上进行截取,再提取3个固定位置的图像块(即,右上角、左下角以及右下角)。第2阶段,先对所有图像块分别进行90°、180°和270°旋转,再对所有旋转所得图像块做水平垂直镜像翻转。最终分别得到15000张训练集样本和2045张验证集样本。

    (2)Road Detection Dataset:该数据集由

    Cheng等(2017)从Google Earth上采集并手动标记了道路分割的参考图和其相应的中心线参考图,是目前最大的道路数据集。它包含224张空间分辨率为1.2 m的高分辨率图像,每幅图像至少有600×600像素,道路宽度约12—15个像素。我们将224幅图像随机分成180张训练集、14张验证集和30张测试集。

    本文实验中选用300×300的图像块来训练网络。同样使用两阶段方法来扩充数据。第一阶段,对于给定的图像,先提取4个固定位置的图像块(即,左上角,右上角,左下角及右下角),再使用大小为300×300的滑动窗口在原图和标记图上随机截取25个图像块。第二阶段,对所有图像块先以每90°的步长进行旋转,然后在水平和垂直方向上进行翻转。最终分别得到31320张训练集样本和2436张验证集样本。

    3.3 评价标准

    本文使用以下几种评价指标评估模型在上述两种数据集上的性能,即F1值、整体准确率(OA)和交并比(IOU)。F1值是精确率(P)和召回率(R)的调和均值,是一个综合性评价指标,其定义如下

    F1=2·P·RP+R
    (2)
    OA=TP+TNTP+FN+FP+TN
    (3)

    式中,P=TPTP+FPR=TPTP+FNTP:True Positive 正类被判定为正类;FP:False Positive 负类被判定为正类;FN:False Negative 正类被判定为负类;TN:True Negative 负类被判定为负类。

    IOU是语义分割的标准度量,其定义如下

    IOU(Pm, Pgt)=|PmPgt||PmPgt|
    (4)

    式中,Pgt是真实标记图的像素集合,Pm是预测图像的像素集合,“∩”和“∪”分别表示交集和并集操作。|·| 表示计算该组中的像素数。

    4 实验结果和分析

    为验证本文方法的性能,分别在两个数据集ISPRS Vaihingen 和Road Detection上进行实验。

    4.1 ISPRS Vaihingen Dataset

    4.1.1 实验结果

    在ISPRS Vaihingen Dataset上,本文方法与先进的深层模型的分割结果如图4所示,所有模型的输入图像尺寸均为256×256,且都仅为IRRG三通道彩色图像,输出是与输入图像大小相同的预测标签图。图4从上到下依次为IRRG图像、标签、FCN8s分割结果、DeconvNet分割结果、SegNet分割结果、U-Net分割结果、FRes-MFDNN分割结果。

    fig

      

    icon 下载:  原图 | 高精图 | 低精图
    fig

      

    icon 下载:  原图 | 高精图 | 低精图

    图4  深度模型在ISPRS Vaihingen 测试集部分图像的分割结果

    Fig.4  Segmentation results of the deep models on five images of ISPRS Vaihingen testset

    各图中目标尺寸不等、形态各异,且都存在一定的阴影遮挡。例如,第1幅和第5幅图像中的低矮植被和树木分布比较集中,由于树木和建筑物高度的影响造成原图中存在大面积的阴影,且部分阴影对汽车和路面形成了遮挡。由图4可以看出,FCN8s和DeconvNet模型的分割结果较差,其中DeconvNet分割的结果与实际标签图相差较大,且目标边缘处的细节模糊,单个目标的内部存在分割不连续等。与FCN8s相比,SegNet模型由于加深了解码过程,并利用了池化过程中得到的位置索引值,其分割结果与实际标签图较为接近,较好地保留了目标的细节信息,错分部分也比FCN8s和DeconvNet模型的有所减少。U-Net模型将编码器中对应阶段的特征复制融合到解码器中相应阶段中,其分割结果与实际标签图更为接近,目标细节信息较为清晰。FRes-MFDNN模型因在编码器和解码器相应层中使用了完全残差连接,并融合了高级特征的多尺度信息,其分割结果与实际标签图非常接近,目标细节更清晰,错分更少,这体现了本文方法能够在一定程度上应对原图中目标尺寸多样性以及阴影带来的影响,提升了分割准确性。

    表1给出了对应于图4的定量评价结果以及各模型在训练集上的训练时间(h代表小时),粗体代表最好分割结果,下划线代表次好分割结果。其中精确率(P)和召回率(R)分别衡量了分割的完整性和正确性,理想的分割情况是精确率和召回率都高。由表1可看出,相比其他模型,FRes-MFDNN模型的训练时间较长,但本文方法在每一幅图上的度量指标几乎能够达到最高,另外,在平均精确率和平均召回率上比次好结果分别高出约3%和2%,从定性和定量结果看本文方法在城市遥感图像分割方面与实际标记图更接近,效果更好。

    表1  深度模型在图4对应的图像上的分割结果、平均结果及训练时间
    Table 1  Each and average segmentation results and training times of the deep models on images coresponding to the Fig. 4
    模型Image1Image2Image3Image4Image5Avg.训练时间/h
    PRPRPRPRPRPR
    FCN8s 0.82 0.85 0.79 0.76 0.88 0.90 0.84 0.88 0.83 0.85 0.83 0.85 17
    DeconvNet 0.79 0.80 0.75 0.73 0.82 0.84 0.80 0.80 0.80 0.72 0.79 0.78 32
    SegNet 0.85 0.91 0.87 0.92 0.90 0.89 0.84 0.87 0.82 0.87 0.86 0.89 22
    U-Net 0.87 0.89 0.85 0.92 0.91 0.91 0.85 0.89 0.88 0.87 0.87 0.90 28
    FRes-MFDNN 0.90 0.91 0.87 0.92 0.93 0.94 0.88 0.91 0.91 0.92 0.90 0.92 30

    注:  黑体为最佳,下划线为次佳。

    icon 下载:  导出CSV icon 下载:  下载表格图片

    各深层模型与本文方法在ISPRS Vaihingen数据集上的评价结果如图5,可见,虽然一些比较算法在IOU和F1值度量中具有较好的结果,但是本文方法在每一类别的IOU、F1值以及测试集整体的平均性能上都达到了最优。具体而言,本文方法的平均IOU比次好结果(U-Net)高约6%,平均F1值比次好结果高约4%,这充分证明了本文方法在城市遥感图像分割方面的有效性。

    fig
    icon 下载:  | 高精图 | 低精图

    图5  深度模型在ISPRS Vaihingen数据集上的分割结果

    Fig.5  Segmentation results of the depth model on the ISPRS Vaihingen dataset

    4.1.2 与其他现有研究成果对比

    该部分将本文方法与目前分割性能较好的文献中的方法进行对比,结果如表2所示。因要与所对比文献的评价指标相同,表2中列出了每一种方法在ISPRS Vaihingen数据集中每一类别的F1值和整体准确率(OA)。

    表2  与现有研究成果对比
    Table 2  Comparison with existing research results
    模型imp surfbuildinglow vegetationtreecarOA
    CNN+RF 0.88 0.94 0.76 0.86 0.67 0.86
    Deconvolution 0.87
    Dilation 0.90 0.94 0.77 0.87 0.76 0.87
    Econder-Deconder+CRF 0.84 0.91 0.75 0.88 0.77 0.85
    Econder-Deconder(with deconv) 0.91 0.94 0.82 0.89 0.85 0.89
    FRes-MFDNN 0.95 0.96 0.89 0.90 0.88 0.91
    icon 下载:  导出CSV icon 下载:  下载表格图片

    表2给出的对比结果中,

    Paisitkriangkrai等(2015)提出将CNN与随机森林(RF)相结合的CNN+RF分割模型,CNN主要用于提取特征,RF用于分类。Volpi和Tuia(2017)提出将反卷积网络用于遥感图像分割,其模型由对称的编码器和解码器组成,编码器由8个卷积层和3个池化层完成,解码器与编码器呈镜像关系,其中用1×1卷积层链接编码与解码过程。Sherrah(2016)使用空洞卷积对遥感图像进行分割,并用CRF对分割结果做平滑处理;Maggiori等(2017)在编码—解码网络的末端将CRF作为后处理融入到深度模型的训练过程中。Audebert等(2017)使用对称的编码—解码网络,其编码器由卷积层和池化层组成,解码器由反卷积层和反池化层组成。以上实验结果取自文献原文中,各方法使用的训练样本数量大体相当。从表2对比结果中可以看出,在每一类的F1值和分割的整体准确率上,本文方法的分割效果优于所比较方法。

    4.1.3 ISPRS Vaihingen数据集无标注图像实验结果对比

    为了更好的验证本文模型的分割性能,本文采用ISPRS Vaihingen 数据集中area4、area31和area35等3张不含标注图,分别在各对比模型中进行实验,部分结果展示如图6,从左至右依次为原图、FRes-MFDNN分割结果、U-Net分割结果、SegNet分割结果、FCN8s分割结果和DeconvNet分割结果。

    fig

    图6  深度模型在ISPRS Vaihingen数据集5幅无标注图像上的分割结果

    Fig.6  Segmentation results of the deep models on five unlabeled images of the ISPRS Vaihingen dataset

    icon 下载:  原图 | 高精图 | 低精图

    在没有标记图参考的情况下,参照原图(第1列)可以看到,本文方法在分割的正确性、完整性以及目标边界平滑性上比其他他对比模型的效果好。

    4.2 Road Detection Dataset

    4.2.1 实验结果

    在Road Detection Dataset上,本文方法与各深层模型的分割结果如图7所示。所有网络的输入图像尺寸均为300×300的RGB三通道图像,输出是与输入图像相同大小的预测结果图,黑色代表背景,白色代表道路。图7从上到下依次为RGB图像、标签、FRes-MFDNN分割结果、U-Net分割结果、SegNet分割结果、DeconvNet分割结果、FCN8s分割结果。

    fig

    图7  深度模型在Road Detection测试集部分图像上的分割结果

    Fig.7  Segmentation results of the depth models on some images of the Road Detection testset

    icon 下载:  原图 | 高精图 | 低精图

    图7第1行给出了5幅光谱信息以及背景复杂度不同的图像,部分道路被树木和汽车所遮挡,其中,第4幅图像部分居住区民房与道路在光谱信息上极其相近,第4幅图像和第5幅图像还包含被踩踏明显的黄土路面,这些因素都为分割增加了一定的挑战性。由图7可以看出,FCN8s和DeconvNet模型的分割结果与实际标签图相差较大,错分以及漏分面积较多,分割出的道路连续性较差。SegNet模型的分割结果与实际标签图较为相似,错分面积相比DeconvNet来说有较明显地减少,但是还是存在漏分现象。U-Net模型和本文方法的分割结果与实际标签图最为相似,错分以及漏分也较其他模型明显降低。与U-Net模型相比,本文方法的分割结果细节信息更完善,当有汽车和树木遮挡时,分割出来的道路边缘更光滑,空间一致性更高。

    表3给出了对应于图7的评价结果,粗体代表最好值,下划线代表次优值。同样地,虽然一些比较方法在精确率或召回率上取得了较好的结果,但是本文方法在每一幅图像上的度量指标几乎能够达到最高,且平均正确率和平均召回率比次优结果分别高出2%和3%,从定性和定量结果看本文方法在分割遥感道路图像方面与实际标记图更相近,效果更好。

    表3  深度模型在对应于图7的Road Detection数据集5幅图像上的分割结果
    Table 3  Segmentation results of the deep models on five images of the road detection dataset
    模型Image1Image2Image3Image4Image5Avg.
    P   RP   RP   RP   RP   RP   R
    FRes-MFDNN 0.99  0.88 0.96  0.90 0.98  0.89 0.98  0.91 0.93   0.91 0.97  0.90
    U-Net 0.98    0.86 0.95    0.88 0.91   0.85 0.94    0.87 0.96    0.89 0.95    0.87
    SegNet 0.97  0.84 0.92  0.86 0.94  0.70 0.90  0.60 0.95   0.83 0.94  0.77
    DeconvNet 0.96  0.75 0.92  0.86 0.93   0.68 0.87  0.57 0.91  0.85 0.92  0.74
    FCN8s 0.96  0.74 0.89  0.79 0.87  0.67 0.85  0.87 0.93  0.83 0.90  0.78

    注:  黑体为最佳,下划线为次佳。

    icon 下载:  导出CSV icon 下载:  下载表格图片

    图8给出了各方法在Road Detection测试集上的平均IOU和平均F1值。可见本文方法的平均IOU和平均F1值都明显高于其他他方法,平均IOU更是比第二好的U-Net方法提升了4%,平均F1值达到了93%,充分体现了本文方法在该数据集上良好的分割性能。

    fig

    图8  深度模型在Road Detection测试集上的平均IOU和平均F1值结果

    Fig.8  The average IOU and average F1 of the deep models on the Road Detection testset

    icon 下载:  原图 | 高精图 | 低精图

    4.2.2 与其他现有研究成果对比

    该部分将本文方法与现有道路分割的研究方法在Road Detection数据集上进行对比,结果如表4所示,包括各方法在该数据集上的平均IOU、平均F1值、训练时间(h)以及一幅图的推断时间(s/p表示秒/张)。

    表4  与现有研究成果对比
    Table 4  Comparison with existing research results
    比较的内容FRes-MFDNNRes-unetU-NetELU-SegNetCascaded-net
    平均 IOU 0.84 0.82 0.80 0.73 0.72
    平均F1-值 0.93 0.90 0.88 0.86 0.83
    训练时间/h 40 30 36 50 47
    测试时间/(s/p) 5.6 4.5 5 5.6 7.3
    icon 下载:  导出CSV icon 下载:  下载表格图片

    表4中,

    Zhang等(2018)提出包含三层编码器和三层解码器的Res-unet模型,编码过程由卷积操作完成,解码过程通过双线性插值完成,其中将编码器各阶段最后一层特征图复制融合到了解码器的相应阶段中,并在编码器和编码器中引入了残差连接。Ronneberger等(2015)提出用于医学图像分割的U-Net,目前许多研究有将其用于遥感图像分割的任务中。Panboonyuen等(2017)提出ELU-SegNet结构,并在SegNet模型的基础上将RELU激活函数替换成ELU激活函数。Cheng等(2014)提出由四层编码器和四层解码器组成的Cascaded-net结构,其中编码器由卷积和池化操作完成,解码器由反卷积和解池化完成。Res-unet、ELU-SegNet和Cascaded-net等模型都是针对道路分割应用所提出的。以上结果都是在与本文模型训练同配置的caffe深度学习平台上,针对Road Detection数据集实验所得。从表4可以看出,虽然本文方法在训练时间以及推断时间上稍微逊色于Res-unet和U-Net模型的时间,但是差距并不大,本文方法比其他他方法在平均IOU和平均F1值两方面都占有优势。

    4.2.3 模型推广性验证

    为了更好地验证本文模型在分割遥感道路图像方面的性能,我们从谷歌地图上采集了美国圣路易斯某街区上空的图像,所有图像为三通道RGB彩色图像,空间分辨率为20 m,分别送入训练好的各模型进行测试,其部分结果如图9所示,从左至右依次为原图、FRes-MFDNN分割结果、U-Net分割结果、SegNet分割结果、DeconvNet分割结果和FCN8s分割结果。

    fig

    图9  深度模型在Road Detection无标记图像上的分割结果

    Fig.9  Segmentation results of deep models on unmarked images of the Road Detection dataset

    icon 下载:  原图 | 高精图 | 低精图

    尽管采集的图像和用于训练模型的Road Detection数据集在背景复杂度、光谱信息以及空间分辨率方面都有所不同,但是从图9可以看出,相比于其他对比方法,本文方法能够较好地分割出道路,有效剔除大部分背景干扰,克服空间分辨率不同带来的影响。这也充分证明了本文方法在分割遥感道路图像方面的鲁棒性。

    5 结 论

    深度卷积神经网络模型大都考虑加深网络层次来提升分割性能,但网络层次的加深易使网络出现梯度消失且多次池化操作也会造成特征图分辨率明显降低。针对以上问题,在卷积编码—解码网络的基础上,本文提出了一种采用完全残差连接与多尺度特征融合的图像分割模型,首先将编码器中的特征融合到解码器相应层中,并在相应的卷积层内部增加了残差单元,该操作共同构建的完全残差连接使模型整体能够有效地增强特征融合且更易训练;其次特征融合之前在编码器第五阶段的高级特征图上使用聚合多尺度上下文信息的特征金子塔模块,使模型能够有效应对目标多尺度变化,提升分割性能。本文在ISPRS Vaihingen和Road Detection公开数据集上进行实验,并通过与现有先进模型的结果进行对比,结果表明所提出的模型分别在两个数据集上达到了优于目前先进的图像语义分割模型的结果,分割出的目标更为完整、连续,错分以及漏分较少,并在不同来源的遥感影像道路分割中也取得了优于比较模型的结果。

    参考文献(References)

    Audebert N, Le Saux B and Lefèvrey S. 2017. Fusion of heterogeneous data in convolutional networks for urban semantic labeling//Proceedings of 2017 Joint Urban Remote Sensing Event. Dubai, United Arab Emirates: IEEE: 1-4 [DOI: 10.1109/JURSE.2017.7924566] [百度学术] 

    Badrinarayanan V, Kendall, A and Cipolla R. 2017. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495. DOI: 10.1109/TPAMI.2016.2644615. [百度学术] 

    Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuille A L. 2018. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI: 10.1109/TPAMI.2017.2699184] [百度学术] 

    Chen L C, Papandreou G, Schroff F and Adam H. 2017. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587 [百度学术] 

    Cheng G L, Wang Y, Xu S B, Wang H Z, Xiang S M and Pan C H. 2017. Automatic road detection and centerline extraction via cascaded end-to-end convolutional neural network. IEEE Transactions on Geoscience and Remote Sensing, 55(6): 3322-3337 [DOI: 10.1109/TGRS.2017.2669341] [百度学术] 

    He K M, Zhang X Y, Ren S Q and Sun J. 2015. Delving deep into rectifiers: surpassing human-level performance on imageNet classification//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1026-1034 [DOI: 10.1109/ICCV.2015.123] [百度学术] 

    He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90] [百度学术] 

    Lin G S, Milan A, Shen C H and Reid I. 2017. RefineNet: multi-path refinement networks for high-resolution semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 5168-5177 [DOI: 10.1109/CVPR.2017.549] [百度学术] 

    Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 3431-3440 [DOI: 10.1109/CVPR.2015.7298965] [百度学术] 

    Maggiori E, Tarabalka Y, Charpiat G and Alliez P. 2017. High-resolution aerial image labeling with convolutional neural networks. IEEE Transactions on Geoscience and Remote Sensing, 55(12): 7092-7103 [DOI: 10.1109/TGRS.2017.2740362] [百度学术] 

    Noh H, Hong S and Han B. 2015. Learning deconvolution network for semantic segmentation//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1520-1528 [DOI: 10.1109/ICCV.2015.178] [百度学术] 

    Paisitkriangkrai S, Sherrah J, Janney P and Van-Den Hengel A. 2015. Effective semantic pixel labelling with convolutional networks and conditional random fields//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA: IEEE: 36-43 [DOI: 10.1109/CVPRW.2015.7301381] [百度学术] 

    Panboonyuen T, Jitkajornwanich K, Lawawirojwong S, Srestasathiern P and Vateekul P. 2017. Road segmentation of remotely-sensed images using deep convolutional neural networks with landscape metrics and conditional random fields. Remote Sensing, 9(7): 680 [DOI: /10.3390/rs9070680] [百度学术] 

    Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241 [DOI: 10.1007/978-3-319-24574-4_28] [百度学术] 

    Sherrah J. 2016. Fully convolutional networks for dense semantic labelling of high-resolution aerial imagery. arXiv preprint arXiv:1606.02585. [百度学术] 

    Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition. International Conference on Learning Representations. 1-14. [百度学术] 

    Volpi M and Tuia D. 2017. Dense semantic labeling of subdecimeter resolution images with convolutional neural networks. IEEE Transactions on Geoscience and Remote Sensing, 55(2): 881-893 [DOI: 10.1109/TGRS.2016.2616585] [百度学术] 

    Wang P Q, Chen P F, Yuan Y, Liu D, Huang Z H, Hou X D and Cottrell G. 2018. Understanding convolution for semantic segmentation//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, NV, USA: IEEE: 1451-1460 [DOI: 10.1109/WACV.2018.00163] [百度学术] 

    Wu Y Q, Ji Y, Shen Y and Zhang Y F. 2012. Marine spill oil SAR image segmentation based on Tsallis entropy and improved Chan Vese model. Journal of Remote Sensing, 16(4): 678-690 [百度学术] 

    吴一全, 吉玚, 沈毅, 张宇飞. 2012. Tsallis熵和改进CV模型的海面溢油SAR图像分割. 遥感学报, 16(4): 678-690 [DOI: 10.11834/jrs.20121192] [百度学术] 

    Yang X Z, Liu C J, Wu K W and Lang W H. 2014. SAR sea ice image segmentation using SRRG-MRF. Journal of Remote Sensing, 18(6): 1247-1257 [百度学术] 

    杨学志, 刘灿俊, 吴克伟, 郎文辉. 2014. SRRG-MRF的SAR海冰图像分割算法. 遥感学报, 18(6): 1247-1257 [DOI: 10.11834/jrs.20143266] [百度学术] 

    Yu B, Meng J M, Zhang X and Ji Y G. 2013. Segmentation method for agglomerative hierarchical-based sea ice types using polarimetric SAR data. Journal of Remote Sensing, 17(4): 887-904 [百度学术] 

    于波, 孟俊敏, 张晰, 纪永刚. 2013. 结合凝聚层次聚类的极化SAR海冰分割. 遥感学报, 17(4): 887-904 [DOI: 10.11834/jrs.20132091] [百度学术] 

    Yu F and Koltun V. 2016. Multi-scale context aggregation by dilated convolutions. International Conference on Learning Representations. 1-13. [百度学术] 

    Zeiler M D and Fergus R. 2014. Visualizing and understanding convolutional networks//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 818-833 [DOI: 10.1007/978-3-319-10590-1_53] [百度学术] 

    Zhang Z X, Liu Q J and Wang Y H. 2018. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753 [DOI: 10.1109/LGRS.2018.2802944] [百度学术] 

    Zhao H S, Shi J P, Qi X J, Wang X G and Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 6230-6239 [DOI: 10.1109/CVPR.2017.660] [百度学术] 

    Zheng W, Kang G W, Chen W F and Li X W. 2008. Unsupervised segmentation of remote sensing images based on fuzzy Markov random field. Journal of Remote Sensing, 12(2): 246-252 [百度学术] 

    郑玮, 康戈文, 陈武凡, 李小文. 2008. 基于模糊马尔可夫随机场的无监督遥感图像分割算法. 遥感学报, 12(2): 246-252 [DOI: 10.11834/jrs.20080232] [百度学术] 

    Zhong Z Y, Jin L W and Xie Z C. 2015. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps//Proceedings of 2015 13th International Conference on Document Analysis and Recognition. Tunis, Tunisia: IEEE: 846-850 [DOI: 10.1109/ICDAR.2015.7333881] [百度学术] 

    Zhou M F and Wang X L. 2018. Object detection models of remote sensing images using deep neural networks with weakly supervised training method. Scientia Sinica Informationis, 48(8): 1022-1034 [百度学术] 

    周明非, 汪西莉. 2018. 弱监督深层神经网络遥感图像目标检测模型. 中国科学: 信息科学, 48(8): 1022-1034 [DOI: 10.1360/N112017-00208] [百度学术] 

    文章被引用时,请邮件提醒。
    提交

    相关文章

    暂无数据

    相关作者

    暂无数据

    相关机构

    暂无数据
    0