完全残差连接与多尺度特征融合遥感图像分割
Image segmentation models of remote sensing using full residual connection and multiscale feature fusion
- 2020年24卷第9期 页码:1120-1133
纸质出版日期: 2020-09-07
DOI: 10.11834/jrs.20208365
引用
阅读全文PDF
扫 描 看 全 文
纸质出版日期: 2020-09-07
扫 描 看 全 文
引用
阅读全文PDF
遥感图像数据规模大,光照、遮挡等情况复杂,目标密集、尺度不一以及缺乏大量带标注图像用于训练深度网络等特点对遥感图像分割的完整性和正确性造成了更大的挑战。针对深度卷积网络中因多次卷积造成分辨率显著下降,像素类别预测精度降低的问题,本文在深度卷积编码—解码网络的基础上设计了一个采用完全残差连接和多尺度特征融合的端到端遥感图像分割模型。该模型具有两方面优点:首先,长距离和短距离的完全残差连接既简化了深层网络的训练,又为本层末端融入了原始输入信息,增强了特征融合。其次,不同尺度和方式的特征融合使网络能够提取丰富的上下文信息,应对目标尺度变化,提升分割性能。本文通过对ISPRS Vaihingen和Road Detection数据集做数据扩充并进行实验,分别从平均IOU、平均F1值两方面对模型进行评价。通过与目前先进的模型以及文献中的研究成果进行比较,结果表明本文所提模型优于对比模型,在两个数据集上的平均IOU分别达到了85%和84%,平均F1值分别达到了92%和93%,能够有效提高遥感图像目标分割的完整性和正确性。
Many characteristics of remote sensing images, such as large scale, complex illumination and occlusion, dense, multiple scales, various posture targets, and the lack of a large number of labeled images for training depth networks, pose great challenges to the integrity and accuracy of remote sensing image segmentation. In deep convolutional networks for segmentation, resolution is significantly reduced by multiple pooling, thereby reducing the prediction accuracy of pixel class.
On the basis of the deep convolutional coding-decoding network, an end-to-end remote sensing image segmentation model with full residual connection and multiscale feature fusion is proposed in this paper. First, the features in the encoder are merged into the corresponding layers of the decoder, and the residual unit is added to the corresponding convolution layer. The full residual connection constructed by the operation enables the model as a whole to effectively enhance feature fusion and be easier to train. Second, the feature pyramid module, which aggregates multiscale context information, is used on the high-level feature map of the fifth stage of the encoder before feature fusion, thus enabling the model to effectively deal with multiscale changes of the target and improve the segmentation performance.
Experiments were conducted on the ISPRS Vaihingen and Road Detection datasets. The proposed model was evaluated from the two aspects of average IOU and average F1-score. A comparison between the current advanced models and the results in the literature shows that the proposed model is better than the comparison models. The average IOU on the two datasets is 85% and 84%, and the average F1 value is 92% and 93%, respectively.
An end-to-end remote sensing image segmentation model with full residual connection and multiscale feature fusion is proposed in this paper. The proposed model achieves better results than the current advanced image semantic segmentation model on the two datasets. The segmentation targets are more complete, continuous, and have fewer misclassifications and leakages. The proposed model also achieves better results than the comparative model in road segmentation of remote sensing images from different sources, thereby further verifying the robustness of the model.
随着无人机的出现和采集传感器的改进,极端分辨率(<10 cm)的遥感图像变得可用,特别是在城市地区。与普通图像相比,随着空间分辨率的提高,遥感图像包含的光谱信息和地物信息越来越丰富,目标尺度不一且图像中存在较多遮挡、阴影等现象,这些都为高分辨率遥感图像的解译带来了挑战。因此,开展遥感图像分割的研究,对人们在遥感数据日益增长的需求处理方面,如环境建模、土地利用变化检测以及城市规划等,有着重要的意义。
图像分割是指为图像中每个像素分配一个唯一的标签(或类别),使具有相同标签的像素具有某种共同的视觉特性,使图像更容易理解和分析。传统图像分割方法众多,主要包括阈值分割(
目前针对该问题的一种解决办法是融合多级特征信息,为反卷积过程提供更多信息以产生高分辨率特征图。
此外,一些研究还借鉴了识别性能更高且层次更深的卷积神经网络来应对上述问题。
以上研究探索了深度学习在图像分割方面的应用,但依然存在一些不足。针对深度卷积神经网络而言,首先,多比例空洞卷积和空间金字塔池化结构都能够提取不同尺度下的特征信息,但空洞卷积和池化操作造成的网格现象和局部信息丢失对最终分割精度的提升有很大限制。其次,使用性能更高且层次更深的卷积神经网络作为分割的主干网络虽然在一定程度上能够提高分割精度且克服梯度消失,但是它们的网络结构过于复杂,训练以消耗大量内存为代价。我们认为各个层次的特征对语义分割都有帮助,高级特征有助于类别识别,低级特征有助于分割结果细节的提升。为此,本文提出一种新的图像分割模型,主要具有以下特点:(1)本文在卷积编码—解码网络的基础上首先将编码器中的特征以逐像素相加的方式融合到解码器相应层中,该部分连接也可称为长距离的残差连接;其次在编码器和解码器相应卷积层内部引入短距离的残差连接。长距离和短距离的完全残差连接不仅为本层融入了更多的原始输入信息,增强了特征融合,而且还能够允许梯度直接传播到任何一个卷积层,简化训练过程。(2)在将编码器中的特征融合至解码器的过程中,本文除了选用较浅层的最后一层特征,特别选用了较深层的所有高级特征,并在第5阶段使用聚合多尺度信息的特征金字塔模块,不同内容和不同尺度的特征融合使整个模型能够有效应对目标尺度变化,提升分割性能。
本文采用卷积编码—解码网络作为分割的主干网络,它包含两个组件:编码器和解码器。编码器包含13个卷积层和5个池化层以获得良好的特征提取效果。解码器与其呈完全镜像关系,也包含13个卷积层和5个解池化层。编码器中的池化操作采用最大池化,保存了最大池化的索引位置。在解码器中,解池化层利用最大池化索引将尺寸较小的特征图扩大以获得稀疏特征图,扩充的位置进行0填充,针对稀疏特征图进行卷积操作,使得解池化操作中填充的0值发生变化,将稀疏特征图变得致密。在解码器最后一个卷积层之后增加一个额外的卷积层,以便将深度模型适用于本文分类问题。最后,附加一个softmax层来获得预测图。
卷积编码—解码网络在解池化操作中利用最大池化索引值为解码阶段引入了像素的空间位置关系并加深了模型的解码过程以获得更精细的分割结果。这种对称的编码—解码网络模型虽然在一定程度上能够获得精细的分割结果,但也存在一定弊端,即在解码时利用的信息只有编码阶段最后一个池化层的特征,且该层特征图分辨率过小,保留的特征信息较少,在此基础上进行上采样对模型的性能提升有很大的限制。
在深度卷积神经网络的学习过程中,不同深度的卷积层学习到的特征其层次是不同的。较浅的卷积层学习到的是局部特征,随着卷积层深度加深,感受野变大,较深的卷积层学到的内容包含的全局特征更多。一般来说,第3个卷积阶段之后得到的特征更具全局性。低级特征对局部变化比较敏感,抗噪性能差,高级特征对局部变化不敏感,但缺点是深层模型中梯度消失会导致模型只能获得一个笼统的预测,很难获得准确的分割边界。将低级特征和高级特征有效地融合进模型中会有助于获得更为精确的分割结果。基于以上分析,本文提出一种新颖的卷积神经网络模型(FRes-MFDNN),其结构如
图1 FRes-MFDNN模型结构
Fig.1 Model structure of FRes-MFDNN
本文所提FRes-MFDNN模型以卷积编码—解码网络作为分割的主干网络,在编码器的conv2、conv3、conv4和conv5阶段和解码器中相应阶段使用残差连接,同时提取编码器的conv1和conv2阶段中最后一个卷积层与conv3、conv4和conv5阶段所有卷积层的特征信息,并对conv5阶段的特征使用特征金字塔模块提取多尺度特征,将以上特征以逐像素相加的方式融合进解码器的相应层中。
与其他他语义分割的网络模型相比,该网络的特点主要集中在3个方面:(1)聚合多尺度上下文信息的特征金字塔模块FPM(Feature Pyramid Module)有助于分割不同尺度的目标,消除网格现象。(2)将编码器中的特征融合到解码器中能够为解码过程提供更多的信息,使分割结果的平滑性更好。(3)增加残差单元,防止因网络层数加深而造成的梯度消失,并增强特征融合。
这3方面具体解释如下:首先,常用的提取不同尺度上下文信息的金字塔结构如PSPNet和DeepLab模型中的空间金字塔池化或带有空洞卷积的ASPP模块,这类模块以并行通道拼接的方式聚合多尺度信息,这样一方面会使模型参数过多,另一方面池化操作和空洞卷积分别易造成局部信息丢失和网格现象,最终影响特征图的局部一致性。因此本文提出新的特征金字塔模块FPM,其结构如
图2 特征金字塔模块(‘4×4,8×8’表示特征图的分辨率)
Fig.2 Feature pyramid module (‘4×4, 8×8’ indicates the resolution of the feature map)
其次,为了获得精细的分割结果,本文将编码器中的特征融合到了解码器中。许多研究在做该形式的特征融合之时,只是考虑将编码器各卷积阶段最后一层特征图融合到解码器中,基于较深卷积层学习到的全局特征更具区别性的结论,本文对conv1和conv2阶段选择最后一层卷积特征图,对conv3、conv4和conv5阶段则特别选用所有卷积特征图来做逐像素相加融合。深度网络中多次池化会造成特征信息严重丢失,为使模型能够应对多尺度目标,故在conv5阶段的特征融合进解码器之前使用特征金字塔模块来提取不同尺度下的高级特征。其中使用1×1卷积有助于降低输入特征图的维度,从而减少内存消耗并缩短训练和推理时间。
最后,为了有效防止梯度消失,本文在编码器和解码器对应的卷积阶段内部加入了如
图3 残差单元
Fig.3 Residual unit
为了验证本文方法的性能,分别与FCN8s(
这4种语义分割模型,从结构方面来说,FCN8s结构最简单,基于VGG16的FCN8s模型的编码部分包括15个卷积层和5个池化层,其解码部分是将第3、4和5卷积层的特征图通过反卷积操作扩大并逐层相加进行特征融合,最后再进行像素类别预测。DeconvNet、SegNet和U-Net模型可以划归为完全对称的编码—解码模型这一大类,其结构深度相当,它们的编码器都是通过卷积和池化操作完成,DeconvNet和SegNet的解码器通过解池化和反卷积(或卷积)操作完成,而U-Net模型的解码器仅仅由反卷积操作完成。相比于FCN8s,这类编码—解码模型的解码过程更深。从特征融合方面来说,FCN8s和U-Net模型都进行了特征融合,FCN8s将编码器中第3、4、5阶段的特征图进行逐层逐像素相加融合。U-Net模型是将编码器中各卷积阶段最后一层特征图全部复制拼接到解码器的相应层中,其融合的特征信息更多、融合方式更为复杂。而DeconvNet和SegNet模型在解码过程中未利用特征融合,它们只是将编码器中的高级特征逐层扩大至与输入图像大小一样的特征图,最后做像素类别预测。
FRes-MFDNN模型与以上4种模型相比有以下几方面的差别。特征融合方式和融合内容方面:首先,FRes-MFDNN将编码器中的特征图以逐像素相加的方式融合到解码器的相应层中,其融合方式和FCN8s模型相同,与U-Net模型不同。其次,FRes-MFDNN在融合时选用了第1、2阶段最后一个卷积特征和第3、4、5阶段的所有卷积特征,其融合内容比FCN8s和U-Net模型更多。而DeconvNet和SegNet模型未使用特征融合。此外,相比U-Net模型通道拼接的融合方式,FRes-MFDNN的融合方式不会给网络增加额外的参数。融合多尺度特征方面:在将第5阶段的特征图融合至相应层之前,FRes-MFDNN利用特征金字塔模块提取多尺度特征信息,使其能够应对目标多尺度变化,而比较的4种模型都未进行多尺度特征的融合。残差连接方面:FRes-MFDNN在编码器与解码器相应的卷积层内部增加残差连接,它与FRes-MFDNN中的特征融合连接一起构成了完全残差连接,该完全残差连接允许梯度能够直接传播到任何一个卷积层,简化训练过程。而比较的四种模型都未使用残差连接。
实验使用的是配备64位Ubuntu系统的工作站,硬件配置为Intel(R) Xeon(R) CPU E5-2690 v3 2.6 GHz处理器、256 GB内存和4 TB硬盘。整个模型的训练使用Caffe深度学习平台,训练过程中使用一块NVIDIA Tesla K 40c 12 GB显存GPU进行加速。网络参数使用在ImageNet数据集上预训练所得的VGG16模型来初始化,其余层参数通过
在反向传播阶段,使用随机梯度下降法更新整个网络的权值,网络的损失函数为交叉熵函数,其定义式如下
Loss(l, p, θ)=1NN∑i=1K∑k=1-σ(li=k)log pk, i | (1) |
式中,li表示像素点i处的真实标签,pk, i表示像素点i属于第k类的输出概率,K表示类别总数,N表示批量图像中所有像素点的总数,σ(⋅)表示符号函数,当li=k时为1,否则为0。
本文在两个具有挑战性的公开数据集上评估所提出的方法。
(1)ISPRS Vaihingen Dataset(ISPRS,2018):它是Vaihingen中ISPRS 2D语义标签挑战数据集,由3波段IRRG(近红外、红外、绿色)图像数据和相应的数字表面模型(DSM)以及归一化数字表面模型(NDSM)数据组成。该数据集包含33张尺寸不等、地面采样距离为9 cm的图像,其中有16张带标记图,每一张图像都被标记为6类,即不透水表面(impervious surfaces)、建筑物(building)、低矮植被(low vegetation)、树木(tree)、汽车(car)、杂波或背景(clutter/background)。从带标记的16张图像中随机选取12张作为训练集、2张作为验证集、2张作为测试集。
该数据集对于训练深度网络而言相对较小,本文实验中选用256×256的图像块来训练网络。对于训练集和验证集,使用两阶段方法来扩充数据。第1阶段,对于给定图像,由于尺寸不等,先使用大小为256×256,步长为128的滑动窗口在IRRG图像与其对应的标记图上进行截取,再提取3个固定位置的图像块(即,右上角、左下角以及右下角)。第2阶段,先对所有图像块分别进行90°、180°和270°旋转,再对所有旋转所得图像块做水平垂直镜像翻转。最终分别得到15000张训练集样本和2045张验证集样本。
(2)Road Detection Dataset:该数据集由
本文实验中选用300×300的图像块来训练网络。同样使用两阶段方法来扩充数据。第一阶段,对于给定的图像,先提取4个固定位置的图像块(即,左上角,右上角,左下角及右下角),再使用大小为300×300的滑动窗口在原图和标记图上随机截取25个图像块。第二阶段,对所有图像块先以每90°的步长进行旋转,然后在水平和垂直方向上进行翻转。最终分别得到31320张训练集样本和2436张验证集样本。
本文使用以下几种评价指标评估模型在上述两种数据集上的性能,即F1值、整体准确率(OA)和交并比(IOU)。F1值是精确率(P)和召回率(R)的调和均值,是一个综合性评价指标,其定义如下
F1=2·P·RP+R | (2) |
OA=TP+TNTP+FN+FP+TN | (3) |
式中,P=TPTP+FP,R=TPTP+FN,TP:True Positive 正类被判定为正类;FP:False Positive 负类被判定为正类;FN:False Negative 正类被判定为负类;TN:True Negative 负类被判定为负类。
IOU是语义分割的标准度量,其定义如下
IOU(Pm, Pgt)=|Pm⋂Pgt||Pm⋃Pgt| | (4) |
式中,Pgt是真实标记图的像素集合,Pm是预测图像的像素集合,“∩”和“∪”分别表示交集和并集操作。|·| 表示计算该组中的像素数。
为验证本文方法的性能,分别在两个数据集ISPRS Vaihingen 和Road Detection上进行实验。
4.1.1 实验结果
在ISPRS Vaihingen Dataset上,本文方法与先进的深层模型的分割结果如
图4 深度模型在ISPRS Vaihingen 测试集部分图像的分割结果
Fig.4 Segmentation results of the deep models on five images of ISPRS Vaihingen testset
各图中目标尺寸不等、形态各异,且都存在一定的阴影遮挡。例如,第1幅和第5幅图像中的低矮植被和树木分布比较集中,由于树木和建筑物高度的影响造成原图中存在大面积的阴影,且部分阴影对汽车和路面形成了遮挡。由
模型 | Image1 | Image2 | Image3 | Image4 | Image5 | Avg. | 训练时间/h | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
P | R | P | R | P | R | P | R | P | R | P | R | ||
FCN8s | 0.82 | 0.85 | 0.79 | 0.76 | 0.88 | 0.90 | 0.84 | 0.88 | 0.83 | 0.85 | 0.83 | 0.85 | 17 |
DeconvNet | 0.79 | 0.80 | 0.75 | 0.73 | 0.82 | 0.84 | 0.80 | 0.80 | 0.80 | 0.72 | 0.79 | 0.78 | 32 |
SegNet | 0.85 | 0.91 | 0.87 | 0.92 | 0.90 | 0.89 | 0.84 | 0.87 | 0.82 | 0.87 | 0.86 | 0.89 | 22 |
U-Net | 0.87 | 0.89 | 0.85 | 0.92 | 0.91 | 0.91 | 0.85 | 0.89 | 0.88 | 0.87 | 0.87 | 0.90 | 28 |
FRes-MFDNN | 0.90 | 0.91 | 0.87 | 0.92 | 0.93 | 0.94 | 0.88 | 0.91 | 0.91 | 0.92 | 0.90 | 0.92 | 30 |
注: 黑体为最佳,下划线为次佳。
各深层模型与本文方法在ISPRS Vaihingen数据集上的评价结果如
图5 深度模型在ISPRS Vaihingen数据集上的分割结果
Fig.5 Segmentation results of the depth model on the ISPRS Vaihingen dataset
4.1.2 与其他现有研究成果对比
该部分将本文方法与目前分割性能较好的文献中的方法进行对比,结果如
模型 | imp surf | building | low vegetation | tree | car | OA |
---|---|---|---|---|---|---|
CNN+RF | 0.88 | 0.94 | 0.76 | 0.86 | 0.67 | 0.86 |
Deconvolution | — | — | — | — | — | 0.87 |
Dilation | 0.90 | 0.94 | 0.77 | 0.87 | 0.76 | 0.87 |
Econder-Deconder+CRF | 0.84 | 0.91 | 0.75 | 0.88 | 0.77 | 0.85 |
Econder-Deconder(with deconv) | 0.91 | 0.94 | 0.82 | 0.89 | 0.85 | 0.89 |
FRes-MFDNN | 0.95 | 0.96 | 0.89 | 0.90 | 0.88 | 0.91 |
在
4.1.3 ISPRS Vaihingen数据集无标注图像实验结果对比
为了更好的验证本文模型的分割性能,本文采用ISPRS Vaihingen 数据集中area4、area31和area35等3张不含标注图,分别在各对比模型中进行实验,部分结果展示如
图6 深度模型在ISPRS Vaihingen数据集5幅无标注图像上的分割结果
Fig.6 Segmentation results of the deep models on five unlabeled images of the ISPRS Vaihingen dataset
在没有标记图参考的情况下,参照原图(第1列)可以看到,本文方法在分割的正确性、完整性以及目标边界平滑性上比其他他对比模型的效果好。
4.2.1 实验结果
在Road Detection Dataset上,本文方法与各深层模型的分割结果如
图7 深度模型在Road Detection测试集部分图像上的分割结果
Fig.7 Segmentation results of the depth models on some images of the Road Detection testset
模型 | Image1 | Image2 | Image3 | Image4 | Image5 | Avg. |
---|---|---|---|---|---|---|
P R | P R | P R | P R | P R | P R | |
FRes-MFDNN | 0.99 0.88 | 0.96 0.90 | 0.98 0.89 | 0.98 0.91 | 0.93 0.91 | 0.97 0.90 |
U-Net | 0.98 0.86 | 0.95 0.88 | 0.91 0.85 | 0.94 0.87 | 0.96 0.89 | 0.95 0.87 |
SegNet | 0.97 0.84 | 0.92 0.86 | 0.94 0.70 | 0.90 0.60 | 0.95 0.83 | 0.94 0.77 |
DeconvNet | 0.96 0.75 | 0.92 0.86 | 0.93 0.68 | 0.87 0.57 | 0.91 0.85 | 0.92 0.74 |
FCN8s | 0.96 0.74 | 0.89 0.79 | 0.87 0.67 | 0.85 0.87 | 0.93 0.83 | 0.90 0.78 |
注: 黑体为最佳,下划线为次佳。
图8 深度模型在Road Detection测试集上的平均IOU和平均F1值结果
Fig.8 The average IOU and average F1 of the deep models on the Road Detection testset
4.2.2 与其他现有研究成果对比
该部分将本文方法与现有道路分割的研究方法在Road Detection数据集上进行对比,结果如
在
4.2.3 模型推广性验证
为了更好地验证本文模型在分割遥感道路图像方面的性能,我们从谷歌地图上采集了美国圣路易斯某街区上空的图像,所有图像为三通道RGB彩色图像,空间分辨率为20 m,分别送入训练好的各模型进行测试,其部分结果如
图9 深度模型在Road Detection无标记图像上的分割结果
Fig.9 Segmentation results of deep models on unmarked images of the Road Detection dataset
尽管采集的图像和用于训练模型的Road Detection数据集在背景复杂度、光谱信息以及空间分辨率方面都有所不同,但是从
深度卷积神经网络模型大都考虑加深网络层次来提升分割性能,但网络层次的加深易使网络出现梯度消失且多次池化操作也会造成特征图分辨率明显降低。针对以上问题,在卷积编码—解码网络的基础上,本文提出了一种采用完全残差连接与多尺度特征融合的图像分割模型,首先将编码器中的特征融合到解码器相应层中,并在相应的卷积层内部增加了残差单元,该操作共同构建的完全残差连接使模型整体能够有效地增强特征融合且更易训练;其次特征融合之前在编码器第五阶段的高级特征图上使用聚合多尺度上下文信息的特征金子塔模块,使模型能够有效应对目标多尺度变化,提升分割性能。本文在ISPRS Vaihingen和Road Detection公开数据集上进行实验,并通过与现有先进模型的结果进行对比,结果表明所提出的模型分别在两个数据集上达到了优于目前先进的图像语义分割模型的结果,分割出的目标更为完整、连续,错分以及漏分较少,并在不同来源的遥感影像道路分割中也取得了优于比较模型的结果。
Audebert N, Le Saux B and Lefèvrey S. 2017. Fusion of heterogeneous data in convolutional networks for urban semantic labeling//Proceedings of 2017 Joint Urban Remote Sensing Event. Dubai, United Arab Emirates: IEEE: 1-4 [DOI: 10.1109/JURSE.2017.7924566] [百度学术]
Badrinarayanan V, Kendall, A and Cipolla R. 2017. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495. DOI: 10.1109/TPAMI.2016.2644615. [百度学术]
Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuille A L. 2018. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI: 10.1109/TPAMI.2017.2699184] [百度学术]
Chen L C, Papandreou G, Schroff F and Adam H. 2017. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587 [百度学术]
Cheng G L, Wang Y, Xu S B, Wang H Z, Xiang S M and Pan C H. 2017. Automatic road detection and centerline extraction via cascaded end-to-end convolutional neural network. IEEE Transactions on Geoscience and Remote Sensing, 55(6): 3322-3337 [DOI: 10.1109/TGRS.2017.2669341] [百度学术]
He K M, Zhang X Y, Ren S Q and Sun J. 2015. Delving deep into rectifiers: surpassing human-level performance on imageNet classification//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1026-1034 [DOI: 10.1109/ICCV.2015.123] [百度学术]
He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90] [百度学术]
ISPRS Vaihingen dataset. 2018. http://www2.isprs.org/commissions/comm2/wg4/vaihingen-2d-semantic-labeling-contest.html [百度学术]
Lin G S, Milan A, Shen C H and Reid I. 2017. RefineNet: multi-path refinement networks for high-resolution semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 5168-5177 [DOI: 10.1109/CVPR.2017.549] [百度学术]
Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 3431-3440 [DOI: 10.1109/CVPR.2015.7298965] [百度学术]
Maggiori E, Tarabalka Y, Charpiat G and Alliez P. 2017. High-resolution aerial image labeling with convolutional neural networks. IEEE Transactions on Geoscience and Remote Sensing, 55(12): 7092-7103 [DOI: 10.1109/TGRS.2017.2740362] [百度学术]
Noh H, Hong S and Han B. 2015. Learning deconvolution network for semantic segmentation//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1520-1528 [DOI: 10.1109/ICCV.2015.178] [百度学术]
Paisitkriangkrai S, Sherrah J, Janney P and Van-Den Hengel A. 2015. Effective semantic pixel labelling with convolutional networks and conditional random fields//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA: IEEE: 36-43 [DOI: 10.1109/CVPRW.2015.7301381] [百度学术]
Panboonyuen T, Jitkajornwanich K, Lawawirojwong S, Srestasathiern P and Vateekul P. 2017. Road segmentation of remotely-sensed images using deep convolutional neural networks with landscape metrics and conditional random fields. Remote Sensing, 9(7): 680 [DOI: /10.3390/rs9070680] [百度学术]
Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241 [DOI: 10.1007/978-3-319-24574-4_28] [百度学术]
Sherrah J. 2016. Fully convolutional networks for dense semantic labelling of high-resolution aerial imagery. arXiv preprint arXiv:1606.02585. [百度学术]
Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition. International Conference on Learning Representations. 1-14. [百度学术]
Volpi M and Tuia D. 2017. Dense semantic labeling of subdecimeter resolution images with convolutional neural networks. IEEE Transactions on Geoscience and Remote Sensing, 55(2): 881-893 [DOI: 10.1109/TGRS.2016.2616585] [百度学术]
Wang P Q, Chen P F, Yuan Y, Liu D, Huang Z H, Hou X D and Cottrell G. 2018. Understanding convolution for semantic segmentation//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, NV, USA: IEEE: 1451-1460 [DOI: 10.1109/WACV.2018.00163] [百度学术]
Wu Y Q, Ji Y, Shen Y and Zhang Y F. 2012. Marine spill oil SAR image segmentation based on Tsallis entropy and improved Chan Vese model. Journal of Remote Sensing, 16(4): 678-690 [百度学术]
吴一全, 吉玚, 沈毅, 张宇飞. 2012. Tsallis熵和改进CV模型的海面溢油SAR图像分割. 遥感学报, 16(4): 678-690 [DOI: 10.11834/jrs.20121192] [百度学术]
Yang X Z, Liu C J, Wu K W and Lang W H. 2014. SAR sea ice image segmentation using SRRG-MRF. Journal of Remote Sensing, 18(6): 1247-1257 [百度学术]
杨学志, 刘灿俊, 吴克伟, 郎文辉. 2014. SRRG-MRF的SAR海冰图像分割算法. 遥感学报, 18(6): 1247-1257 [DOI: 10.11834/jrs.20143266] [百度学术]
Yu B, Meng J M, Zhang X and Ji Y G. 2013. Segmentation method for agglomerative hierarchical-based sea ice types using polarimetric SAR data. Journal of Remote Sensing, 17(4): 887-904 [百度学术]
于波, 孟俊敏, 张晰, 纪永刚. 2013. 结合凝聚层次聚类的极化SAR海冰分割. 遥感学报, 17(4): 887-904 [DOI: 10.11834/jrs.20132091] [百度学术]
Yu F and Koltun V. 2016. Multi-scale context aggregation by dilated convolutions. International Conference on Learning Representations. 1-13. [百度学术]
Zeiler M D and Fergus R. 2014. Visualizing and understanding convolutional networks//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 818-833 [DOI: 10.1007/978-3-319-10590-1_53] [百度学术]
Zhang Z X, Liu Q J and Wang Y H. 2018. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753 [DOI: 10.1109/LGRS.2018.2802944] [百度学术]
Zhao H S, Shi J P, Qi X J, Wang X G and Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 6230-6239 [DOI: 10.1109/CVPR.2017.660] [百度学术]
Zheng W, Kang G W, Chen W F and Li X W. 2008. Unsupervised segmentation of remote sensing images based on fuzzy Markov random field. Journal of Remote Sensing, 12(2): 246-252 [百度学术]
郑玮, 康戈文, 陈武凡, 李小文. 2008. 基于模糊马尔可夫随机场的无监督遥感图像分割算法. 遥感学报, 12(2): 246-252 [DOI: 10.11834/jrs.20080232] [百度学术]
Zhong Z Y, Jin L W and Xie Z C. 2015. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps//Proceedings of 2015 13th International Conference on Document Analysis and Recognition. Tunis, Tunisia: IEEE: 846-850 [DOI: 10.1109/ICDAR.2015.7333881] [百度学术]
Zhou M F and Wang X L. 2018. Object detection models of remote sensing images using deep neural networks with weakly supervised training method. Scientia Sinica Informationis, 48(8): 1022-1034 [百度学术]
周明非, 汪西莉. 2018. 弱监督深层神经网络遥感图像目标检测模型. 中国科学: 信息科学, 48(8): 1022-1034 [DOI: 10.1360/N112017-00208] [百度学术]
相关文章
相关作者
相关机构