基于U-net模型的遥感影像建筑物提取

时间：2023-02-27 18:50:07 来源：千叶帆本文已影响人

孙尚彪，张海明，熊灵华，张雨涵，钟林汕，王民水，王明常,2

1.吉林大学地球探测科学与技术学院，长春 130026；
2.自然资源部城市国土资源监测与仿真重点实验室，广东深圳 518000

在高分辨率遥感影像的城市区域中，超过80%的地物是建筑物和道路，使用这些信息可以进行城市建设的变化检测和三维城市重建等[1]。近年来，随着遥感技术的发展，高分辨率遥感影像能够更加清晰地呈现建筑物的纹理特征和形状特征，但依旧存在“同物异谱”和“同谱异物”的现象[2]，且现代建筑物的轮廓更加复杂，传统遥感影像分类方法已难以满足对复杂建筑物的提取[3]。

深度学习的飞速发展，为遥感影像的分类提供技术参考。其中，卷积神经网络(convolutional neural networks，CNN)表现出强大的分类能力，但是传统的CNN进行像素分类时因数据冗余造成内存开销急剧增加，而只能判定整张遥感影像的类别，不能进行语义分割任务，因此并不适用于遥感影像的分类[4]。而全卷积神经网络(fully convolutional networks, FCN)对CNN模型进行了改进，采用反卷积层取代了CNN中的全连接层，使得可以输出与原始影像相同分辨率大小的分类结果，实现像素级别的分类[1]。

但FCN容易丢失细节信息且只能输入固定的尺寸影像[5]。目前已有许多分割模型对FCN进行了改进，其中代表性的模型有SegNet模型[6]、DeconvNet模型[7]、Deeplab模型[8]和U-net模型[9]。为表现改进后的模型在影像分类中的优越性，本研究采用U-net模型进行建筑物提取，该模型采用了对称的U型结构设计，融合了低维与高维的特征，同时考虑到影像的全局信息和细节信息，最后得到每个像元的分类结果，极大提升了建筑物的分类精度。目前，国内外学者针对U-net模型开展了一系列研究工作，王宁等[4]基于U-net模型对遥感影像中的水体进行提取，其结果优于随机森林模型；
陈进等[5]基于U-net模型对含杂水稻籽粒进行影像分割，能够有效识别影像中的谷物和茎秆等信息；
林旭[10]等利用空洞卷积改进U-net模型，提高了对植被的提取精度；
洪汉玉等[11]基于U-net模型快速检测出影像中的绳带信息；
苏健民等[12]验证了U-net网络的精度比SegNet网络和DeconvNet网络的精度更高。Buslaev et al.[13]将Resnet34作为U-net模型的编码器，并选用两种损失函数进行加权求和，对土地覆盖进行分割，交并比达到64%。基于以上分析，U-net模型表现出强大的影像分割能力，因此本文使用U-net模型进行遥感影像分类，并采用公开的Massachusetts建筑物数据集进行模型训练和验证，再和传统方法提取的建筑物结果进行对比，比较其提取结果和分类精度，旨在选择一种高效的建筑物提取方法，为快速获得建筑物的分布信息以及城市建设规划的需要提供参考。

1.1 传统监督分类法

本实验采用5种传统遥感影像分类方法进行建筑物提取和精度对比的分析实验，包括最大似然法、马氏距离法、最小距离法、神经网络和支持向量机。以下详细描述了传统分类方法的基本原理。

最大似然法是一种典型的基于影像统计的监督分类方法，又称为贝叶斯分类[14]。该方法的思想是假设每一个波段的每一类统计都呈正态分布，计算给定像元属于某一训练样本的似然度，像元最终被归并到似然度最大的一类当中。

马氏距离法是计算输入影像到各训练样本的协方差距离，最终计算协方差距离最小的，即为此类别，但要求输入的波段数据是正态分布的，否则会引起分类误差[14]。

最小距离法与马氏距离法的原理是相似的，利用训练样本数据计算出每一类的均值向量和标准差向量，然后以均值向量作为该类在特征空间中的中心位置，计算输入影像中每个像元到各类中心的距离大小来决定其类别[15]。

神经网络指用计算机模拟人脑的结构，用许多小的处理单元模拟生物的神经元，用算法实现人脑的识别、记忆和思考过程。在网络学习阶段，网络通过调整权重来实现输入样本与其正确类型的对应，具有较好的预测分类能力。

支持向量机(support vector machine, SVM)是一种建立在统计学习理论(statistical learning theory, SLT)基础上的机器学习方法，可以自动寻找那些对分类有较大区分能力的支持向量，由此构造出分类器，可以将类与类之间的间隔最大化，因而有较好的推广性和较高的分类准确率，在解决小样本、非线性和高维模式识别中具有独特的优势[16]。

1.2 U-net卷积神经网络

U-net模型是一个没有全连接层的全卷积神经网络，为U型对称的编码器-译码器结构，由卷积层、最大池化层、反卷积层以及ReLu非线性激活函数组成，其输入和输出均为相同分辨率的影像[17]。它沿用了FCN进行影像语义分割的思想[18]，可以利用少量的数据学习到一个对边缘提取具有十分良好的鲁棒性的模型[19]，即利用卷积层、最大池化层进行特征提取，再利用反卷积层还原影像尺寸。而且U型结构的设计，可以使裁剪和拼接过程更加直观、合理；
高层特征图与底层特征图的拼接以及卷积的反复、连续操作，使得模型能够从上下文信息和细节信息的组合中得到更加精确的输出特征图。

该模型网络结构如图1所示，其中，蓝/白色框表示特征图，蓝色箭头表示3×3卷积，用于特征提取，灰色箭头表示跳跃连接，用于特征融合，红色箭头表示最大池化，用于降低维度，绿色箭头表示上采样，用于恢复维度，青色箭头表示1×1卷积，用于输出结果。模型由左半边的压缩通道和右半边的扩展通道组成，压缩通道是一个解码器，用于逐层提取影响的特征，它重复采用2个卷积层和1个最大池化层的结构，输入的遥感影像每进行一次池化操作后，特征图的维数就增加1倍；
扩展通道是一个解码器，用于还原影像的位置信息，它先进行一次反卷积操作，使特征图的维数减半，然后拼接对应压缩通道裁剪得到的特征图，重新组成一个2倍大小的特征图，再采用2个卷积层进行特征提取，并重复这一结构，在最后的输出层，用2个卷积层将64维的特征图映射成2维的输出图。

图1 U-net模型结构Fig.1 Structure of U-net model

本实验以公开数据集中的标签数据作为模型精度评定标准，采用准确率、召回率和F1值进行结果评价(表1)。

准确率(accuracy)表示预测符合标签的样本与总样本的比例，准确率值越大，模型预测的结果越准确，其表达式如下：

(1)

表1 混淆矩阵

召回率(recall)表示正确预测正样本占正样本的比例，其表达式如下：

(2)

F1值是精确率和召回率的调和平均值，F1值越高，模型越稳健，其表达式如下：

(3)

实验采用Massachusetts建筑数据集，该数据集由151组航拍影像和相应的单通道标签影像组成，其中训练部分为137组，测试部分为10组，验证部分为4组。数据集中所有影像的像素大小为1 500×1 500，空间分辨率为1 m。每幅影像覆盖了2.25 km2的区域，整个数据集大约覆盖340 km2[20]。影像数据和标签数据如图2所示。

a.原始遥感影像；
b.对应的标签数据。图2 实验所采用的部分数据Fig.2 Some data used in experiments

首先，实验使用软件根据遥感影像建立ROI感兴趣区域，分为建筑物和非建筑物两类，然后采用监督分类中的最大似然法、马氏距离法、神经网络、最小距离和支持向量机分别进行建筑物的分类(图3)。

a.最大似然法；
b.马氏距离法；
c.神经网络；
d.最小距离法；
e.支持向量机。图3 传统分类方法提取数据集中建筑物的结果图Fig.3 Results of extracting buildings from dataset using traditional classification methods

由图3可见，传统遥感提取的结果中建筑物的轮廓不完整，且将部分道路等与建筑物材质相似的区域错分为建筑物。五种分类方法的结果相差较小，整体上均呈现出建筑物的分布范围，但局部区域的建筑物信息分类不准确。

然后使用深度学习的方法进行建筑物分类，首先将数据集导入至U-net模型中，先后对遥感影像进行训练和验证，得到训练和验证的损失、准确度曲线图(图4)。利用数据集对模型进行训练，选择参数最优的模型，并进行建筑物的提取验证，得到的提取结果如图5所示。

图4 损失和准确度曲线Fig.4 Loss and accuracy curves

a.训练预测图；
b.对应的标签数据。图5 模型验证结果Fig.5 Model validation results

由图5可见，采用深度学习的方法能够有效避免道路和阴影造成的影响，且没有细碎的噪声斑块，建筑物轮廓清晰，没有发生断续现象。

依据评定标准，计算U-net方法和传统遥感分类方法提取建筑物的准确度、召回率和F1值(表2)。

表2 分割结果对比

由表2可见，由于建筑物和道路的材质相似和阴影等造成的影响，传统方法在进行分类时未进行有效分割，而将道路和建筑物分为一类，因此造成准确度、召回率和F1值相比U-net较低，准确度均为60%±10%，召回率为20%±6%，F1值为25%±6%。而U-net网络模型可以有效提高建筑物分类精度，准确度达到95%以上，召回率为88.109%，F1值为82.123%。因此，本文采用的深度学习方法对建筑物提取具有一定的可行性。

(1)传统分类方法需要人工建立ROI区域，提取分类特征，人工提取分类特征的优劣直接影响建筑物的提取精度。

(2)U-net模型能够通过对大量样本进行训练，不断更新权值，能够很好地学习分类特征，提取地物的本质特征，极大地提高了建筑物提取的精度。

(3)深度学习网络需要大量的样本数据，而建筑物数据集的有限，容易出现过拟合的现象，且网络参数的调整依赖于多次试验，对深度学习在地物提取上的应用带来一定的挑战。

猜你喜欢建筑物卷积精度热连轧机组粗轧机精度控制一重技术(2021年5期)2022-01-18基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02邻近既有建筑物全套管回转钻机拔桩技术铁道建筑技术(2021年4期)2021-07-21现代中小河流常用有坝壅水建筑物型式探讨黑龙江水利科技(2020年8期)2021-01-21卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14超高精度计时器——原子钟中学生数理化·八年级物理人教版(2019年9期)2019-11-25描写建筑物的词语小学生学习指导(低年级)(2019年9期)2019-09-25从滤波器理解卷积电子制作(2019年11期)2019-07-04分析误差提精度中学生数理化·八年级物理人教版(2019年12期)2019-05-21基于DSPIC33F微处理器的采集精度的提高电子制作(2018年11期)2018-08-04

相关热词搜索：遥感，建筑物，提取，

基于U-net模型的遥感影像建筑物提取

1.1 传统监督分类法

1.2 U-net卷积神经网络

热门文章