• 工作总结
  • 工作计划
  • 读后感
  • 发言稿
  • 心得体会
  • 思想汇报
  • 述职报告
  • 作文大全
  • 教学设计
  • 不忘初心
  • 打黑除恶
  • 党课下载
  • 主题教育
  • 谈话记录
  • 申请书
  • 对照材料
  • 自查报告
  • 整改报告
  • 脱贫攻坚
  • 党建材料
  • 观后感
  • 评语
  • 口号
  • 规章制度
  • 事迹材料
  • 策划方案
  • 工作汇报
  • 讲话稿
  • 公文范文
  • 致辞稿
  • 调查报告
  • 学习强国
  • 疫情防控
  • 振兴乡镇
  • 工作要点
  • 治国理政
  • 十九届五中全会
  • 教育整顿
  • 党史学习
  • 建党100周
  • 当前位置: 蜗牛文摘网 > 实用文档 > 公文范文 > 基于多类别Focal,Loss损失函数的变电站场景图像语义分割研究

    基于多类别Focal,Loss损失函数的变电站场景图像语义分割研究

    时间:2023-02-25 19:30:06 来源:千叶帆 本文已影响

    毛 昊, 李新利, 王孝伟, 杨国田, 彭 鹏, 邵宇鹰

    (1.华北电力大学 控制与计算机工程学院,北京 102206;
    2.国网上海市电力公司,江苏 上海 200120)

    电力应急抢修作业过程和日常巡检中易发生人员伤亡事故、造成损失,因此使用智能机器人进行变电站作业是一个重要的研究方向。在变电站的抢修作业及日常巡检的场景下,图像语义分割技术可以帮助机器人识别事故现场的人员以及各种电力设备的位置和状态等环境语义信息,对于机器人正确决策、减少人员伤亡和财产损失具有重大意义。

    传统的图像语义分割方法根据图像的颜色、纹理信息、空间结构等底层特征对图像进行分割,例如基于阈值的OTSU自适应阈值分割算法[1],基于决策树的Text on Forest算法[2]。自从2015年LONG J等首次提出全卷积网络FCN(Fully Convolutional Networks)[3]以来,基于编码器-解码器架构的神经网络成为实现图像语义分割任务的首选方法[4]。在FCN的基础上,研究人员相继提出了包括U-Net[5]、SegNet[6]、DeepLab[7]等用于图像语义分割的神经网络结构模型;
    其中U-Net模型主要用于二分类语义分割任务,而SegNet,DeepLab等模型主要用于多分类语义分割任务。

    针对电力场景下的语义分割,赵振兵等[8]使用FCN网络提取电力场景下的输电线轮廓;
    薛冰等[9]使用Mask-RCNN网络对电力设备上的锈迹进行[10]检测;
    王彤等人使用U-Net网络对变电站线路周边的隐患进行检测。上述研究成果都能很好地对某一类别的目标进行语义分割。然而电力设备实际场景中通常包含多个类别的目标,存在较严重的类别不平衡问题。当各类别目标出现频率差别较大时,会导致模型不能在所有类别上同时收敛,因此在各类别上的语义分割效果不一致,分割效果较差。

    针对图像语义分割任务中的类别不平衡问题,目前主要有三种方法:第一种是对训练数据进行裁剪,如Valverde S等[11]对训练数据加以裁剪以平衡各类别实例的出现频率,实验证明,这种方法虽然能缓解类别不平衡问题,但是裁剪数据的过程舍弃了部分训练数据,降低了模型在所有类别上的总体分割能力。第二种方法是在损失函数中对不同的类别进行加权,给出现频率较小的类别以更高的权重,Badrinarayanan V等[6]将损失函数中各类别的权值设为该类别实例出现频率的倒数。这种方法在一定程度上能够缓解类别不平衡问题,但是在类别不平衡现象较严重时,加权抑制类别不平衡现象的效果有限;
    而且这种方式引入了新的超参数:各类别在损失函数的权重,当类别数量较多时,难以有效地选取合适的权重。第三种方式是使用对小类更友好的损失函数(如Focal Loss,Tversky Loss等[12])训练模型,这类损失函数能够在训练过程中动态地调整各类别的权值,如Salehi等[13]使用Tversky Loss损失函数训练了U-Net模型,Zhu W等[14]使用Focal Loss和Tversky Loss联合训练了U-Net模型,Zhao Y等[15]根据分割对象的特点,提出Constrained Focal Loss对语义分割模型加以训练。上述实验均证明使用对小类友好的损失函数训练得到的模型的性能优于传统的交叉熵损失函数。上述研究均基于二分类语义分割任务,而变电站实际场景中面临的通常是一个多类别语义分割任务,且通常面临严重的类别不平衡问题。

    针对多类别语义分割中的类别不平衡问题,本文提出了一种多类别Focal Loss损失函数,该损失函数可以在训练过程中根据训练效果动态调节各类别的权值,使小类得到更充分的训练。基于变电站场景的实际图像,采用多类别Focal Loss损失函数训练FCN、SegNet和DeepLab V3语义分割模型,实现变电站场景图像语义分割。

    在深度学习神经网络模型中,损失函数是网络模型的性能度量。通常用于训练二分类语义分割模型的损失函数包括交叉熵损失函数和Focal Loss损失函数。FCN和SegNet网络模型诞生之初,均采用交叉熵损失函数进行训练,自从Lin T Y等[16]提出二分类Focal Loss损失函数以来,Focal Loss损失函数在图像语义分割领域得到了广泛应用。

    二分类语义分割的Focal Loss损失是基于交叉熵损失函数改造得到的,其数学表达式如下所示:

    FL(pt)=-(1-pt)γlog(pt)

    (1)

    式中:FL表示图像上每个像素点的Focal Loss损失函数值;
    -log(pt)为初始交叉熵函数值;
    pt表示模型在该像素点上对正类的输出值,γ为聚焦系数,取值范围介于[0,+∞)之间。当γ取0时,Focal Loss损失函数退化为交叉熵损失函数。γ越大,Focal Loss损失函数抑制类别不平衡现象的能力越强,但选取过大的γ可能会影响模型的整体准确率。

    本文提出的用于多类别语义分割任务的多类别Focal Loss损失函数的数学表达式如下:

    (2)

    lossc=-αc(1-pc)γlog(pc)

    (3)

    (4)

    式中:FL为图像上某像素点对应的多类别Focal Loss损失函数值;
    ct为该像素点的真实类别;
    pc∈[0,+∞)表示模型在该像素点上对第c类的输出值,其数学意义是模型判断该像素点属于第c类的肯定程度;
    freq(c)表示第c类实例在数据集中的出现频率。

    多类别Focal Loss损失函数中有3个超参数:加权系数β∈[0,+∞)、聚焦系数γ∈[0,+∞)和负类门控系数Γ∈(0,1),其中加权系数β和聚焦系数γ共同作用以调节损失函数中各类别的权重,而负类门控系数Γ用于控制是否在损失函数中考虑错误类别。

    式(2)中,lossc表示模型在该像素点上对第c类的损失函数值,由三部分组成:αc表示损失函数中第c类的初始权值,(1-pc)γ表示模型在每个轮次结束之后对第c类权值的动态修正量,两者的乘积是损失函数中第c类的真正权值;
    -log(pc)为初始交叉熵损失函数值。初始权值αc的大小由加权系数β控制,β越大,出现频率较小的类的初始权值相对越大。权重的动态修正量的大小由聚焦系数γ控制,γ越大,模型通过调整权值缓解类别不平衡现象的作用越强,但γ取值过大时会影响模型在所有类别上的总体分割能力。图1展示了不同γ取值下第c类的损失函数值lossc随模型对第c类的输出值pc的变化趋势。

    图1 不同γ取值下的lossc曲线Fig. 1 Lossc curve under different γ

    图像上某像素点的Focal Loss损失函数值由两部分构成:该像素点上正确分类造成的损失函数值和该像素点上错误分类造成的损失函数值。而负类门控系数Γ用于调节损失函数中错误分类造成的损失占总损失函数的比例,Γ=0表示不考虑模型输出在错误类别上造成的损失,Γ=1表示考虑模型输出在错误类别上造成的损失。

    基于深度学习的图像语义分割研究在近几年呈现爆发态势,各种新网络层出不穷。通用的语义分割网络结构包括FCN[3]、U-Net[5]、SegNet[6]和DeepLab系列网络[7]等。本文选用经典的FCN网络、SegNet网络和DeepLabV3网络模型以验证多类别Focal Loss损失函数对图像语义分割效果的提升作用。

    2.1 FCN网络

    FCN网络是第一个成功实现图像语义分割的深度学习模型,其创造性地将转置卷积用于网络上采样,并通过如图2所示的跳跃结构[3]将网络浅池化层输出与深池化层的输出相加,这种结构融合了不同抽象程度的语义信息,大幅度提高了网络的分割能力[17]。

    图2 跳跃结构示意图Fig. 2 Diagram of skip architecture

    本文构建的FCN网络模型的结构如图3所示,网络接收尺寸为224×224的彩色三通道输入图像,经过5个连续的卷积池化模块,将输入图像中的语义信息压缩为7×7×512的特征图,之后再经过5个转置卷积模块将特征图放大为224×224×4的输出张量,输出张量的每一层表示模型判断输入图像对应像素属于该类别实例的置信程度。

    图3 FCN网络结构Fig. 3 Structure of FCN

    2.2 SegNet网络

    SegNet网络对FCN网络进行了改进,将网络结构分为互相对称的编码器模块和解码器模块。SegNet网络改进了FCN模型的上采样方式,通过在解码器中使用重用编码器的池化索引实现上采样,其运算过程如图4所示[6]:先将输入图像的每个像素放大到对应池化核大小,再将池化索引对应位置上的值设为输入像素值,其它位置上置零。这种上采样方式,既保留了图像下采样前池化核内部的具体位置信息,又避免了引入额外的卷积或插值运算。

    图4 FCN网络和SegNet网络上采样原理Fig. 4 Principle of upsampling in FCN and SegNet

    本文构建的SegNet网络结构如图5所示,其输入输出张量和特征图张量的尺寸与上文构建的FCN网络相同。

    图5 SegNet网络结构Fig. 5 Structure of SegNet

    2.3 DeepLabV3网络

    DeepLabV3网络结构如图6所示[7],在编码器部分使用了空洞空间卷积池化金字塔(atrous spatial pyramid pooling,ASPP)模块[18]和残差结构[19]。相比于前述网络中的标准卷积,空洞卷积有效地扩大了卷积核的感受野,提高了输出的特征图的细腻程度。残差结构融合了输入图片的不同尺度的语义信息,极大程度地在特征图中保留了图片的原始语义信息。

    图6 DeepLabV3网络结构Fig. 6 Structure of DeepLabV3

    与FCN网络和SegNet网络相同,本文构建的DeepLabV3网络模型的输入输出张量尺寸分别为224×224×3和224×224×4,输出张量的每一层表示模型将输入图片中对应位置的像素点判断为该类别对象的置信程度。

    3.1 数据集的构建

    实验数据集来自于某变电站巡检过程图片,包含约300张变电站配电室和室外场景的图片,针对图片中的机柜、变压器和人体等巡检过程中较重要部分进行标注。基于这些类别,使用各类别像素出现频率,即各类别的像素点占数据集中像素点总数的比率来衡量数据集中的类别不平衡现象,数据集中各类别实例的出现频率如图7所示。该数据集中存在着较严重的类别不平衡问题,其中最小类别实例的出现频率(人体,0.038)仅为最大类别实例的出现频率(机柜,0.342)的1/10。

    图7 数据集中各类别实例的出现频率Fig. 7 Frequency of different classes in dataset

    为增强模型的泛化能力,提升模型的性能,采用了一系列数据增强方法对数据进行增强,按照8∶1∶1的比例分成训练集、验证集和测试集。具体的数据增强方法包括随机翻转、视角变换、色彩变换、添加噪声和随机裁剪等,其效果如图8所示。

    图8 图像增强手段及其效果Fig. 8 Data augment methods and effects

    3.2 网络性能评价指标

    本文从两个方面衡量图像语义分割模型的性能:一是模型的总体分割能力,表现为模型在所有类别上的语义分割效果的均值;
    二是模型缓解类别不平衡现象的能力,表现为模型在不同类别上的分割能力的差距。

    设nc表示类别数,ti表示第i类像素点的总数,nij表示第i类像素点中被预测成第j类的个数。为量化模型的上述两个能力,定义包括像素准确率(Pixel Accuracy, PA)、像素准确率的标准差(Standard deviation of Pixel Accuracy, SPA)、平均准确率(Mean Accuracy, MA)和平均交并比(mean Intersection over Union, mIoU)在内的4个评价指标。

    (5)

    像素准确率用于衡量模型在某一类别上的分割效果,其数值越大,模型在该类别上的分割能力越强。

    像素准确率的标准差的数学表达式如下:

    SPA=σ(PA(i))|i∈{1…nc}

    (6)

    像素准确率的标准差反映了模型缓解类别不平衡现象的能力,其数值越小,模型类别不平衡现象的能力越强。

    平均准确率是指模型在不同类别上的像素准确率的均值,其数学表达式如下:

    (7)

    平均准确率反映了模型的总体分割能力,其数值越大,模型的总体分割能力越强。

    平均交并比指的是分割结果与原始图像真值的重合程度,其数学表达式如下[20]:

    (8)

    平均交并比综合考虑了分割结果在所有类别上的准确率和召回率,是一个衡量模型总体分割能力的指标,其数值越大,模型的总体分割能力越强。

    国内外学者围绕活性炭、多孔硅胶、煤粉、干水、介孔硅等介质的粒径、孔径等因素进行了大量的甲烷水合物生成实验。然而,冻土区和海底沉积层赋存的水合物常在含砂类介质下稳定存在,受地压的影响,水合物相邻赋存区域的温度梯度差异较小。且关于小梯度温度下甲烷水合物在砂类介质中的生成实验研究较少。石英砂作为一种常见的多孔介质,价格低廉,可重复率高,比表面积大,界面性好。故本研究选取石英砂开展273.75 K、273.85 K、273.95 K 3种温度下甲烷水合物生成实验,分析水合物生成过程中的热力学特性和动力学行为。

    在上述4个指标中,MA和mIoU用于衡量模型在所有类别上的总体分割能力,SPA用于衡量模型缓解类别不平衡现象的能力。其中MA只考虑了分割结果的准确率,而mIoU综合考虑了分割结果的准确率和召回率,因此mIoU比MA更客观地反映模型的总体分割能力。

    3.3 模型参数配置

    针对所构建的FCN网络、SegNet网络和DeepLabV3网络模型进行训练。为加速收敛,模型的编码器部分均预加载了在ImageNet数据集上预训练好的VGG16网络模型[21]的权重,并在此基础上进行迁移学习训练。网络的可训练参数总量及其生成的权重文件大小如表1所示。

    表1 网络模型的规模Tab.1 Size of models

    使用Adam优化器[22]进行梯度下降运算,其初始学习率取0.000 1,动量参数β1取0.9,β2取0.999 9,并对模型参数进行L2正则化[23],正则化参数weight_decay取0.98。

    分别使用交叉熵损失函数和不同超参数组合下的多类别Focal Loss损失函数进行训练,以对比研究Focal Loss损失函数对模型训练效果的影响。多类别Focal Loss损失函数的超参数包括聚焦系数γ、加权系数β和负类门控系数Γ,实验中这些超参数分别选取如下值进行训练:

    聚焦系数γ分别取到2和5,以比较聚焦程度对训练效果的影响。

    加权系数β分别取到0和1,以比较各种权值初始化方式对训练效果的影响。

    负类门控系数Γ分别取到0和1,以比较是否考虑错误分类造成的损失对训练效果的影响。

    3.4 训练结果分析

    本次实验在RTX 2080Ti显卡上进行训练。其中FCN网络、SegNet网络和DeepLabV3网络模型的平均收敛时长分别为约2小时、4小时和3小时,训练得到的模型在测试集上的各性能指标分别如表2、表3和表4所示,其中交叉熵损失函数不具有γ、β和Γ参数,因此表格中对应位置以×表示。

    表2 不同损失函数下FCN网络模型的性能Tab.2 Performance of FCN trained by different loss functions

    表3 不同损失函数下SegNet网络模型的性能Tab.3 Performance of SegNet trained by different loss functions

    表4 不同损失函数下DeepLabV3网络模型的性能Tab.4 Performance of DeepLabV3 trained by different loss functions

    从表2、表3和表4可以看出,三种语义分割模型的性能从高到低分别为DeepLabV3网络、SegNet网络和FCN网络。DeepLabV3网络模型尺寸最小且性能最优,但该模型的网络结构较为复杂,实现难度较大。SegNet网络模型的各项性能指标总体上优于FCN网络模型,这是因为相比于FCN网络,SegNet网络的规模较大且网络结构较复杂。但SegNet网络模型的训练时间和推断时间均长于FCN网络模型。在实际工程应用中,需要根据对实时性和准确性的要求灵活选取模型。由网络性能指标可知,使用多类别Focal Loss损失函数训练得到的模型的各项性能指标均优于使用交叉熵损失函数的性能指标,表明了使用多类别Focal Loss损失函数训练网络模型,不仅可以增强模型缓解类别不平衡现象的能力,也能提升模型的总体分割能力。在所有超参数组合中,组合γ=2,β=1,Γ=0在三个模型上均取得最优训练效果,且各超参数对训练效果的影响基本一致,体现出多类别Focal Loss损失函数在基于深度学习的图像语义分割模型上具有一定的通用性。

    聚焦系数γ、加权系数β和负类门控系数Γ的不同取值对训练结果的影响如下。

    (1) 聚焦系数γ对训练结果的影响

    从模型训练结果的各项性能指标来看,γ取值较大时网络模型在出现频率低的小类上的分割效果有所增强,类别不平衡现象得到缓解,但模型在所有类别上的总体分割效果略有降低。根据各模型的性能指标数据分析可知,在变电站抢险救灾场景下的语义分割任务中,取γ=2最合适。

    (2) 加权系数β对训练结果的影响

    对比不同β取值下训练得到的网络模型的各项性能指标,可以发现在其它超参数取值不变的情况下,取β=1时,模型的各项性能指标均优于取β=0时训练的训练结果。这说明在损失函数中初始化各类别权值时根据出现频率适当进行加权可以同时提高模型在所有类别上的总体分割能力和模型缓解类别不平衡现象的能力。

    图9展示了β分别取到0和1时,各类别的像素准确率的变化情况。可以看出,适当进行加权后,模型在出现频率较低的小类上的分割效果略有升高,而在出现频率较高的大类上的分割效果略有降低。

    图9 不同β取值下各类别的像素准确率Fig. 9 Pixel accuracy under different β

    (3) 负类门控系数Γ对训练结果的影响

    根据训练结果分析可知,将负类门控系数Γ设为0,即只考虑正确分类造成的损失而忽略错误分类造成的损失时,训练得到的网络模型的总体分割能力更好。

    基于交叉熵损失函数和最优超参数取值下的Focal Loss损失函数训练得到的模型的分割结果如图10所示。对比FCN、SegNet和DeepLabV3网络的分割结果,可以发现DeepLabV3网络模型分割结果的准确度和分割图边缘的平滑程度均远优于FCN网络和SegNet网络模型,而SegNet网络的准确度和分割边缘的平滑程度又优于FCN网络。对比使用多类别Focal Loss损失函数和交叉熵损失函数训练得到的模型,可以看出使用多类别Focal Loss损失函数得到的训练结果在人体和变压器等小类上的分割效果远优于交叉熵损失函数,在机柜等大类上的分割效果略低于交叉熵损失函数,体现出多类别Focal Loss损失函数缓解类别不平衡现象的能力。

    图10 基于不同模型和不同损失函数的语义分割结果Fig. 10 Results of semantic segmentation based on different combination of model and loss function

    3.5 在通用数据集上的训练效果

    为进一步说明多类别Focal Loss损失函数的普适性,在Pascal VOC和Camvid数据集的子集上分别使用交叉熵损失函数和多类别Focal Loss损失函数进行训练SegNet模型并统计其性能指标。

    本次实验在Pascal VOC和Camvid数据集上分别选取50,100,200,400,800条数据进行训练,以体现多类别Focal Loss损失函数在数据量较小时对训练效果的提升作用,实验结果如表5和表6所示。

    表5 不同规模Pascal VOC子集下的训练结果Tab.5 Training results of different scale Pascal VOC Subsets

    表6 不同规模Camvid子集下的训练结果Tab.6 Training results of different scale Camvid Subsets

    实验结果显示,在不同训练数据集规模下,使用Focal Loss损失函数训练模型得到的效果均优于交叉熵损失函数的训练结果,随着训练集规模的增加,两种损失函数训练效果的差异逐渐减小,这说明Focal Loss损失函数在数据规模较小时缓解类别不平衡的效果尤其明显。

    针对变电站场景下图像语义分割的类别不平衡问题,本文提出了一种多类别Focal Loss损失函数,该损失函数能够在训练过程中根据训练效果动态调节各类别的权值,对出现频率小的小类更加友好。基于变电站场景图片,分别采用多类别Focal Loss损失函数和交叉熵损失函数训练FCN、SegNet和DeepLabV3语义分割模型。通过像素准确率、像素准确率标准差、平均准确率、平均交并比指标分别衡量模型缓解类别不平衡现象的能力和模型在所有类别上的整体分割能力,分析了聚焦系数γ、加权系数β、负类门控系数Γ对训练结果的影响。实验结果证明,使用多类别Focal Loss损失函数进行训练,可以同时提高模型缓解类别不平衡现象的能力和模型的整体分割能力,通过一系列对比试验获取针对变电站场景下多类别Focal Loss损失函数中超参数的最优取值。

    猜你喜欢 像素点类别语义 真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31图像二值化处理硬件加速引擎的设计合肥工业大学学报(自然科学版)(2021年11期)2021-12-10论陶瓷刻划花艺术类别与特征陶瓷学报(2021年4期)2021-10-14基于局部相似性的特征匹配筛选算法现代电子技术(2021年1期)2021-01-17一起去图书馆吧少儿画王(3-6岁)(2020年4期)2020-09-13基于像素点筛选的舰船湍流尾迹检测算法微型电脑应用(2019年1期)2019-01-23基于canvas的前端数据加密电脑知识与技术(2018年35期)2018-02-27“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析人间(2015年21期)2015-03-11汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27
    相关热词搜索:语义变电站分割

    • 名人名言
    • 伤感文章
    • 短文摘抄
    • 散文
    • 亲情
    • 感悟
    • 心灵鸡汤