基于改进Faster-RCNN算法的带钢缺陷检测

时间：2023-03-27 11:10:05 来源：千叶帆本文已影响人

吴健生，王健全，付美霞，王振乾，卢一凡

（北京科技大学，北京 100083）

带钢作为基础工业原料广泛应用于建筑、造船、汽车等领域。由于工业生产环境复杂，带钢表面会产生许多类型缺陷，如划痕、裂纹、凹陷等，轻则影响钢的强度，重则引发安全事故。以前通常由经验丰富的技术工人目测缺陷，效率低。为此，研究人员不断探索基于机器视觉的带钢表面缺陷检测方法。王宇等［1］基于金属零件表面缺陷的基本特征、种类，提出利用机器视觉技术检测方法。吴旭东等［2］提出基于光度学特征和支持向量机分类的机器视觉检测方法。与人工检测相比，机器视觉法具有成本低，受环境干扰小的优点，但是需要手动设计特征提取器，而设计过程复杂，且只适用于特定任务，局限性较大。

近年来，深度学习的快速发展为解决传统缺陷检测鲁棒性差、效率低等问题提供了新思路。基于深度学习的算法无需手动设计特征提取器即可进行缺陷检测，已成为缺陷检测的主流方式。马燕婷等［3］提出了基于YOLOv5网络改进的带钢缺陷检测算法。寇旭鹏等［4］提出了基于Faster-RCNN的带钢缺陷检测算法。Faster-RCNN算法比YOLOv5算法检测速度慢，但是精度有所保证，应用更广泛。Faster-RCNN［5］是通用模型，为两阶段目标检测算法，因为该算法主干网络由固定大小和结构的卷积核组成，难以提取形状不规则的特征，无法适应多尺度缺陷且无法抑制复杂背景对钢表面的干扰，所以直接用于缺陷检测效果仍然有限。本文改进了Faster-RCNN网络，采用可变形卷积模块［6］，FPN［7］多尺度检测模块及 CBMA［8］注意力模块，进一步提高了带钢表面缺陷检测的精度。

1.1 问题陈述

1.2 Faster-RCNN网络架构

图1为Faster-RCNN网络架构。

图1 Faster-RCNN网络架构Fig.1 Network Architecture of Faster-RCNN

Faster-RCNN网络架构主要由CNN特征提取网络、区域候选网络（Region Proposal Network，RPN）、感兴趣区域池化层（Region of Interest Pooling，ROI Pooling）、检测网络构成。其中CNN特征提取网络可以是ResNet或者VGGNet等，由一组卷积层、池化层、激活层组成,用于提取图像的特征。RPN网络由分类器（Classifier）和边框回归（Bounding Box Regressor）两部分组成，其中分类器判断生成的锚框（anchors）中是否有目标，边框回归是为了修正anchors以获取更为准确的候选框。ROI池化层将RPN输出的候选框映射到特征图中以生成感兴趣区域。检测网络同样由分类器和边框回归构成，不过该分类器的输出为感兴趣区域中物体所属的类别，而边框回归用于回归更加精确的目标检测框。

1.3 改进模块

在Faster-RCNN基础上，分别对原网络架构中的特征提取网络、RPN网络进行改进。在主干网络部分，在ResNet-50的后4个块中引入可变形卷积模块，并采用FPN网络融合多尺度特征；
在RPN网络中，对输入特征图使用即插即用的CBAM注意力模块以抑制复杂背景对缺陷检测的干扰。图2为3×3标准卷积和可变形卷积中的采样位置。

图2 3×3标准卷积和可变形卷积中的采样位置Fig.2 Sampling Positions in 3×3 Standard Convolution and Deformable Convolution

1.3.1 可变形卷积模块

图3为可变形卷积采样效果。

图3 可变形卷积采样效果Fig.3 Sampling Effect for Deformable Convolution

与标准卷积相比，可变形卷积增加了每个采样点位置的偏移，从而导致采样点的变化，图2的卷积核可以在训练过程中自动调整尺度和感受野的大小，以适应不同对象的不同形状和大小的特性［6］，如图3缺陷图片中的采样效果所示，可变形卷积单元中添加的偏移是网络结构的一部分，由另一个并行标准卷积单元计算。图4为可变形卷积计算过程。

图4 可变形卷积计算过程Fig.4 Calculation Process for Deformable Convolution

式中，pn为R网格中所有位置的穷举。

然而可变形卷积的操作是不同的，规则网格R通过增加一个偏移量进行扩张，同样的位置p0表达式如下：

式中，∇p0为由输入特征图与另一个卷积生成的偏移矩阵。

由于采样位置变得不规则，是偏移矩阵，而偏移通常为小数，因此应通过双线性插值实现，计算公式如下：

式中，p 为任意位置（p=p0+pn+∇p0）；
q 为穷举特征图中x所有整数位置；
G为二维双线性插值核，其被划分为两个一维核，计算公式如下：

1.3.2 FPN模块

在深度卷积神经网络中，浅层网络提取的特征是浅层特征，尺寸大，几何信息丰富，语义信息弱，有利于目标定位，但不利于目标分类。由于池化操作，高层网络提取的特征是高层特征，尺寸小，几何信息少，语义信息丰富，有利于目标分类，但不利于目标检测，特别是对于小目标的检测。传统的图像金字塔采用输入多尺度图像的方式构建多尺度的特征，即给定输入图像，通过预处理获得不同尺度的图像，构造出一个图像金字塔。其中，中间的图像是原始图像，经过上采样处理可得到尺寸大的图像，下采样处理可得到尺寸小的图像。通过这种方式虽能提高算法的检测精度，但是由于需要对每一张输入图像进行特征提取等操作，运算量大，效率低。卷积神经网络提取的不同特征图尺寸不断减小，FPN（特征金字塔网络）模块利用此特点构建多尺度特征金字塔，使得RPN网络和检测网络能在多尺度特征图上分别预测不同尺度的目标，大大提高检测模型的精度。

FPN多尺度检测模块包含两个部分：第一部分是自底向上的过程，第二部分是自顶向下和侧向连接的融合过程，FPN模块结构如图5所示。

图5 FPN模块结构Fig.5 Structure of FPN Module

其中自底向上的过程是ResNet的卷积过程，每个阶段对应了一个特征金字塔的级别，并且每个阶段的最后一个残差块的输出特征作为对应FPN多尺度检测模块中相应级别的特征，记为{C1、C2、C3、C4、C5}。

而自顶向下的过程是通过上采样（up-sampling）的方式将顶层的小特征图放大到和上一个阶段特征图一样的大小。这样既可利用顶层较强的语义特征（利于分类），又可利用底层丰富的几何信息（利于定位）。同时为了将高层语义特征和底层的精确定位能力结合，采用侧向连接结构将上一层经过上采样后和当前层分辨率一致的特征通过相加的方法进行融合。

1.3.3 CBAM模块

CBAM模块由通道注意力模块和空间注意力模块组成，结构见图6。通道注意力模块结构如图7所示，可对含缺陷信息的通道赋予更高的权重以关注缺陷特征，而对于含背景的通道赋予更低的权重以抑制背景特征，该模块检测输入特征的每个通道，以找到最感兴趣的区域。

图6 CBAM模块结构Fig.6 Structure of CBAM Module

图7 通道注意力模块结构Fig.7 Structure of Channel Attention Module

在通道注意力模块中，给定输入特征，首先分别执行全局平均池化和最大池化操作可将输入特征图尺寸从C×H×W变为C×1×1；
然后经过共享多层感知器模块，先将通道数压缩为原来的1/r（r为减少率）倍，再扩张到原通道数，经过ReLU激活函数得到两个激活后的结果；
将这两个输出结果进行逐元素相加，再通过一个sigmoid激活函数得到通道注意力模块的输出结果，再将这个输出结果和原输入特征相乘，即可输出C×H×W大小特征图，计算公式如下：

式中，σ为sigmoid函数；
W0和W1为两个输入共享权重。

与通道注意力模块相比，空间注意力模块更关注特征图上的有效信息，可以指示缺陷在输入特征图中的空间位置，结构见图8。

图8 空间注意力模块结构Fig.8 Structure of Space Attention Module

在该模块中，首先，对来自通道注意力模块的特征图分别执行平均池化和最大池化操作得到两个1×H×W的特征图，并将二者连接起来生成新特征图。然后通过7×7卷积核大小的卷积操作得到单通道的特征图，再经过一个sigmoid函数得到空间注意力的特征图，最后将输出结果和原图相乘获得C×H×W特征图，计算公式如下：

式中，σ 为 sigmoid 函数；

f7×7为卷积核为 7×7 的卷积运算。

为了验证本模型的性能，在公开的热轧带钢表面缺陷数据集NEU-DET［9］做了大量实验。该数据集由东北大学收集，包含1 800张图像，共有六种典型表面缺陷，具体包括轧制氧化铁皮、斑块、开裂、划痕、点蚀表面、夹杂物。每种类型的缺陷有300张，每张图片的分辨率为200×200像素。

2.1 评估准则

采用普遍认可的指标来评估带钢表面缺陷检测的性能，包括精度（Precision）、召回率（Recall）、平均精度（AP）、和所有类别缺陷平均精度的平均值（mAP）。上述各项指标计算公式如下：

式中，TP、FP和FN分别为正样本被正确识别的数量、预测错误的负样本数量、负样本被预测错误的数量。N是缺陷类别的数量。

2.2 实验设置

在Ubuntu20.04中使用 4块 RTX3090 NVIDIA GPU进行带钢表面缺陷检测实验。数据集NEU-DET按7:2:1的比例分为训练集、验证集和测试集。在参数设置方面，学习率为0.02，动量为0.9，权重衰减为0.001。在训练阶段，采用随机梯度下降（SGD）法训练检测器，另外为了避免模型过拟合，对输入图像进行数据增强，如翻转、旋转和裁剪。

2.3 实验结果

将本模型在NEU-DET数据集的检测结果和其他模型进行比较，结果见表1。

表1 各模型在NEU-DET数据集上的检测结果对比Table 1 Comparison of Testing Results of Various Models Based on NEU-DET Data Set

由表1中数据可知，本模型在带钢数据集上mAP值为0.795，优于其他模型。对于特征不明显、边界不清晰的缺陷如轧制氧化铁皮，实现了最优的AP值，说明本模型对这些类型缺陷特征的提取更有效。而对于缺陷特征明显的如点蚀表面、斑块等，虽未取得最优效果，但和其他模型效果相差不大，可见本模型并没有降低明显特征提取效果。为清晰地看出改进效果，将本模型与Faster-RCNN的缺陷检测结果进行对比，如图9所示，Faster-RCNN对开裂、轧制氧化铁皮等边界不清晰、特征不明显的缺陷出现了误检，而本模型显然效果更好。

图9 缺陷检测结果对比Fig.9 Comparison of Defect Testing Results

2.4 消融实验

为了验证采用模块的效果，在NEU-DET数据集上进行了消融实验。首先搭建了基于ResNet50的Faster-RCNN网络，然后在此网络基础上，逐步融合FPN模块、ResNet50-DCN可变形卷积模块、CBAM模块分别进行实验，消融实验结果见表2。

表2 消融实验结果Table 2 Testing Results by Ablation

由表2可知，在Faster-RCNN基础上，逐步融合后的模型mAP值不断提高，由0.711提高至0.795，提高了8.4%。分步来看，当融合了FPN模块后，整体的mAP值提高了3.7%，轧制氧化铁皮缺陷的检测精度甚至提高了14.4%。当然，有些缺陷的检测精度有所下降，如夹杂物，深度学习的不可解释性导致改进模型时会出现这样的情况。引入可变形卷积后，对于特征不明显、边界不清晰的缺陷如开裂、轧制氧化铁皮，检测精度分别提高了11.8%、8.5%，整体mAP值提高了3.2%。融合CBAM模块后，对于特征不明显的缺陷如开裂，检测精度提高了1.5%，而划痕提高了5.1%，各类缺陷检测精度整体提高1.5%。综上所述，所有添加的模块不同程度提高了模型检测的精度，足以证明采用模块的有效性。

工业生产过程中无法产生大量的缺陷数据，会导致模型拟合过度，检测结果变差。因此，下一步研究重点将放在小样本带钢表面缺陷检测上，这是一个有价值的研究方向。

针对目前带钢表面缺陷检测方法无法适应缺陷形状不规则、尺度不一、背景复杂等问题，本文提出了一种基于Faster-RCNN的改进网络。主干网络采用了可变形卷积模块以有效提取不规则缺陷特征，引入FPN多尺度检测模块增强模型对小目标特征的提取能力，区域选择网络中添加CBMA注意力模块以抑制复杂背景的影响使网络更聚焦于缺陷特征。在NEU-DET数据集上的实验结果表明，本模型提高了带钢表面缺陷检测的精度。由于工业生产过程中无法产生大量的缺陷数据将导致模型拟合过度，检测结果变差，因此，下一步研究重点将放在小样本带钢表面缺陷检测上，这是一个有价值的研究方向。

致谢

这项工作得到了国家重点研发计划（2020YFB1708800）、广东省重点研究与开发计划（2020B010113007）、广东省基础与应用基础研究基金联合基金（2021A1515110577）、中央高校基础研究基金项目（FRF-MP-20-37）、北京科技大学青年教师学科交叉研究项目（中央高校基本科研业务费专项资金）资助项目（FRF-IDRY-21-005）、中国博士后科学基金（2021M700385）的支持。

猜你喜欢尺度注意力卷积让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02财产的五大尺度和五重应对内蒙古民族大学学报（社会科学版）(2020年2期)2020-11-06卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21宇宙的尺度太空探索(2016年5期)2016-07-129时代英语·高三(2014年5期)2014-08-26

相关热词搜索：带钢，算法，缺陷，