基于改进一维卷积和双向长短期记忆神经网络的故障诊断方法

时间：2023-02-11 21:30:05 来源：千叶帆本文已影响人

董永峰，孙跃华，高立超，韩鹏，季海鹏

（1.河北工业大学人工智能与数据科学学院，天津 300401；
2.河北省数据驱动工业智能工程研究中心（河北工业大学），天津 300401；
3.中信戴卡股份有限公司，河北秦皇岛 066011；
4.天津开发区精诺瀚海数据科技有限公司，天津 300401；
5.河北工业大学材料科学与工程学院，天津 300401）

随着现代工业的迅速发展，“智能工厂”中的机械设备朝着集成化、复杂化方向蓬勃发展。滚动轴承作为旋转机器中的部件得到广泛应用，伴随机械设备的持续运行，轴承不可避免出现各式各样的故障。据统计在旋转机械的故障中，因轴承损坏造成的故障约占30%。造成故障的原因复杂多样，滚动轴承的故障诊断是机械设备故障诊断与状态监测技术的重要内容。因此，机械设备故障诊断对于提高工业生产效率和经济效益具有重要的意义。

基于信号处理的故障诊断方法在以数据驱动的方法中效果显著，经验模态分解（Empirical Mode Decomposition，EMD）最早是由Yadav 等提出的一种新型自适应信号时频域的处理技术，该方法将信号局部时变特征分解成若干固有模态分量（Intrinsic Mode Function，IMF）之和，突出非平稳、非线性信号数据的物理特征。Gao 等针对EMD 过程中的经验模态混叠现象，利用互补经验模态分解（Complementary Ensemble EMD，CEEMD）对滚动轴承振动信号分解，获取具有故障特征IMF 的奇异熵、能量熵和置换熵，提出熵融合的特征提取方法，借助核主成分分析（Kernal Principal Component Analysis，KPCA）和粒子群优化（Particle Swarm Optimization，PSO）算法实现滚动轴承的分类。Shifat 等使用连续小波变化（Continuous Wavelet Transform，CWT）在时频域中分析集合经验模态分解（Ensemble Empirical Mode Decomposition，EEMD）生成的IMF，以更好地定位故障频率并提取一些指示电动机健康状态的统计特征，诊断永磁无刷直流电动机的不同故障状态。Xiang 等提出了概率主成分分析（Probabilistic PCA，PPCA）和光谱峰度（Skewness and Kurtosis，SK）融合方法实现滚动元件轴承故障检测，通过对不同故障类型的滚动轴承和数值模拟进行实验研究证明了该方法的有效性。传统的基于信号特征提取的方法虽然取得不错的进展，但仍存在对先验知识要求高、收敛速度慢、诊断精度不够等先天缺点。

深度神经网络是解决复杂系统诊断问题有效的模型，可直接对高度非线性、复杂、多维系统数据进行建模，挖掘数据与诊断目标的映射关系。张弘斌等利用连续小波变换提取转子两端轴承振动信号的时频域特征，构造3 类振动信号的单通道二维图形样本并进行融合，输入卷积神经网络（Convolutional Neural Network，CNN）中实现特征提取和轴承故障信号的精确分类。随着反馈神经网络在自然语言处理（Natural Language Processing，NLP）领域取得重大突破，范宇雪等将自适应白噪声的完整集合经验模态分解（Complete EEMD with Adaptive Noise，CEEMDAN）与傅里叶变换对信号进行分解后输入双向长短期记忆（Bidirectional Long Short-Term Memory，BiLSTM）神经网络实现对高速列车轮轴承的故障诊断。Hoang 等根据数据源设置有

个分支的深度神经网络模型，每个分支由卷积层、批归一化层、池化层组成实现故障轴承故障诊断，证明多分支模型比单传感器具有更高的诊断性能。Tan 等设计一种新的单门联合（Single Gated Unite，SGU）递归神经网络作为LSTM 神经网络的简化策略，利用小波包分解提取特征作为双向单门联合的输入实现轴承的故障诊断，减少达36%的网络参数量，提高了故障诊断的时间效率。Liu 等提出弹性网络和LSTM 相结合，并将弹性网络的正则化项引入LSTM 结构避免模型训练过程过拟合，实现了轴承剩余寿命预测。Zou 等将信号预处理技术EEMD 与LSTM 神经网络结合，避免传统EMD 经验模态混叠现象，完成对轴承状态的智能分类与识别。陈伟等为实现滚动轴承不同故障类型的振动加速度信号的智能分类，将随机搜索（Random Search，RS）与LSTM 神经网络相结合，以原始故障数据作为输入，验证所提算法具有较高的泛化能力和鲁棒性。Qiao 等结合CNN 和LSTM 神经网络构建了端到端轴承故障诊断模型，模型采用时频双输入结构，充分提取轴承振动数据的时空特征，实现了在强噪声及可变负载工况下的轴承故障诊断。Hao 等提出了一种用于轴承故障诊断的 1DCNN-LSTM（one-Dimensional Convolutional and Bidirectional Long Short-Term Memory）网络端到端解决方案，该方案直接从一维卷积层、池化层和LSTM层的多个传感器测量的振动信号中提取时空特征，最后由输出层完成轴承故障诊断进行分类。Qiu 等基于双小波包变换技术，设计双向长期记忆（Bidirectional Long Term Memory，Bi-LTM）神经网络，仅利用改进的长期记忆对滚动轴承特征数据进行处理得到故障诊断结果。Xia 等将多种传感器采集到的信号进行融合并直接输入到深度LSTM模型中，使用新收集的数据对模型参数进行微调，实现基于数据驱动的设备剩余使用寿命预测。

传统基于LSTM 神经网络在故障诊断任务中取得显著成就，但同时忽略了时序性数据的上下文信息的完整性。与此同时，基于传统CNN 的轴承故障诊断不能充分挖掘时序性数据的上下文相关性，模型不能对时序性特征进行充分提取。针对以上问题，本文提出基于改进1DCNN 与BiLSTM 神经网络模型的双通道模型融合的解决方案，并尝试在各通道中引入改进的SENet（Squeeze and Excitation Network）模块实现对特征通道的加权注意力机制。

本文的主要工作如下：

1）提出基于改进1DCNN-BiLSTM 双通道模型，使用经CEEMDAN 信号技术处理原始故障振动信号的时序性数据作为模型输入，免去人工提取特征步骤。

2）使用BiLSTM 对数据的当前状态及其前后时间序列信息特征进行充分提取。与此同时，另一通道使用1DCNN 对时序数据的局部非相关性信息进行提取。

3）将基于改进的SENet 模块对特征数据通道的加权，同时作用于两个不同通道，有效剔除噪声干扰相关特征。

4）将双通道模型提取的数据特征融合，实现对数据特征的合并提取并在输出层实现故障信号的分类。

1.1 CEEMDAN信号处理

CEEMDAN 是为了避免EMD 集合平均时固有模态分量对齐问题，而在CEEMD 的过程中自适应添加白噪声以减小模态效应的分解过程，可以达到滤波去噪，降低迭代次数的目的。算法步骤如下：

1）对原始故障时序信号

(

)添加自适应白噪声进行一阶EMD，如式（1）～（2）所示：

2）将第一阶固有模态分量从原始故障时序信号中剔除得到剩余分量

(

)，接着在

(

)中添加自适应白噪声经EMD得到IMF分量

(

))，对其再进行一阶EMD，如式（3）～（5）所示：

3）重复上述两步，得到第

个剩余分量

(

)，对剩余分量加入白噪声进行一阶EMD，如式（6）～（7）所示：

1.2 BiLSTM神经网络原理结构

LSTM 神经网络是一种适用于处理时序性数据的神经网络模型，通过在其细胞单元中通过引入“门”结构，实现对细胞结构信息的选择性删除与添加，解决循环神经网络（RNN）在反向传播过程中易出现的“梯度消失”和“梯度爆炸”等问题。

LSTM 神经单元的三个“门”结构具体包括：遗忘门、输入门和输出门。遗忘门接收上一细胞单元的输出

并结合当前时刻细胞单元的输入

来决定保护或控制信息的继续传递；
输入门决定了哪些信息加入到细胞状态中：首先通过一个输入门操作决定更新哪些信息，接着通过tanh 层得到新的细胞状态

′，这些信息被用于更新到细胞信息中。输出门决定了哪些信息可作为当前细胞状态的输出：首先通过上一细胞单元的输出

结合当前时刻细胞单元的输入

经过输出门的Sigmoid 激活得到判断条件，决定部分细胞状态作为输出。细胞状态经过tanh 层得到范围为（-1，1）的向量，将其与输出门判断条件相乘的结果作为该LSTM 细胞单元的输出。

然而BiLSTM 神经网络的隐藏层实现正向计算和反向计算两个过程，可为网络提供数据上下文信息，BiLSTM 的更新过程如式（14）～（16）所示：

1.3 1DCNN 原理结构

CNN 通过局部连接和共享权值的方式对输入数据进行卷积、池化运算以提取相关特征。其中一维卷积神经网络（1DCNN）广泛应用于传感器数据的时间序列分析、具有固定长度周期的音频信号数据分析和自然语言处理领域。传感器采集的机械部件运行状态的振动加速度信号多为时序性数据，采用1DCNN 对重构后的时序信号沿时间轴正方向进行局部特征的提取，从整体数据集固定长度的片段中提取特征。

在1DCNN 中滤波器沿着时序数据的时间轴单个维度进行滑动计算，卷积层计算如式（17）所示：

其中：

表示输入数据向量；

表示卷积核权重矩阵；

为参与计算的偏置向量；

(·)表示卷积计算的激活函数ReLU（Rectified Linear Unit），从整体一维数据集中固定长度（滤波器尺寸大小）提取有效特征。

1.4 改进的SENet模块

近几年，注意力机制被广泛应用于深度学习研究。Momenta 在ImageNet 2017 挑战赛中夺冠的网络架构SENet即自适应学习不同特征通道的重要程度，并依据重要程度赋予有用特征较高权重，抑制对当前任务目标影响不大的特征。

本文对SENet 中的SE 模块进行改进，在改进的SE 模块中，基于特征通道的注意力机制思想表示为：在传统神经网络计算操作后新建“旁路分支”。首先，进行Squeeze 操作，将二维特征图进行数据维度压缩变成一个实数，即进行全局感受野的池化操作，特征通道数不变；
接着，进行Excitation 操作，获取不同特征通道的重要程度，并逐通道与原始特征实现加权乘法。本文采用先降维后升维的Bottleneck 结构中全连接层+Sigmoid 函数来实现学习到不同通道的重要程度。

由于SE 模块的通用性，意味着可将其嵌入其他网络架构中。特征数据经过变换，CNN 中因参与计算的卷积核个数不同而发生通道维数变化，BiLSTM 因记忆神经单元数目不同而发生特征通道维数变化，从而产生新的特征信号

。在图1 中，通道维数由

变为

，即为此时特征通道数。首先通过将通道中所有特征值取全局平均值；
然后经Sigmoid 激活函数得到每个通道的权重；
最终不同通道乘上不同权重，实现对关键特征通道域的注意力机制。具体计算过程如下所示：

图1 通道注意力机制Fig.1 Channel attention mechanism

本文构建改进的1DCNN-BiLSTM 双通道模型框架如图2中的Model1 所示。模型由输入层、特征提取模块、融合分类层组成，借助改进的SENet 模块中实现注意力机制，同时作用于1DCNN 和BiLSTM 两个通道对神经网络中的特征矩阵通道维度方向进行权重分配。接着构建无SENet 模块的1DCNN-BiLSTM 双通道模型Model2，与Model1 对比以验证SENet 模块的有效性。最后分别构建加入改进SENet 模块的1DCNN 单通道模型Model3 和BiLSTM 单通道模型Model4，验证双通道模型特征提取对比传统单通道模型的有效性及优化效果。

图2 构建的4种模型框架结构Fig.2 Four kinds of constructed model frame work structures

2.1 输入层

2.2 特征提取模块

特征提取模块设计两个通道，原始时序数据经CEEMDAN、归一化处理后同时输入双通道模块进行数据特征提取。Channel1 为栈型双向长短期记忆（stacked BiLSTM）神经网络模型，调整BiLSTM 网络的记忆单元数目和神经网络的层数，实现对不同维度信号特征的提取；
Channel4 设置为一维卷积模型，调整一维卷积核数目实现对信号不同尺度特征的提取；
Channel2、Channel3 分别在Channel1、Channel4基础上加入改进的SENet 模块对参数传递过程中的不同维度特征进行权重计算。最终通过融合层将双通道提取到的特征进行融合，由分类层的Softmax 分类器实现轴承不同位置、不同程度故障的分类。

通过对SENet 模块进行改进，即选择一维全局平均池化代替用于处理图片分类任务的二维全局平局池化。改进模块内部结构如图3 所示，首先对输入数据进行一维全局平均池化操作得到一个标量，即进行Squeeze 操作；
接着通过两个全连接层得到（0，1）内的权重值，两层激活函数分别取ReLU与Sigmoid。原始通道中的每个元素值与对应通道权重相乘，得到新的Feature Map，即进行Excitation 操作。1DCNN 与BiLSTM 神经网络均可通过先Squeeze 后Excitation 操作实现特征矩阵的优化，最终得到加权后的特征Feature Recalibration。

图3 改进SENet模块Fig.3 Improved SENet module

在上述构建模型的各Channel 中加入Dropout 层防止模型出现过拟合，与此同时，在Channel1、Channel3 中引入批归一化BN（Batch Normalization）层，作用于stacked BiLSTM 神经网络的参数传递过程中，以提升模型收敛速度从而降低模型的训练时间。

2.3 融合分类层

对于Model1 和Model2 双通道模型，将双Channel 组合提取到的特征经全连接（FC）层后输入融合层进行融合，进而为分类层的输入提供更多分类特征参数依据。分类层将融合后的样本特征向量作为输入，采用Softmax 分类器得到故障轴承振动加速度时序信号属于各类别的概率分布，如式（23）所示：

其中：

代表分类层输出层单元个数，即故障信号类别数目。

2.4 改进的1DCNN-BiLSTM模型训练

改进的双通道模型训练过程模型具体参数如表1 所示，记录训练过程中验证集精度最高时刻训练出的模型参数作为训练模型的最终参数。

表1 模型训练过程的参数Tab 1 Description of parameters of model training process

采用独热编码对故障类别进行标记，分类层采用Softmax 多分类器得到故障样本分别为

类不同故障的概率分布，采用交叉熵代价函数作为模型的验证损失函数，如式（24）所示：

其中：

（

=0，1，…，

）表示故障样本；

表示样本总数；

表示期望输出；

表示神经元的实际输出。

比较Softmax 多分类器的输出预测概率分布与目标类别概率分布的相似度得到模型的诊断精度。

3.1 实验平台

本文实验操作系统为64 位，设备信息：Windows 10 CPU为Intel Core i5-8265U，运行内存16 GB，深度学习框架采用TensorFlow+Keras，编程语言选择Python3.5。

3.2 数据描述

实验数据来源于美国凯斯西储大学轴承数据中心的滚动轴承故障振动数据集。驱动端采用型号为6205-2RS JEM SKF 深沟球轴承，风扇端采用型号为6203-2RS JEM SKF 深沟球轴承。电火花加工技术分别对置于驱动端和风扇端的滚动轴承内圈（Inner Raceway，IR）、外圈（Outer Raceway，OR）、滚动体（Ball，BO）3 个轴承位置布置等级的单点损伤。3 种故障直径分别设置0.007 inch、0.014 inch、0.021 inch（1 inch=2.54 cm），3种故障深度分别设置0.011 inch、0.050 inch、0.150 inch，4 种不同负载（0 kN、1 kN、2 kN、3 kN）。由放置在驱动端、风扇端和基座的加速度传感器分别以12 kHz、48 kHz 的频率对轴承振动数据进行采集，获取正常样本文件8 个、外圈故障样本文件53 个、内圈故障样本文件23和滚动体故障样本文件11 个。

本文基于12 kHz 的采样频率对驱动端IR、OR 和BO 故障位置的3 种不同故障直径共9 类故障、每类样本以时间步长为100 划分为1 000 个数据样本进行故障诊断实验，9 类轴承故障实验样本信息如表2 所示。将CEEMDAN 后重构、归一化预处理后的信号数据集及对应类别标签随机划分为训练集1 和测试集（7∶3），并将训练集1 进一步随机划分为训练集2、验证集2（9∶1）用于对模型当前训练结果的评估。将预处理后的时序信号数据分别输入到本节构建的4 种不同结构模型中进行特征提取与参数训练。

表2 9类轴承故障实验样本信息Tab 2 Experimental sample information of 9 bearing faults

将正常振动信号数据与9 类不同故障位置、故障程度的振动加速度信号进行可视化，如图4 所示。轴承故障振动数据表现出周期性特点且振幅明显高于正常振动数据。内圈、外圈、滚动体3 种不同故障位置、同一故障位置不同故障直径的振动信号之间存在周期和振幅差异。轴承滚动体位置3 种故障直径振动数据、内圈位置故障直径为0.14 inch 的信号周期性、振幅大小等直观性特征较其他故障信号弱；
内圈位置不同故障直径的信号振幅差异较大。

图4 正常、故障轴承振动加速度信号Fig.4 Normal and faulty bearing vibration acceleration signals

9 类原始振动故障信号按时间步长1 000 分别进行CEEMDAN 信号预处理后生成多个IMF 分量，以驱动端内圈故障深度为0.007 信号数据（BO_07）经CEEMDAN 分解为例进行可视化，如图5 所示。分解完成后先通过滤波去噪（过滤前2 个高频信号分量），再对剩余有效IMF 数据重构。

图5 BO_07信号CEEMDAN分解Fig.5 CEEMDAN decomposition of BO_07 signal

3.3 模型参数

本文依次构建四种不同结构模型实现对轴承的对比故障诊断实验。Model1 为改进的SENet 模块同时作用于1DCNN 通道和stacked BiLSTM 通道的1DCNN-BiLSTM 双通道模型，Model2 为不添加SENet 的1DCNN-BiLSTM 双通道模型，Model3 为1DCNN构成的传统单通道模型，Model4 为stacked BiLSTM 构成传统单通道模型。单/双通道时间序列分类模型的Channel 中各层参数信息描述如表3 所示。原始驱动端振动信号样本同时包含驱动端、风扇端、基座加速度数据，增加了时序性信号数据的维度。当SENet 模块作用于1DCNN 层后时，经16 个卷积核计算后产生16 个新通道特征，即将数据特征一个通道的信息分解为16 个卷积核上的信号分量。核函数上的分量对关键信息的贡献度存在差异。

表3 时间序列分类模型参数Tab 3 Parameters of time series classification model

当SENet 模块作用于BiLSTM 层后时，第一层BiLSTM 网络实现对输入序列高层次特征学习，批归一化过程之后利用注意力机制分别对第一层BiLSTM 各神经单元分配注意力权重，求解后作为下一BiLSTM 网络层的输入。

3.4 结果对比分析

为验证改进1DCNN-BiLSTM 双通道模型的有效性和适应性，对4 种构建的模型进行对比实验，9 类故障识别率如图6 所示。

图6 轴承故障诊断分类混淆矩阵Fig.6 Confusion matrix of bearing fault diagnosis classification

对4 类模型进行重复实验取平均值，以避免模型诊断结果偶然性。对比Model1、Model3 及Model4 的训练过程曲线，如图7 所示。3 种模型的诊断精度如图8 所示。

图7 Model1、Model3、Model4的训练过程Fig.7 Training processes of Model1，Model3，Model4

图8 三种单/双通道模型结果对比Fig.8 Comparison of results of three one-/dual-channel models

实验结果显示Model1 在测试集上表现最佳，损失下降到0.109 2，诊断精度最高达到96.87%。将基于通道的注意力机制单独作用于Model3、Model4 时，其在测试集上的平均损失分别为0.187 3、0.144 1，平均诊断精度分别为94.56%、95.22%。证实此改进的1DCNN-BiLSTM 双通道模型较传统单通道能更好挖掘轴承故障数据的时序相关性特征和局部区域的振动弱周期性规律。不加任何注意力机制的Model2平均诊断精度达到96.68%，损失值下降到0.116 2。

将加入改进SENet 模块的Model1 与Model2 进行收敛速度对比实验。训练过程中训练集、验证集诊断精度曲线如图9 所示，验证损失收敛趋势对比如图10 所示。添加注意力机制的Model1 训练

Epoch

=15 次后达到相对稳定，未加入注意力机制的Model2 训练

Epoch

=30 次后处于较稳定状态。由于添加SENet 模块后，模型训练赋予了针对分类任务的关键特征通道较高的权重，改进的Model1 训练收敛速度有明显提升。

图9 Model1、Model2训练集与验证集诊断精度曲线Fig.9 Training and validation diagnosis accuracy curves of Model1 and Model2

图10 Model1、Model2模型训练收敛情况Fig.10 Training convergence conditions of Modle1 and Model2

经重复对比实验，本文构建的改进模型通过引入基于通道注意力机制，并将其同时作用于1DCNN 通道和stacked BiLSTM 通道时有最高的测试诊断精度达到96.87%，相对不加入SENet 模块的双通道模型Model2 而言，模型训练的收敛速度有显著提升。证明改进的SENet 模块针对CNN、LSTM神经网络中不同记忆单元输出权值的重要程度高低赋予权重，过滤噪声等冗余信息影响、更快实现信号数据特征的提取从而加快模型收敛。

本文提出了一种基于改进的1DCNN-BiLSTM 双通道轴承故障诊断模型。在本文方法中，将原始振动加速度信号经过CEEMDAN 信号预处理后同时刻、等量、同分布输入双通道特征提取模块，分别提取信号数据的时序性相关性特征、局部非相关性空间特征和弱周期性规律，并通过融合层将其连接起来实现高效的轴承故障诊断。通过改进模型结构并加入通道注意力机制，证实同时添加改进的SENet 模块的1DCNN-BiLSTM 双通道模型优于传统单通道模型，能够快速过滤信号夹杂的噪声等冗余信息、更快学习时序性数据关键特征信息，最高获得96.87%的诊断精度。因此改进的双通道模型可作为轴承故障诊断的解决方案，可有效识别故障位置、故障严重程度等信息从而实现轴承典型故障的精确定位，有助于工业部件生产、质检、运行过程的管理。

相关热词搜索：卷积，神经网络，双向，