A rolling bearing life prediction method based on multi-task gated networks
-
摘要:目的
为实现船舶机械设备中轴承的剩余寿命预测,提出基于双向门控循环单元(BiGRU)、变分自编码器(VAE)和多门控专家混合层(MMoE)的多任务门控网络预测模型。
方法首先,计算轴承信号时域特征以表征监测数据中的基本退化趋势;然后,建立轴承健康状态(HS)评估和剩余使用寿命(RUL)预测子任务构成多任务门控网络预测模型,子任务中使用BiGRU和VAE提取时域特征趋势信号中的退化信息,再利用MMoE自适应分离子任务的差异特征。最后,在XJTU-SY轴承数据集上进行有效性验证。
结果结果表明,与长短期记忆网络(LSTM)等经典时序数据预测模型相比,多任务门控网络预测模型的预测精度更高,误差指标MAE和RMSE分别提升62.5%和67.81%。
结论所提方法可以实现轴承剩余寿命的预测,对船舶机械设备健康管理与智能运维具有一定的参考价值。
-
关键词:
- 船舶设备 /
- 轴承 /
- 剩余寿命预测 /
- 多任务门控网络预测模型
Abstract:ObjectiveTo achieve the remaining life prediction of bearings in ship mechanical equipment, a multi-task gated networks prediction model based on the Bidirectional Gated Recurrent Unit (BiGRU), Variational Autoencoder (VAE), and Multi-gate Mixture-of-Experts (MMoE) is proposed.
MethodsFirstly, the time-domain features of the bearing signals are calculated to characterize the basic degradation trends in the monitoring data. Then, a multi-task gated networks prediction model composed of bearing Health State (HS) assessment and Remaining Useful Life (RUL) prediction subtasks is established. In the subtasks, BiGRU and VAE are used to extract the degradation information from the trend signals of the time-domain features, and then MMoE is utilized to adaptively separate the distinctive features of the subtasks. Finally, the effectiveness is verified on the XJTU-SY bearing dataset.
ResultsThe results show that, compared with classic time-series data prediction models such as Long Short Term Memory (LSTM), the multi-task gated networks prediction model has higher prediction accuracy, with the error metrics Mean Absolute Error (MAE) and Root Mean Square Error (RMSE) improved by 62.5% and 67.81% respectively.
ConclusionThe proposed method can achieve the prediction of the remaining life of bearings and has certain reference value for the health management and intelligent operation and maintenance of ship mechanical equipment.
-
0. 引 言
轴承作为船舶工程领域中动力装置的机械部件之一,其健康运转对确保船舶安全、高效运行有重要作用[1]。轴承在船舶服役期间因极端温度、湿度、重载和振动等因素而加速退化,不仅影响轴承等部件的剩余使用寿命(remaining useful life,RUL),还会降低船舶的运行效率并增加故障及事故发生的概率[2]。因此,准确的轴承剩余使用寿命预测对于风险规避、成本降低和船舶运营可靠性的提升至关重要。目前,传统的故障诊断主要凭借维护人员的工作经验,主观性较大,对人员素质要求较高。基于传统的维护策略,船舶动力装置运维可能存在维护过度或维护不足的问题,无法满足高可靠性和安全性的要求[3-4]。因此,本文以滚动轴承为研究对象,结合轴承的健康状态(health state,HS)评估和RUL预测,构建多任务门控网络预测模型,为船舶设备轴承的故障预测和健康管理提供技术基础。
目前的RUL预测方法大致分为基于物理失效模型的方法和基于数据驱动的方法两类[5]。其中,基于物理失效模型的预测方法主要利用已知的物理理论来模拟设备的精确退化过程,实现RUL预测。现代机械设备正在向大型化、集成化和复杂化的方向发展,因此基于物理建模的方法很难实现精准预测,并且基于物理模型的方法大多面向单一物理量数据,在多源物理数据应用方面仍有待发展。另外一种基于数据驱动的方法,则主要是将多源传感器数据换为可用于表征性能退化趋势的相关信息,能够不依赖于机理知识,对设备的HS进行评估,并预测RUL[6]。
数据驱动的方法又可以分为统计方法和机器学习方法两种。其中,基于统计的数据驱动方法包括Wiener[7],Gamma[8]和逆高斯等随机过程。但是,随机过程模型需要基于退化过程的先验知识来确定形式和参数,对统计方法的应用有一定限制。与统计方法相比,机器学习方法则通过提取浅层特征评估HS和预测RUL,对先验知识的依赖较小。如Xue等[9]将unscented卡尔曼滤波与支持向量回归相结合,预测锂电池的RUL。Ali等[10]基于神经网络和经验模态分解方法预测轴承RUL。然而,浅层机器学习方法仍然依赖特征工程技术,应用基于深度学习(deep learning,DL)的数据驱动预测方法则可以从原始数据中自动学习代表性特征[11],实现端到端的RUL预测。Ma等[12]提出基于振动信号时频信息的长短期记忆网络(long short term memory,LSTM)深度卷积框架用于轴承RUL预测,保留LSTM的优势,并通过卷积神经网络(convolutional neural networks,CNN) 更新LSTM状态,提高了预测精度。Cheng等[13]结合CNN与支持向量机(support vector machine,SVM)预测滚动轴承的RUL。Peng等[14]提出一种基于贝叶斯深度学习的旋转机械HS评估方法。Qin等[15]提出基于门控注意单元(gated attention unit,GAU)的预测模型,利用不同阶段的均方根构建健康指标,与LSTM相比,门控注意单元在结构上更加简单,预测精度更高。
上述研究都实现了有效的HS评估和RUL预测,但大多数研究将RUL预测和HS评估作为独立的问题处理,忽略了它们之间的内在联系。而多任务学习(multi-task learning,MTL)可根据需要定义多个子任务,通过联合学习方法使多个任务并行处理并通过参数共享实现信息交互。例如,Aggarwal等[16]使用基于循环神经网络(recurrent neural networks,RNN)的双任务网络进行RUL预测和故障诊断。Miao等[17]提出基于深度LSTM的双任务网络,用于联合学习 HS评估和RUL预测。尽管上述方法通过使用多任务学习模型来学习两个任务之间的关系,但是它们没有考虑多个任务之间的差异。具体来说,RUL预测属于回归任务,而HS评估属于分类任务,二者本质上是不同的任务,且标签的尺度也不同。
为提升多任务网络模型的预测性能,本文提出一种基于双向门控循环单元(bidirectional gated recurrent unit,BiGRU)、变分自编码器(variational autoencoder,VAE)和多门控专家混合层(multi-gate mixture-of-experts,MMoE)的多任务门控网络预测模型。本文所建立的多任务门控网络预测模型,将通过通用特征提取模块同时学习轴承HS评估和RUL预测的内在特征,通过共享网络中的参数和特征,捕获任务之间的共享信息,以提取到更多的轴承故障和退化信息。在多门控专家混合层中,每个专家层专注于学习对所有任务有用的特征,之后通过门控机制动态地调整不同任务之间的权重,对专家层提取的特征进行合理 分配和融合,最后自适应区分2个任务,进而提高滚动轴承RUL的预测精度。针对滚动轴承寿命预测中网络模型对故障和退化特征提取不足的问题,本文建立的网络可以在不同任务之间共享信息,从而提高滚动轴承RUL的整体预测精度。
最后,采用西安交通大学雷亚国教授[18]团队提供的XJTU-SY数据集进行实验验证,以(mean absolute error,MAE)和(root mean square error,RMSE)为评价指标,并与单任务算法预测模型进行比较,来验证本文所提方法的预测效果。
1. 网络结构
本文提出的多任务门控网络预测模型包含双向门控循环单元、变分自编码器组成的通用特征提取模块、多门控专家混合层构成的特征分离模块3个主要部分,以实现轴承的HS评估和RUL预测子任务。下文将对所提模型的基本理论与结构进行详细介绍。
1.1 性能退化特征提取
1.1.1 双向门控循环单元
门控循环单元(gate recurrent unit,GRU)作为LSTM的一种变体,解决了RNN中梯度爆炸和梯度消失的问题,能够更好地捕捉时间序列数据的依赖关系,提高模型对序列数据的理解能力。标准的LSTM一般通过3个门结构——输入门、遗忘门和输出门对数据进行特征提取,而GRU的内部结构只包含重置门和更新门,因此模型结构简单,运算效率更高,其结构如图1所示。
重置门的作用是确定在当前时间步中有多少旧信息应该被丢弃,更新门允许GRU单元决定保留多少过去的记忆,并且结合当前的输入来更新内部状态。每个GRU单元的信息传递过程如下。
1) 将上一时刻的隐藏状态ht−1和当前时刻的输入xt结合起来作为输入信息,加上各自的矩阵权重后,经Sigmoid函数处理后得到重置门rt和更新门zt的门控状态。
rt=sigmoid(Wr·[ht−1,xt]+br) (1) zt=sigmoid(Wz·[ht−1,xt]+bz) (2) 式中:Wr和Wz分别表示重置门和更新门的权重;br和bz分别表示重置门和更新门的偏置,sigmoid表示Sigmoid函数。
2) 更新隐藏层单元候选状态。
˜ht=tanh(Wh·[rt−1∗ht−1,xt]+bh) (3) 式中:Wh为隐藏层单元候选状态的权重;bh为隐藏层单元候选状态的偏置;tanh为双曲正切函数。
3) 计算当前时刻隐藏层的输出,得到GRU的输出值。这一步是遗忘掉部分原来储存在隐藏层状态ht−1的信息,并筛选t时刻的隐藏层单元候选状态ht的重要信息进行输出
ht=(1−zt)∗ht−1+zt∗ht (4) 本文所提模型的性能退化特征提取部分包含2个图2所示的BiGRU层。每个BiGRU层由输入层、前向GRU、后向GRU和输出层构成。在每一时刻将数据同时传递给前向GRU和后向GRU,即数据同时流向两个方向相反的GRU网络,输出层的输出序列由这两个GRU单元共同决定。
每个BiGRU单元t时刻的输出,由t时刻的偏置量、前向传播的GRU输出→ht以及后向传播的GRU输出←ht3部分共同影响。具体计算过程如下:
→ht=GRU(xt,→ht−1) (5) ←ht=GRU(xt,←ht−1) (6) ht=f(W→ht→ht+W←ht←ht+bt) (7) 式中:→ht和←ht分别为t时刻的前向和后向隐藏层的状态;W→ht和W←ht分别为t时刻前向和后向隐藏层状态的权重;bt是t时刻隐藏层状态的偏置。
1.1.2 变分自编码器
自编码器是一种基于无监督学习的神经网络,目的在于通过不断调整参数,重构经过维度压缩的输入样本。输入层到中间层之间的映射称为编码,把中间层到输出层之间的映射称为解码。自编码器通常先通过编码得到压缩后的向量,再经过解码进行重构。VAE模型的基本结构与自编码器相似,两者的区别在于VAE中的潜在变量z为随机变量,是构造的似然函数的变分下界和重参数化编码器输出的均值和方差。本文所使用的变分自动编码器基本结构如图3所示。
编码器将输入数据映射到潜在空间中的潜在变量。编码器由3个全连接层组成,通过计算得到每个输入数据的均值向量u和标准差σ。然后,从编码器输出的均值向量u和标准差σ中,通过随机采样得到潜在变量z,其计算公式为
{\textit{z}} = {\boldsymbol u} + {\boldsymbol \varepsilon} \times {\boldsymbol \sigma} (8) 式中, \varepsilon 是从标准正态分布 N(0,1) 中采样得到的随机向量。
最后,解码器将潜在变量z映射回原始数据空间,重构出与输入数据相似的样本,解码器由两个全连接层组成,通过计算输出重构的样本。
1.2 子任务特征分离
传统的多任务学习模型对不同的任务采用参数共享机制,为不同的任务设置相同的参数。然而,这样的参数共享机制往往会忽略不同任务之间的差异。因此,在多任务建模中考虑任务之间的本质区别具有重要意义。为实现该目标,本研究中引入MMoE多任务网络结构[19]。该结构允许并行学习RUL预测任务和HS评估任务之间的差异(本质上,HS评估任务代表一个分类任务,而RUL预测任务代表一个回归任务),提高模型对相应任务的适应性。本文所提模型中的MMoE的基本结构如图4所示。
MMoE模型由8个专家网络和2个门控网络组成,专家网络具有相同的特征输入和多个相同的深度神经网络,门控网络表示每个专家网络对应的不同任务的权值。MMoE模型对应的信息传递过程如下。
1) 每个专家模型输出的计算公式为
{h_{kj}}(x) = {\rm ReLU}({W_{kj}}x + {b_{kj}}) (9) 式中: {h_{kj}}(x) 为第k专家模型在第j个任务上的输出;x是输入数据; \rm ReLU 是ReLU激活函数; {W_{kj}} 和 {b_{kj}} 分别是第k个专家模型在第j个任务上的权重和偏置。
2)之后是门控模型的输出,每个门控模型的计算公式为
{g_{kj}}(x) = \frac{{\exp (\beta _{j,k}^{\text{T}}x)}}{{\displaystyle\sum\limits_{{k'} = 1}^K {\exp (\beta _{j,{k'}}^{\text{T}}x)} }} (10) 式中: {g_{kj}}(x) 为第k个专家模型在第j个任务上的门控输出值;x是输入数据; {\beta _{j,k}} 是第j个任务上第k个专家模型的门控参数,决定专家模型在不同任务上的重要性;K是专家模型的数量, {\text{T}} 是转置操作。
3)最后是专家模型与门控模型的组合输出,其计算公式为
{{\textit{z}}_j}(x) = \sum\limits_{k = 1}^K {{g_{kj}}(x){h_{kj}}(x)} (11) HS和RUL子任务网络中的MMoE分别经过上述信息传递过程之后,不同权重组合的专家网络的输出作为RUL预测层和HS评估层的输入,每个任务的输入 {{\textit{z}}_j}(x) 会再经过一个任务特定的输出层,生成最终的预测结果。其中,RUL预测任务使用线性回归层输出RUL预测结果;HS评估任务使用线性层输出分类结果,并通过交叉熵损失函数进行softmax处理计算分类损失。
2. 基于多任务门控网络的RUL预测方法
2.1 多任务门控网络预测模型框架
图5是本文提出的滚动轴承RUL预测方法的整体流程图,包含上文所述的BiGRU和VAE组成的通用特征提取部分,以及MMoE构成的特征分离部分。基于多任务深度学习方法的滚动轴承RUL预测分为数据预处理、模型训练和模型验证3个部分。下文将对算法流程进行详细介绍。
在数据预处理阶段,首先对原始振动信号进行时域特征提取,然后选择退化特征明显的时域特征数据进行归一化处理,以提高模型的收敛速度和预测精度,防止反向传播过程中的梯度爆炸。
采用最大最小归一化方法进行数据预处理
x_i' = \frac{{{x_i} - {x_{\min }}}}{{{x_{\max }} - {x_{\min }}}} (12) 式中:{x_{\max }}和{x_{\min }}为一个完整周期内时间序列信号{x_i} \in {{x_0},{x_1},…,{x_i},…}的最大值和最小值;x_i'为i时刻的归一化值。一般传感器采集的数据格式为多组一维信号,通过滑动窗口进行多通道信号截取,选择合适的窗口大小有利于提取局部特征。通过上述步骤将原始振动信号重构建立样本池,划分训练数据和测试数据。
本文所提的多任务门控网络预测模型的训练过程包括退化特征提取、HS评估和RUL预测3部分。模型的训练过程对预测能力具有较大的影响。在退化特征提取阶段利用BiGRU和VAE进行多维矩阵运算。首先,将一定批次的训练样本进行正向GRU和逆向GRU的双向运算,从两个方向对不同时间段的局部特征进行提取,BiGRU模型会整合正向GRU和逆向GRU在每个时间段生成的特征,然后再利用VAE学习时间序列片段的压缩表示,并在潜在空间中进行插值,获得新的时间序列数据。HS评估和RUL预测子任务包含于MMoE层,通过考虑任务之间的差异对模型参数进行优化,可以处理相关性较低的2个任务。此外,提出联合损失函数进行反向传播中的梯度更新。在测试部分只需要将测试样本输入到训练完的模型中,利用已经学到的参数进行寿命预测,通过计算评价指标评估所提模型效果。
2.2 联合损失函数
对于RUL预测任务,预测值和实际值的损失函数是均方误差(mean squared error,MSE)损失函数,计算公式为
{L_1}(W) = \sum\limits_{i = 1}^n {{{(y_{{\text{pred}}}^i - y_{{\text{real}}}^i)}^2}} (13) 式中,编号i表示每个预测值{y_{{\text{pred}}}}和实际值{y_{{\text{real}}}}的索引。交叉熵函数通常用于分类问题,在本文中用于健康状态评估任务,计算公式为
{L_2}(W) = \sum\limits_{i = 1}^n { - \log \frac{{\exp (x_{{\text{real}}}^i)}}{{\displaystyle\sum\nolimits_{j = 1}^C {\exp (x_j^i)} }}} (14) 其中使用了负对数softmax函数的格式,即网络预测的正确类别的可能性。总损失的数学方程为
{L_{{\text{Total}}}}(W) = {L_1}(W) + \lambda {L_2}(W) (15) 式中,\lambda 是控制2个任务权重的惩罚因子:当\lambda = 0时,网络是一个仅用于RUL预测的模型;当\lambda = \infty 时,网络是一个仅用于故障诊断的模型。本文通过网格搜索法确定权重\lambda = 0.1。
3. 实验验证
本文实验使用Intel(R)Core(TM)i5-9300 H处理器和NVIDIA GeForce GTX
1650 ,在Pytorch3.9框架下进行。本研究中的超参数如表1所示。表 1 多任务模型超参数设置Table 1. Hyperparameter settings of multitasking model序号 类型 参数 1 初始学习率 0.01 2 优化器 Adam 3 输入层 (None,1) 4 BiGRU1 (None,16) 5 BiGRU2 (None,32) 6 编码器的线性层1 (None,64) 7 编码器的线性层2 (None,32) 8 编码器的线性层3 (None,20) 9 采样层的均值和方差 (None,10) 10 解码器的线性层1 (None,128) 11 解码器的线性层2 (None,32) 12 MMoE的8个专家层 (None,4) 13 HS评估的线性层1 (None,32) 14 HS评估的线性层2 (None,16) 15 HS评估的线性层3 (None,2) 16 RUL预测的线性层1 (None,32) 17 RUL预测的线性层2 (None,16) 18 RUL预测的线性层3 (None,1) 3.1 性能评价指标
本文通过MAE和RMSE评价模型的有效性。MAE通过计算预测值和实际值之间差的绝对值的平均数来衡量预测的准确性。RMSE反映模型预测结果与真实标签的偏差程度。因此,MAE和RMSE数值越小表示模型的预测误差越小,模型的预测能力越强,其计算公式如下:
{e_{\rm MAE}} = \frac{1}{n}\sum\limits_{i = 1}^n {|{y_i} - } {\hat y_i}| (16) {e_{\mathrm{RMSE}}} = \sqrt {\frac{1}{n}\sum\nolimits_{i = 1}^n {{{({y_i} - {{\hat y}_i})}^2}} } (17) 式中:{y_i}为剩余寿命的真实值;{\hat y_i}为模型对剩余寿命的预测;n为预测样本数量。
3.2 XJTU-SY轴承数据集
3.2.1 数据集描述
实验采用西安交通大学在轴承加速试验台收集的XJTU-SY轴承数据集。试验轴承型号为LDK和UER204滚动轴承,采用水平和垂直加速度传感器采集轴承的振动信号,加速度传感器的采样频率为25.6 kHz,每次采样时间为1.28 s,采样间隔为1 min。轴承的状态信息见表2。
表 2 XJTU-SY轴承数据集的描述Table 2. Description of the XJTU-SY bearing dataset数据组 运行工况 轴承1_1,轴承1_2,轴承1_3,轴承1_4,轴承1_5 2 100 r/min,12 kN 轴承2_1,轴承2_2,轴承2_3,轴承2_4,轴承2_5 2 250 r/min,11 kN 轴承3_1,轴承3_2,轴承3_3,轴承3_4,轴承3_5 2 400 r/min,10 kN 3.2.2 数据处理
由于载荷施加在水平方向,放置在该方向的加速度传感器能够捕获更多测试轴承的退化信息。因此,本文选择水平方向的振动信号作为原始信号。神经网络模型通常需要大量数据进行训练,而轴承的原始一维水平振动信号数据有限,因此对原始数据进行时域统计特征筛选,增加数据维度,构造多维输入数据。对原始振动信号进行时域特征计算,所选的14个时域特征及其计算公式如表3,其中x(n) = [x(1),x(2),\ldots,x(N)]表示在第n个样本的振动信号,N为样本总数。最后使用式(12)归一化处理时域统计特征。
表 3 时域统计特征Table 3. Time-domain statistical features序号 统计特征 公 式 1 平均值 \bar x = \dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {x(n)} 2 方差 \delta = \dfrac{1}{N}\displaystyle\sum\limits_{n - 1}^N {{{[x(n) - \bar x]}^2}} 3 绝对平均值 |\bar x| = \dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {|{x_n}|} 4 标准差 {\sigma _x} = \sqrt {\dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {{{[x(n) - \bar x]}^2}} } 5 平方根幅值 {x_{\text{f}}} = {\left(\dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {\sqrt {|x(n)|} } \right)^2} 6 均方值 {x^2}_{{\text{rms}}} = \dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {{x^2}(n)} 7 均方根值 {x_{{\text{rms}}}} = \sqrt {\dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {{x^2}(n)} } 8 最大值 {x_{\max }} = \max (x(n)) 9 最小值 {x_{\min }} = \min (x(n)) 10 峰值 {x_{\text{p}}} = \max |x(n)| 11 波形指标 W = {x_{{\text{rms}}}}/\left| {\bar x} \right| 12 峰值指标 C = {x_{\text{p}}}/{x_{{\text{rms}}}} 13 脉冲指标 I = {x_{\text{p}}}/\left| {\bar x} \right| 14 裕度指标 L = {x_{\text{p}}}/{x_{\text{f}}} 15 峭度指标 S = \displaystyle\sum\limits_{n = 1}^N {{{[x(n) - \bar x]}^4}} /(N - 1)\sigma _x^4 轴承的运行分为正常运行和退化2个阶段。轴承分段RUL函数需要寻找首次通过的时间(first predicting time,FPT),即轴承首先开始退化的点,并认为在此之前轴承处于正常运行状态。由于峭度特征对轴承的退化阶段特别敏感,因此本文采用文献[20]中所构建的基于轴承原始振动信号峭度特征的方法来识别轴承的FPT。过程如下。
1) 通过轴承的原始振动信号确定轴承的健康监测区间,并计算峭度平均值{s_{\text{m}}}和标准差\sigma 。
2) 构建3\sigma 区间[{s_{\text{m}}} - 3\sigma ,{s_{\text{m}}} + 3\sigma ],超出该区间的点即为异常点。
3) 为避免来自轴承原始振动数据随机噪声的干扰,定义当一个样本后的2个连续样本峭度超过所构建的3\sigma 区间时,第1个样本所对应的时间即为轴承的FPT,表示为
{\{ ({s_{t - i}} - {s_{\text{m}}}) > 3\sigma \} _{i = 2}} (18) 式中:{s_{t - i}}为t - i时刻的样本所对应的峭度;{s_{\text{m}}}为健康区间的峭度平均值。
为更好地说明所提FPT的准确性,本文通过轴承水平振动信号提取3个具有明显退化性的时域特征并进行归一化,即标准差、峭度和均方值。归一化后的时域特征如图6所示。
根据确定的FPT值,制作RUL线性标签,并认为RUL标签是线性退化的。关于HS评估的标签设置,将FPT值之前的样本标签设置为1,即健康阶段。将FPT值之后的样本标签设置为0,即故障阶段。
本文使用具有明显退化趋势的均方值作为网络模型的输入数据。输入数据通过计算时域特征的单调性进行筛选。单调性的评估通过斯皮尔曼等级相关系数来实现。以Bearing1_2的不同时域特征的斯皮尔曼等级相关系数为例,根据相关系数的大小,可以筛选出方差、标准差、方根幅值、均方值、均方根值、最大值和峰值,所筛选的时域特征具有比较明显的退化趋势,然后从中选取均方值作为输入数据,如图7所示。
3.2.3 实验结果
表4和表5分别给出本文所提的基于多任务门控网络预测模型的方法与CNN,GRU,CNN-LSTM和LSTM多种主流预测模型以及Xu等[21]所提出的空间注意残差网络(spatial attention residual network, SARN)的对比实验结果。表4为MAE的结果,表5为RMSE的结果,其中“平均”代表每种模型在轴承1_2、轴承2_2和轴承2_5的MAE或RMSE的均值。
表 4 轴承数据集的MAE结果Table 4. MAE results of bearing dataset方法 e_MAE 平均 轴承1_2 轴承2_2 轴承2_5 CNN 0.112 0.152 0.054 0.106 GRU 0.046 0.073 0.052 0.057 LSTM 0.072 0.069 0.026 0.056 CNN-LSTM 0.115 0.141 0.070 0.109 SARN 0.104 0.117 0.054 0.091 多任务模型 0.021 0.026 0.016 0.021 表 5 轴承数据集的RMSE结果Table 5. RMSE results of bearing dataset方法 e_MAE 平均 轴承1_2 轴承2_2 轴承2_5 CNN 0.165 0.247 0.086 0.166 GRU 0.074 0.103 0.076 0.084 LSTM 0.102 0.114 0.045 0.087 CNN-LSTM 0.173 0.215 0.088 0.159 SARN 0.171 0.173 0.093 0.146 多任务模型 0.028 0.035 0.022 0.028 与其他5种典型的方法相比,本文所提出的基于多任务门控网络预测模型在不同工况下对轴承的 RUL预测表现最好,优于常用的时序数据预测模型GRU和LSTM,这表明本文所提模型在处理长时间序列数据时具有更好的计算能力。
图8、图9和图10为5种方法与基于多任务门控网络预测模型在轴承1_2、轴承2_2和轴承2_5上的RUL预测曲线。可以看出,本文所用方法的预测曲线更接近真实的RUL曲线。
图11、图12和图13为基于多任务门控网络预测模型在轴承1_2、轴承2_2和轴承2_5上的健康状态评估图。可以看出,本文设计的多任务门控网络预测模型在大多数情况下可进行正确分类。
图14、图15和图16为基于多任务门控网络预测模型的通用特征提取模块在轴承1_2、轴承2_2和轴承2_5上的特征可视化。可以看出,所提取的通用退化特征呈现线性趋势,该结果表明多任务门控网络预测模型可以学习到规则的特征表示,从而提取到准确的预测信息。
本文所提出的多任务门控网络预测模型由通用特征提取模块和多门控专家混合层2部分组成。为进一步验证多门控专家混合层在多任务门控网络预测模型中的作用,还进行了消融对比实验,其结果如表6和表7所示。其中,消融模型去掉了多门控专家混合层,完整模型则为多任务门控网络预测模型。
表 6 轴承数据集消融实验的MAE结果Table 6. MAE results of ablation experiments for bearing datasets方法 e_MAE 平均 轴承1_2 轴承2_2 消融模型 0.048 0.039 0.043 完整模型 0.021 0.026 0.023 表 7 轴承数据集消融实验的RMSE结果Table 7. RMSE results of ablation experiments for bearing datasets方法 e_MAE 平均 轴承1_2 轴承2_2 消融模型 0.074 0.050 0.062 完整模型 0.027 0.034 0.031 图17和图18是消融模型和完整模型在轴承1_2和轴承2_2的RUL预测曲线。结果表明,采用多门控专家混合层的模型与消融模型相比,预测精度更高,误差指标MAE和RMSE分别提升了46.51%和50.0%,拟合效果更好,具有更精确的预测能力。
为增加所提出方法的工程适用性,本文还以原始振动信号作为网络的输入数据进行实验讨论,并与LSTM和GRU网络模型进行对比实验,结果如表8和表9所示。
表 8 轴承数据集的MAE结果Table 8. MAE results for bearing dataset方法 e_MAE 平均 轴承1_2 轴承2_2 GRU 0.112 0.080 0.096 LSTM 0.164 0.011 0.088 多任务模型 0.041 0.028 0.035 表 9 轴承数据集的RMSE结果Table 9. RMSE results FOR bearing dataset方法 e_MAE 平均 轴承1_2 轴承2_2 GRU 0.188 0.116 0.152 LSTM 0.184 0.121 0.153 多任务模型 0.053 0.037 0.045 图19和图20为3种方法在轴承1_2和轴承2_2上的剩余使用寿命预测曲线。
虽然与LSTM和GRU模型的预测效果相比,本文所提方法的预测精度更高,但是从评价指标以及可视化预测图来看,以时域特征作为网络模型的输入比以原始振动信号作为网络模型的输入,预测效果更好,误差值更低。因为原始振动信号中通常包含大量的噪声和无关信息,会增加网络模型的预测难度,而时域特征能够将原始信号中的关键变化和趋势提取出来,可有效地描述振动信号的主要变化趋势,减少噪声的干扰,因此预测效果会更好。接下来会继续去改进网络模型,以更好地适应原始振动信号作为输入数据的情况,从而进一步提升预测精度。
4. 结 论
本文构建包含通用特征提取部分和特征分离部分的多任务门控网络预测模型,并设计联合损失函数,以实现轴承的HS评估和RUL预测子任务的有效结合,提高轴承RUL预测精度。利用BiGRU和VAE来从时域特征中提取通用退化特征,采用MMoE结构分离子任务的特征。为验证所提模型的有效性,在XJTU-SY数据集的不同工况数据上开展实验。结果表明,与其他单任务模型CNN,GRU,LSTM和CNN-LSTM相比,本文所提模型能够取得更好的预测效果。在下一步的工作中,将探讨多任务学习网络的特征可解释以及迁移预测策略下所提模型对高端装备关键部件RUL的预测效果。
-
表 1 多任务模型超参数设置
Table 1 Hyperparameter settings of multitasking model
序号 类型 参数 1 初始学习率 0.01 2 优化器 Adam 3 输入层 (None,1) 4 BiGRU1 (None,16) 5 BiGRU2 (None,32) 6 编码器的线性层1 (None,64) 7 编码器的线性层2 (None,32) 8 编码器的线性层3 (None,20) 9 采样层的均值和方差 (None,10) 10 解码器的线性层1 (None,128) 11 解码器的线性层2 (None,32) 12 MMoE的8个专家层 (None,4) 13 HS评估的线性层1 (None,32) 14 HS评估的线性层2 (None,16) 15 HS评估的线性层3 (None,2) 16 RUL预测的线性层1 (None,32) 17 RUL预测的线性层2 (None,16) 18 RUL预测的线性层3 (None,1) 表 2 XJTU-SY轴承数据集的描述
Table 2 Description of the XJTU-SY bearing dataset
数据组 运行工况 轴承1_1,轴承1_2,轴承1_3,轴承1_4,轴承1_5 2 100 r/min,12 kN 轴承2_1,轴承2_2,轴承2_3,轴承2_4,轴承2_5 2 250 r/min,11 kN 轴承3_1,轴承3_2,轴承3_3,轴承3_4,轴承3_5 2 400 r/min,10 kN 表 3 时域统计特征
Table 3 Time-domain statistical features
序号 统计特征 公 式 1 平均值 \bar x = \dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {x(n)} 2 方差 \delta = \dfrac{1}{N}\displaystyle\sum\limits_{n - 1}^N {{{[x(n) - \bar x]}^2}} 3 绝对平均值 |\bar x| = \dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {|{x_n}|} 4 标准差 {\sigma _x} = \sqrt {\dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {{{[x(n) - \bar x]}^2}} } 5 平方根幅值 {x_{\text{f}}} = {\left(\dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {\sqrt {|x(n)|} } \right)^2} 6 均方值 {x^2}_{{\text{rms}}} = \dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {{x^2}(n)} 7 均方根值 {x_{{\text{rms}}}} = \sqrt {\dfrac{1}{N}\displaystyle\sum\limits_{n = 1}^N {{x^2}(n)} } 8 最大值 {x_{\max }} = \max (x(n)) 9 最小值 {x_{\min }} = \min (x(n)) 10 峰值 {x_{\text{p}}} = \max |x(n)| 11 波形指标 W = {x_{{\text{rms}}}}/\left| {\bar x} \right| 12 峰值指标 C = {x_{\text{p}}}/{x_{{\text{rms}}}} 13 脉冲指标 I = {x_{\text{p}}}/\left| {\bar x} \right| 14 裕度指标 L = {x_{\text{p}}}/{x_{\text{f}}} 15 峭度指标 S = \displaystyle\sum\limits_{n = 1}^N {{{[x(n) - \bar x]}^4}} /(N - 1)\sigma _x^4 表 4 轴承数据集的MAE结果
Table 4 MAE results of bearing dataset
方法 e_MAE 平均 轴承1_2 轴承2_2 轴承2_5 CNN 0.112 0.152 0.054 0.106 GRU 0.046 0.073 0.052 0.057 LSTM 0.072 0.069 0.026 0.056 CNN-LSTM 0.115 0.141 0.070 0.109 SARN 0.104 0.117 0.054 0.091 多任务模型 0.021 0.026 0.016 0.021 表 5 轴承数据集的RMSE结果
Table 5 RMSE results of bearing dataset
方法 e_MAE 平均 轴承1_2 轴承2_2 轴承2_5 CNN 0.165 0.247 0.086 0.166 GRU 0.074 0.103 0.076 0.084 LSTM 0.102 0.114 0.045 0.087 CNN-LSTM 0.173 0.215 0.088 0.159 SARN 0.171 0.173 0.093 0.146 多任务模型 0.028 0.035 0.022 0.028 表 6 轴承数据集消融实验的MAE结果
Table 6 MAE results of ablation experiments for bearing datasets
方法 e_MAE 平均 轴承1_2 轴承2_2 消融模型 0.048 0.039 0.043 完整模型 0.021 0.026 0.023 表 7 轴承数据集消融实验的RMSE结果
Table 7 RMSE results of ablation experiments for bearing datasets
方法 e_MAE 平均 轴承1_2 轴承2_2 消融模型 0.074 0.050 0.062 完整模型 0.027 0.034 0.031 表 8 轴承数据集的MAE结果
Table 8 MAE results for bearing dataset
方法 e_MAE 平均 轴承1_2 轴承2_2 GRU 0.112 0.080 0.096 LSTM 0.164 0.011 0.088 多任务模型 0.041 0.028 0.035 表 9 轴承数据集的RMSE结果
Table 9 RMSE results FOR bearing dataset
方法 e_MAE 平均 轴承1_2 轴承2_2 GRU 0.188 0.116 0.152 LSTM 0.184 0.121 0.153 多任务模型 0.053 0.037 0.045 -
[1] 张少凯, 周建辉, 吴炜, 等. 船舶尾轴承倾斜计算分析研究[J]. 中国舰船研究, 2011, 6(3): 60–63. doi: 10.3969/j.issn.1673-3185.2011.03.013 ZHANG S K, ZHOU J H, WU W, et al. Computational analysis on the inclination of ship stern bearing[J]. Chinese Journal of Ship Research, 2011, 6(3): 60–63 (in Chinese). doi: 10.3969/j.issn.1673-3185.2011.03.013
[2] 宋雪玮, 廖志强, 贾宝柱. 基于自适应SSA和改进TEO的船用消防泵电机轴承故障特征增强与诊断[J/OL]. 中国舰船研究, 2024, 19: 1−9.[2024-06-02]. https://dx.doi.org/10.19693/j.issn.1673-3185.03663. SONG X W, LIAO Z Q, JIA B Z. Marine fire pump motor bearings fault feature enhancement and diagnosis based on adaptive SSA and improved TEO[J/OL]. Chinese Journal of Ship Research, 2024, 19: 1−9.[2024-06-02]. https://dx.doi.org/10.19693/j.issn.1673-3185.03663 (in Chinese).
[3] LIN D P, JIN B P, CHANG D F. A PSO approach for the integrated maintenance model[J]. Reliability Engineering & System Safety, 2020, 193: 106625. doi: 10.1016/j.ress.2019.106625
[4] PENG K X, JIAO R H, DONG J, et al. A deep belief network based health indicator construction and remaining useful life prediction using improved particle filter[J]. Neurocomputing, 2019, 361: 19–28. doi: 10.1016/j.neucom.2019.07.075
[5] ZIO E. Prognostics and health management (PHM): where are we and where do we (need to) go in theory and practice[J]. Reliability Engineering & System Safety, 2022, 218: 108119. doi: 10.1016/j.ress.2021.108119
[6] LEI Y G, LI N P, GUO L, et al. Machinery health prognostics: a systematic review from data acquisition to RUL prediction[J]. Mechanical Systems and Signal Processing, 2018, 104: 799–834. doi: 10.1016/j.ymssp.2017.11.016
[7] WEN Y X, WU J G, DAS D, et al. Degradation modeling and RUL prediction using wiener process subject to multiple change points and unit heterogeneity[J]. Reliability Engineering & System Safety, 2018, 176: 113–124. doi: 10.1016/j.ress.2018.04.005
[8] WANG H, LIAO H T, MA X B, et al. Remaining useful life prediction and optimal maintenance time determination for a single unit using isotonic regression and gamma process model[J]. Reliability Engineering & System Safety, 2021, 210: 107504. doi: 10.1016/j.ress.2021.107504
[9] XUE Z W, ZHANG Y, CHENG C, et al. Remaining useful life prediction of lithium-ion batteries with adaptive unscented Kalman filter and optimized support vector regression[J]. Neurocomputing, 2020, 376: 95–102. doi: 10.1016/j.neucom.2019.09.074
[10] ALI J B, SAIDI L, MOUELHI A, et al. Linear feature selection and classification using PNN and SFAM neural networks for a nearly online diagnosis of bearing naturally progressing degradations[J]. Engineering Applications of Artificial Intelligence, 2015, 42: 67–81. doi: 10.1016/j.engappai.2015.03.013
[11] ZHAO R, YAN R Q, CHEN Z H, et al. Deep learning and its applications to machine health monitoring[J]. Mechanical Systems and Signal Processing, 2019, 115: 213–237. doi: 10.1016/j.ymssp.2018.05.050
[12] MA M, MAO Z. Deep-convolution-based LSTM network for remaining useful life prediction[J]. IEEE Transactions on Industrial Informatics, 2021, 17(3): 1658–1667. doi: 10.1109/TII.2020.2991796
[13] CHENG C, MA G J, ZHANG Y, et al. A deep learning-based remaining useful life prediction approach for bearings[J]. IEEE/ASME Transactions on Mechatronics, 2020, 25(3): 1243–1254. doi: 10.1109/TMECH.2020.2971503
[14] PENG W W, YE Z S, CHEN N. Bayesian deep-learning-based health prognostics toward prognostics uncertainty[J]. IEEE Transactions on Industrial Electronics, 2020, 67(3): 2283–2293. doi: 10.1109/TIE.2019.2907440
[15] QIN Y, CHEN D L, XIANG S, et al. Gated dual attention unit neural networks for remaining useful life prediction of rolling bearings[J]. IEEE Transactions on Industrial Informatics, 2021, 17(9): 6438–6447. doi: 10.1109/TII.2020.2999442
[16] AGGARWAL K, ATAN O, FARAHAT A K, et al. Two birds with one network: unifying failure event prediction and time-to-failure modeling[C]//Proceedings of 2018 IEEE International Conference on Big Data. Seattle, WA, USA: IEEE, 2018: 1308−1317.
[17] MIAO H H, LI B, SUN C, et al. Joint learning of degradation assessment and RUL prediction for aeroengines via dual-task deep LSTM networks[J]. IEEE Transactions on Industrial Informatics, 2019, 15(9): 5023–5032. doi: 10.1109/TII.2019.2900295
[18] 雷亚国, 韩天宇, 王彪, 等. XJTU-SY滚动轴承加速寿命试验数据集解读[J]. 机械工程学报, 2019, 55(16): 1–6. doi: 10.3901/JME.2019.16.001 LEI Y G, HAN T Y, WANG B, et al. XJTU-SY rolling element bearing accelerated life test datasets: a tutorial[J]. Journal of Mechanical Engineering, 2019, 55(16): 1–6 (in Chinese). doi: 10.3901/JME.2019.16.001
[19] MA J Q, ZHAO Z, YI X Y, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: ACM, 2018: 1930−1939.
[20] LI N P, LEI Y G, LIN J, et al. An improved exponential model for predicting remaining useful life of rolling element bearings[J]. IEEE Transactions on Industrial Electronics, 2015, 62(12): 7762–7773. doi: 10.1109/TIE.2015.2455055
[21] XU W Y, JIANG Q S, SHEN Y H, et al. New RUL prediction method for rotating machinery via data feature distribution and spatial attention residual network[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 3507909. doi: 10.1109/TIM.2023.3246526