• 工作总结
  • 工作计划
  • 读后感
  • 发言稿
  • 心得体会
  • 思想汇报
  • 述职报告
  • 作文大全
  • 教学设计
  • 不忘初心
  • 打黑除恶
  • 党课下载
  • 主题教育
  • 谈话记录
  • 申请书
  • 对照材料
  • 自查报告
  • 整改报告
  • 脱贫攻坚
  • 党建材料
  • 观后感
  • 评语
  • 口号
  • 规章制度
  • 事迹材料
  • 策划方案
  • 工作汇报
  • 讲话稿
  • 公文范文
  • 致辞稿
  • 调查报告
  • 学习强国
  • 疫情防控
  • 振兴乡镇
  • 工作要点
  • 治国理政
  • 十九届五中全会
  • 教育整顿
  • 党史学习
  • 建党100周
  • 当前位置: 蜗牛文摘网 > 实用文档 > 公文范文 > 基于经验小波变换的鄱阳湖CODMn预测

    基于经验小波变换的鄱阳湖CODMn预测

    时间:2023-04-20 17:20:05 来源:千叶帆 本文已影响

    陈伟,金柱成,2,俞真元,2,王晓丽*,彭士涛,,魏燕杰

    1.天津理工大学环境科学与安全工程学院

    2.朝鲜理科大学数学系

    3.交通运输部天津水运工程科学研究院

    近年来,经济社会发展和人类活动加剧了水资源的消耗,工业废水、生活污水的排放及面源污染等直接对水体水质造成影响。水体污染和富营养化已成为湖泊水体生态环境主要问题之一。富营养化带来浮游植物大量增殖、水体溶解氧浓度降低、水体生境受损等一系列问题[1]。鄱阳湖是中国第一大淡水湖,其生态系统的变化受到研究人员的关注[2-3]。目前关于鄱阳湖水质水量、富营养化和植被分布的研究已经很多[4-7],但鲜见鄱阳湖水域针对CODMn的研究。CODMn作为反映湖泊富营养化和有机质浓度的重要指标,与其他环境因子关系密切,其变化动态对预防藻类水华发生具有重要意义,因此,开展鄱阳湖CODMn的预测与评价十分必要。

    目前对于CODMn的治理主要依赖于实时监测技术,但仅依靠实时监测技术只能进行污染后的修复工作,而不能规避未来可能发生的水体污染风险。如果能将实时监测的COD数据与数学模型相结合实现水质的准确预测,就可以让相关部门及管理人员预判到可能存在的污染风险,并向上下流域发出预警,从而为水资源的管理提供科学可靠的依据[8-9]。机器学习模型作为一种数据驱动的方法,具有非线性映射、鲁棒性和自适应性的优点,被认为是水质预测的有效方法。近年来,机器学习在理论研究和实际应用中都取得了重大突破。在水质预测方面,Ruben等[10]通过多层传感器实现了对无锡市河流CODMn的预测;
    Miao等[11]通过构建长短期记忆(LSTM)神经网络,实现了对有毒污水出水COD的精准预测,为实现系统故障预警提供了科学依据;
    Khullar等[12]通过构建双向长短期记忆(BLSTM)神经网络,对印度德里地区的CODCr和BOD5进行了预测,其表现出色。虽然机器学习在水质预测方面的研究有很多,但由于CODMn这个指标具有高度不确定性且变化因素也比较复杂,单一的机器学习模型往往不能满足预测精度的要求[13-14]。为了克服这些局限性,专家学者将数据分解技术与机器学习神经网络相结合,以此提高机器学习模型的预测精度。该混合模型的基本思想是通过数据分解将原始的高噪声数据分解成几个低噪声数据,再对分解的低噪声数据应用机器学习神经网络进行预测。由于分解后的数据相较于原始数据更加稳定和便于处理,因此该类方法的预测精度往往高于单一机器学习模型[15]。而数据分解技术中,小波分解(WD)、经验模式分解(EMD)[16]是近年来最常用的数据分解技术,并已经在水质预测模型方面得到了广泛应用[13,17-19]。但这2种数据分解方法存在明显的缺点:WD的分解性能很大程度上取决于母小波函数和分解水平的设置,所以需要进行大量数值试验来确定这些超参数;
    而EMD缺少严谨的数学基础且存在模态混叠、重构误差大等问题,导致模型的预测性能十分有限。经验小波变换(EWT)通过构建自适应小波函数,能够提取不同频率成分,具有WD的严谨性和EMD的自适应性[20],可以解决上述WD和EMD的缺点[21]。但现有的研究鲜见将EWT应用于CODMn预测。考虑到CODMn在水质方面的重要性,并且该指标比溶解氧、pH等其他水质指标变化更复杂[22],因此有必要验证EWT在CODMn预测方面的有效性。

    笔者将EWT与BLSTM神经网络相结合,开发出一种混合模型对CODMn进行预测,并以鄱阳湖入水口CODMn时间序列作为研究对象进行模型验证。本研究的特色:1)将EWT用于水体CODMn预测;
    2)开发EWT与深度学习神经网络相结合组成的预测模型进行水质预测。虽然Liu等[21]使用过EWT方法,但其研究中利用的是传统的机器学习算法(“浅层学习”),而不是深度学习算法。与传统的机器学习相比,深度学习通过深层神经网络结构来实现底层数据源的更高级别表示,而且能够在没有明确指示的情况下提取大量特征,受原始数据和噪声数据的影响较少[23-24]。EWT与深度学习算法相结合建立的模型可能达到更高的预测精度。

    1.1 研究区概况

    鄱阳湖位于江西省北部,平水位时湖泊面积为3 150 km2。鄱阳湖由赣江、新江、府河、饶河、修河5条河流汇入,通过一条狭长的北方河道与长江交汇,是长江中下游主要支流之一。该地区受季风控制,年平均气温为18 ℃,降水量为1 500 mm。不同季节湖泊水位差较大,低水位时仅12 m,高水位时能达到22 m以上[4]。

    1.2 数据来源

    从生态环境部网站(https://www.mee.gov.cn)收集鄱阳湖入水口的水质监测站点——江西省南昌市滁槎监测站2017年8月1日——2020年4月30日(共33个月)的CODMn监测数据(每4 h一次)。对得到的数据进行异常值处理,即根据GB 3838——2002《地表水环境质量标准》将高于15 mg/L的值全部去除,再进行每日平均(单日监测值4个以上的才算有效,否则视为缺失值),得到每日平均CODMn数据(共计988个)。其中,2017年8月1日——2019年10月31日的数据用于模型训练,2019年11月1日——2020年1月31日的数据用于模型验证,2020年2月1日——4月30日的数据用于模型测试。

    图1显示了该监测站点2017年8月1日——2020年4月30日的CODMn监测数据。由图1可知,鄱阳湖CODMn具有明显的季节性变化,整体数值范围为 1.13~6.00 mg/L,平均值为(2.50±0.73)mg/L,标准偏差较大,表明数据不稳定性较高,导致现有的很多模型无法达到较高的预测精度。

    图1 2017年8月1日——2020年4月30日鄱阳湖CODMn数据分布Fig.1 CODMn data distribution of Poyang Lake from August 1,2017 to April 30, 2020

    2.1 经验小波变换原理

    EWT是Gilles[20]提出的一种自适应信号处理技术。

    本研究采用EWT将CODMn时间序列分解成若干个相对平稳的事件序列。首先对水质CODMn的监测数据X(t)进行Fourier变换得到Fourier频谱,将该频谱划分成I个连续段。定义经验小波函数(ω)(k=1,2,···,I)以及经验尺度函数(ω)(k=1,2,···,I):

    式中:
    ωk是第k个频谱段的上限;

    τk是以 ωk为中心的过渡相宽度的1/2;

    θ (z)是函数,θ(z)=z4(35-84z+75z2-20z3)。

    将 τk选择为 τk= βωk(0 < β <1),则 ϕ˜k(ω)和ψ˜k(ω)表示为:

    经 验 模 式 M ODEk(t)(k=1,2,···,I,I+1)表 示如下:

    式中:
    φk(ω)和 ψ1(ω)分别为小波函数和尺度函数;
    〈·,·〉为内积;
    *为卷积。结果原始CODMn时间序列X(t)被EWT分解成K(K=I+1)个模式(分解成分)。

    2.2 机器学习神经网络预测

    机器学习神经网络很多,但与支持向量回归(SVR)、极限学习机(ELM)、Elman神经网络(ENN)等其他传统机器学习模型相比,LSTM神经网络能够体现长期相关性,因此,LSTM神经网络更适合于水质预测[25-26]。但LSTM神经网络只能体现从过去到未来单方向的特征,而不能体现反方向的特征。因此,LSTM神经网络无法充分表达具有相互性的时间相关性,因而在预测精度方面还有待提高。解决这一问题的方法就是BLSTM神经网络,如图2所示,BLSTM神经网络的基本思想是利用2层独立的隐藏层在正向和反向2个方向描述时间序列。每个隐藏层都由LSTM单位组成,那么由2个LSTM单位结合组成的BLSTM单位即可同时表达2个方向的信息。BLSTM单元在表达长期依赖方面非常有效,而且不会产生冗余信息。因此,BLSTM神经网络在许多领域广泛应用,并证明了其有效性[14]。本研究采用BLSTM神经网络对每个分解成分进行预测。

    图2 LSTM神经网络和BLSTM神经网络的对比Fig.2 Comparison between LSTM and BLSTM neural networks

    2.3 方法集成

    将EWT与BLSTM神经网络相结合,构建混合模型EWT-BLSTM对鄱阳湖水体CODMn进行预测,具体流程如下:1)使用EWT将CODMn的原始时间序列分解成若干个模态分量MODEk(k=1,2,···,K);
    2)对获得的每个分解成分,使用偏自相关函数(PACF)[15]来提取用于开发每个子模型(对应每个分解成分的BLSTM)的输入变量;
    3)将上述选定的输入变量输入到BLSTM神经网络,得出每个分解成分的预测值;
    4)通过把所有分解成分的预测结果进行重建,得到最终水质参数CODMn的预测值。

    图3显示EWT-BLSTM模型的预测过程,图中BLSTMk(k=1,2,···,K)表示第k个分解成分对应的BLSTM神经网络(预测模块),MODEk′(k=1,2,···,K)是 M ODEk的预测结果。

    图3 地表水体CODMn预测流程Fig.3 Flow chart of CODMn prediction of surface water

    模型的建立和测试通过MATLAB 2020b软件实现。

    2.4 模型的预测性能评价

    2.4.1 评价指标

    通过1和7 d后的CODMn预测来验证所提出方法的有效性,采用均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)3个统计指标进行模型性能评估,其计算公式如下:

    式中:Ol为实测值;
    Pl为预测值;
    L为数据长度。

    2.4.2 比较对象

    为了更清楚地展示EWT-BLSTM模型的高效性,表1展示了参与比较的模型的结构对比 。

    表1 参与比较的模型的结构Table 1 Structure of the competitor models

    3.1 模型构建

    模型的预测性能很大程度上受到模型超参数设置的影响,为此使用训练集和验证集来确定模型的结构并优化必要的超参数。

    3.1.1 EWT数据分解

    首先通过EWT将鄱阳湖数据中训练集和验证集的CODMn时间序列分解为8个模式(MODE1~MODE8)(图4)。其中,MODE8是通过识别多锥功率谱估计中的峰值自动确定的。从图4可以看出,相较于原始数据,大部分分解成分展现出更加清晰的变化趋势。通过表2所示的样本熵值,同样也可以看出分解成分的熵值明显小于原始CODMn时间序列的熵值(图1)。因此,根据这些分解成分建立模型,可以获得比使用原始数据建立的模型更高的预测精度。

    表2 ICEEMDAN分解成分的样本熵Table 2 Sample entropy calculation of ICEEMDAN modes

    图4 EWT对鄱阳湖CODMn时间序列的数据分解Fig.4 Data decomposition of CODMn time series by EWT in Poyang Lake

    3.1.2 PACF分析

    在建立模型之前,根据时间序列数据的特征,需要确定输入因子。考虑到历史数据和预测值之间的相关性,使用PACF分析来确定模型的输入因子。具体计算过程:首先计算出每个分解成分时间序列的PACF,然后找出95%置信区间的最大时间滞后值(表3)。以未来1 d预测的第一个分解成分MODE1为例,确定的时间滞后值是47,因此,在任何时间点t,{MODE1(t-46), MODE1(t-45),···, MODE1(t)}作为输入,预测MODE1(t+1)。同样,得到所有分解成分的预测值 MODEk(t+1)(k=2,3,···,8)后,将这些值相加,就得到(t+1)时刻的CODMn预测值。

    表3 CODMn时间序列以分解成分的预测模型的时间滞后值Table 3 Time lags of the prediction model of the decomposition components of CODMn time series

    3.1.3 BLSTM神经网络的优化

    采用网格搜索优化方法来确定BLSTM神经网络的最佳结构和超参数。表4列出了获得的超参数。具体步骤:1)对每个超参数选择其合适范围,如BLSTM层数为1~3;
    每层神经元数为{[N/2]、N、[3N/2]、[2N]、[5N/2]、3N}(N为输入的大小,[ ]为取整函数);
    最小批量大小为{8,16,32,64};
    学习率为{0.1,0.01,0.001}。考虑到训练中迭代次数超过50~80以后训练误差基本不变,最大迭代次数设置为100。2)对每组超参数,计算验证集预测结果并比较,最终将预测误差最低的超参数组选为模型的超参数。

    表4 BLSTM神经网络的超参数Table 4 Hyperparameters of BLSTM neural network

    3.2 模型的预测性能评价

    在3.1节优化模型结构及其超参数后,使用测试集来测试构建模型的预测精度(测试阶段)。表5显示了EWT-BLSTM模型的预测性能。从表5可以看出,EWT-BLSTM模型在1和7 d以后预测中的MAPE分别为2.25%和8.36%,预测精度较高。

    表5 测试阶段EWT-BLSTM模型的预测性能Table 5 Forecast performance of EWT-BLSTM model in the testing stage

    3.3 预测性能比较

    3.3.1 整体性能比较

    参与比较的模型(2.4.2节)的预测评价结果如表6所示。由表6可知,与单一的BLSTM模型相比,结合数据分解技术的混合模型的预测精度更高。在预测未来1 d以后的CODMn时,WD-BLSTM、EMD-BLSTM、EWT-BLSTM模型的MAPE比单一BLSTM模型分别降低了6.01%、3.45%、10.53%;
    在预测未来 7 d以后的CODMn时,WD-BLSTM、EMD-BLSTM、EWT-BLSTM模型的MAPE比单一BLSTM模型分别降低了12.80%、9.82%、16.16%,表明数据分解技术可以提高模型的预测精度。在基于各种数据分解的混合型模型中,本研究提出的EWT-BLSTM模型的预测精度最高,与WD-BLSTM、EMD-BLSTM模型相比,1 d预测的MAPE降低了4.52%、7.08%,7 d预测的MAPE降低了3.36%、6.34%,表明EWT技术比其他分解技术更有效。而表6中数据显示,EWT-BLSTM模型的预测精度高于EWT-SVR、EWT-ELM、EWT-LSTM模型。预测1 d以后CODMn时,与EWT-SVR、EWT-ELM、EWTLSTM模型相比,EWT-BLSTM模型的MAPE分别降低了10.24%、7.54%、0.09%;
    预测7 d以后CODMn时,与EWT-SVR、EWT-ELM、EWT-LSTM模型相比,EWT-BLSTM模型的MAPE分别降低了15.39%、3.33%、3.06%,说明BLSTM神经网络在构建混合模型时具有非常可靠的预测能力。

    表6 各模型的预测性能比较Table 6 Comparison of the prediction performance of different models

    3.3.2 预测值和实测值之间的一致性程度

    为了更直观地展示EWT-BLSTM模型的优势,将4个模型(BLSTM、WD-BLSTM、EMD-BLSTM、EWT-BLSTM)在测试阶段的预测值和实测值使用散点图(图5)和折线图(图6)表示。从图5可以看出,EWT-BLSTM模型的点在回归线附近最集中,决定系数(R2)最高,说明所提出模型的预测值与实测值之间一致性最好。从图6可以看出,EWT-BLSTM模型在水质参数的极值处,预测精度高于其他3个模型。这说明在数据相对复杂、极端的情况下,本研究所提出的混合模型也是有效的。

    图5 鄱阳湖测试阶段CODMn预测值和实测值之间的相关性 (P<0.01)Fig.5 Correlation between predicted and measured CODMn values of Poyang Lake in test stage (P < 0.01)

    图6 鄱阳湖测试阶段CODMn预测值和实测值对比Fig.6 Comparision of predicted and measured CODMn values of Poyang Lake in test stage

    (1)鄱阳湖CODMn数据波动幅度较大,存在很强的不稳定性,但EWT-BLSTM混合模型在预测中依然表现出非常高的准确性:在预测未来1 d以后的CODMn时,相对于单一BLSTM模型,MAPE降低了10.53%,而与WD-BLSTM、EMD-BLSTM模型相比,MAPE降低了4.52%、7.08%;
    在预测未来7 d以后的CODMn时,相对于单一BLSTM模型,MAPE降低了16.16%,而与WD-BLSTM、EMD-BLSTM模型相比,MAPE降低了3.36%、6.34%。

    (2)EWT-BLSTM混合模型解决了现有基于WD和EMD的模型运算量大、模态混叠、重构误差大等问题,大大提高了水质预测精度,从而提供了一种数据驱动水质预测方法。

    (3)EWT-BLSTM混合模型仅使用水质参数本身的历史数据作为输入,具有建模所需数据相对简单的优点。然而,在现实中,水质参数受天气条件等因素的影响很大,因此,该方法仍有进一步改进的空间。

    猜你喜欢鄱阳湖预测值水质鄱阳湖水系之潦河水利水电快报(2022年7期)2022-07-18加拿大农业部下调2021/22年度油菜籽和小麦产量预测值今日农业(2021年19期)2022-01-12±800kV直流输电工程合成电场夏季实测值与预测值比对分析环境保护与循环经济(2021年7期)2021-11-02法电再次修订2020年核发电量预测值国外核新闻(2020年8期)2020-03-14《鄱阳湖生态系列插画》现代出版(2019年6期)2020-01-14一月冬棚养虾常见水质浑浊,要如何解决?这9大原因及处理方法你要知晓当代水产(2019年1期)2019-05-16这条鱼供不应求!虾蟹养殖户、垂钓者的最爱,不用投喂,还能净化水质当代水产(2019年3期)2019-05-14图像识别在水质检测中的应用电子制作(2018年14期)2018-08-21鄱阳湖好风光老友(2017年4期)2017-02-09水质总氮测定方法改进探究河南科技(2014年18期)2014-02-27
    相关热词搜索:鄱阳湖变换小波

    • 名人名言
    • 伤感文章
    • 短文摘抄
    • 散文
    • 亲情
    • 感悟
    • 心灵鸡汤