• 工作总结
  • 工作计划
  • 读后感
  • 发言稿
  • 心得体会
  • 思想汇报
  • 述职报告
  • 作文大全
  • 教学设计
  • 不忘初心
  • 打黑除恶
  • 党课下载
  • 主题教育
  • 谈话记录
  • 申请书
  • 对照材料
  • 自查报告
  • 整改报告
  • 脱贫攻坚
  • 党建材料
  • 观后感
  • 评语
  • 口号
  • 规章制度
  • 事迹材料
  • 策划方案
  • 工作汇报
  • 讲话稿
  • 公文范文
  • 致辞稿
  • 调查报告
  • 学习强国
  • 疫情防控
  • 振兴乡镇
  • 工作要点
  • 治国理政
  • 十九届五中全会
  • 教育整顿
  • 党史学习
  • 建党100周
  • 当前位置: 蜗牛文摘网 > 实用文档 > 公文范文 > 自适应融合局部和全局特征的图像质量评价

    自适应融合局部和全局特征的图像质量评价

    时间:2023-02-21 12:30:09 来源:千叶帆 本文已影响

    温 静,白 鑫

    (山西大学 计算机与信息技术学院,山西 太原 030006)

    随着互联网+的爆炸式发展,图像作为数据传输和信息获取的主要载体,在图像采集、传输和存储、以及图像处理的各个环节中,都会造成图像不同程度的失真,进而影响到用户体验和后续的图像处理。因此,符合人眼视觉特性并能满足图像理解分析的图像质量评价(image quality assessment,IQA)算法是极其必要的,它能够监控图像质量、为图像处理系统提供可靠的评价反馈。

    评价图像的质量可以直接依赖观察者的主观经验,对待评价图像的视觉效果做出质量判断,并使用平均主观得分(mean-opinion score,MOS)来表示,MOS得分越高则说明图像的质量越好,该过程属于主观评价方法。主观评分的过程需要大量的人工参与,实践起来耗时耗力。而客观评价方法是通过算法来量化图像的视觉失真程度。通常根据是否需要参考图像进行分类,将客观评价方法分为有参考[1-2]、半参考[3]、无参考[4-6]。尽管有参考的图像评价方法可以得到很好的性能,但是由于参考图像在实际中获取往往存在困难,因此无参考图像质量评价得到了广泛关注。无参考图像质量评估(no-reference image quality assessment,NR-IQA)也称为盲图像质量评估[7-8],它完全不需要参考图像,根据失真图像的自身特征来估计图像的质量。

    在早期,人们使用人工提取的特征[9-10]进行质量评估,然后采用机器学习的方法建立失真特征与质量分数之间的映射模型。自Kang[11]提出使用卷积网络来进行图像质量预测以来,基于深度卷积神经网络(deep convolutional neural networks,DCNN)[12-14]的NR-IQA方法迅速发展,这些方法相比传统方法取得了很大的性能提升。这是因为DCNN方法采用端到端的训练,建立模型参数与图像失真之间的复杂关系。而在真实失真图像中,不仅会存在全局均匀失真(例如,失焦、低曝光),还会存在局部区域的非均匀失真(例如,目标移动、重影)。因此忽略局部与全局的联系[15]会增加图像质量评估的误差。

    同时,现有的IQA模型大部分都是在网络的最后一层进行图像预测,而高层网络的感受野比较大,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱。对于底层网络的感受野比较小,几何细节信息表征能力强,分辨率高,只提取最后一层进行评估很容易损失图像的细节特征,于是也有许多方法通过多尺度的方式捕捉图像。文献[16-17]表明通过多尺度的特征提取可以获取更多的失真信息,提高图像质量评价的准确性。

    此外,DCNN网络训练离不开大量的人工标注的图像数据,然而图像质量的人工标注过程工作量巨大且十分耗时,因此现阶段人工标注的IQA数据集[18]的规模十分有限,直接使用这些数据集进行深度神经网络模型训练很容易导致过拟合。为了克服这个难题,许多的方法都通过先使用ImageNet[19]预训练来解决问题,因为预先训练的模型不是专门用于IQA任务的,当面对未知失真图像时,泛化能力并不好,预测得到的图像质量分数也不理想。文献[20]将图像分割为图像块来弥补数据量不足的问题,并在训练的过程中,对每一个图像块返回一个权重,最后将对应的权重进行合并。同时,主观图像质量评价过程依赖于人对失真类型的先验知识,基于此文献[21-22]提出深度元学习的NR-IQA方法,从合成失真数据集上学习失真的共享先验知识模型,然后在未知失真NR-IQA任务的训练数据上微调先验模型,得到图像质量评价模型,该方法为缓解数据不足提供了新思路。

    综上,该文的主要工作如下:

    (1)为了提高对失真数据的泛化能力,所提模型基于元学习框架,进行模型参数的预训练。

    (2)为了增强局部与全局的联系,设计了一种局部和全局融合的自适应模块,对每个空间位置自适应地构建更大感受野空间和通道间的相关性,以长距离特征指导原始特征进行特征变化,融合更丰富的信息来增强特征表示,强化局部与全局之间的联系。

    (3)为了避免图像细节信息随网络深度造成损失,将有效的边缘信息纳入所提出的多尺度特征融合网络,同时学习图像特征和边缘图信息,提高图像质量评价的精度。

    随着深度学习的快速发展,基于深度卷积神经网络的无参考质量评价成为了图像质量评价的主流。文献[10]将特征提取和分数回归纳入在一个统一的卷积神经网络的框架内实现,并将图像分割为图像块,采用随机梯度下降的方法进行模型训练,但是该方法为了弥补数据不足的问题,将图像分割为32×32的图像块,这样会在模型训练中,造成图像整体质量评估的误差。文献[23]提出了基于VGG-16的双线性池化的CNN结构,并设计了两个CNN分支,分别适应合成和真实数据集的评估场景,利用双线性池化模块融合两个网络的特征,进而再拟合深度特征与质量得分之间的映射关系。然而该方法仍然不能准确地预测包含具有复杂场景的真实失真,于是将语义特征融入NR-IQA任务中,考虑图像的语义信息。文献[16]设计了动态生成权值的超网络模拟从图像内容到感知质量方式的映射,并引入了内容理解和感知规则对图像进行语义判断,将失真特征与语义特征结合在一起进行质量评估。除此之外,文献[17]提出了通过超像素分割帮助IQA模型感知失真信息,并将提取的多尺度语义特征与超像素分割模型得到的超像素邻接图融合,模拟人类视觉进行图像质量预测。该方法仍然是在ImageNet上进行预训练,所获得的模型参数不是专门用于图像质量评价,基于此,文献[21]通过元学习框架学习应用于图像质量的先验模型,提高预测的准确性。然而,该文献采用Resnet18,传统卷积多聚焦于局部关系的失真信息,无法获取图像的全局相关性特征,未充分利用图像中纹理结构,边缘细节信等。而该文提出的方法,不仅在网络模型中自适应构建局部区域与全局空间的联系,而且通过元学习初始化模型的参数,提高模型的泛化能力,增强局部失真特征和全局失真特征的判别性,并结合多尺度融合的方式对失真信息进行捕获。

    该文提出了一种基于自适应融合局部和全局特征的图像质量评价算法,网络结构如图1所示。首先利用合成失真数据集通过元学习方法学习一个共享质量的先验知识模型,将多个特点失真类型数据集分为支持集和查询集,支持集用于计算网络参数的梯度更新,查询集用于验证更新后的模型是否有效。在训练阶段,将图像数据先使用Sobel算子获取到失真图像的边缘特征图,并和原图一起输入到改进后的Resnet50进行模型训练,并在不同尺度的Layer1、Layer2、Layer3特征层提取特征时,加入自适应融合局部和全局特征模块,扩大卷积操作的感受野,构建全局空间与通道间依赖关系,利用全局信息指导局部特征进行特征变化,挖掘更多丰富的失真特征,并将融合特征输入到质量回归网络中。在训练得到特定失真的NR-IQA任务的质量先验模型后,使用该模型作为先验知识,在具有未知失真的NR-IQA数据集上微调后进行质量预测。

    2.1 元学习

    2.2 自适应融合局部和全局特征模块

    人的视觉在感知失真图像的过程中,不仅会从全局出发感知图像整体的语义信息,也能够感知到图像中感兴趣的局部细节。受启发于SCNET[24]网络通过内部通信显著扩大了每个卷积层的感受野,增强其表征学习能力。为此,该文在特征提取时,将特定层的卷积块分成多个部分,通过一个卷积块的变换来校准另一部分卷积块的特征变化,有效地扩大每个空间位置的感受野,自适应地构建了每个空间位置全局空间和通道间的依赖关系,通过全局信息来强化局部特征表征能力,捕获更具辨识度的失真特征,预测更准确的图像质量得分。该模块的工作流程如图2所示,通过三个卷积层执行不同的操作获取局部与全局的特征信息。

    P1=AVGPoolR(Xglobal)

    (1)

    然后M1对P1进行特征变换:

    (2)

    其中,UP(*)为双线性插值算子,进行特征变化后,为了加强特征图与原始图像失真区域的映射,该文增加了校准操作。通过M2对Xglobal进行通道增强,具体操作如下:

    (3)

    Y=(Y"⊕Xlocal)×M3

    (4)

    自适应融合局部和全局特征模块的优势在于每个空间位置不仅允许自适应地考虑全局的上下文信息作为潜在空间嵌入原始空间指导其变化,还可以对通道间的依赖关系进行建模,有效构建局部空间和全局上下文的联系,增强卷积神经网络对全局关系的建模能力,充分利用图像的纹理与边缘信息提高对失真信息的判别性,提高图像质量预测的准确性。

    2.3 增强特征融合

    当人类评价一幅图像质量好坏时,图像中的物体的边缘和纹理的清晰度是一个至关重要的评价标准。因此使用Sobel算子提取失真图像的边缘信息,通过叠加的方式,将边缘特征图与原图输入到网络进行训练,能够有效获取图像细节信息,提高特征的表征能力。

    深度卷积网络的浅层卷积能捕获细节特征,深层卷积能获取语义特征,将网络中的高级语义信息和低级细节信息相结合,利用不同卷积层之间的特征优势互补,有利于网络捕捉失真图像的失真信息。将不同尺度特征图划分为不重叠的Patches,沿着通道继续叠加Patches,之后再进行全局平均池化,执行1×1卷积并将其合成向量。该方式可以看作是一种基于注意力的Patch提取器,它可以感知到局部失真相对应的特征Patch,获取多尺度相关联的失真信息,进而更好地预测图像质量。

    操作流程如图3所示,在网络训练阶段,将图像裁剪到统一尺度224×224,使用Sobel算子来获取失真图像的边缘特征图,并将获取的边缘细节信息输入到网络当中,同时去除网络最后两层(平均池化层、全连接层),从网络的Layer1(256×56×56),Layer2(512×28×28),Layer3(1 024×14×14)层分为三个独立的分支提取多尺度特征,并在每个分支中执行相同的操作,先对相应的输出特征映射进行全局平均池化(global average pooling,GAP)操作,平均池化在减少维度的同时,能够保留更多的图片信息,便于特征融合。此外,由于特征融合会增加特征维度,增大计算的成本,使用1×1卷积做降维处理,最后通过全连接层得到特征向量Fi(i=1,2,3),接下来对Fi(i=1,2,3)进行concat操作得到输出向量F,再将F输入网络中进行计算。

    2.4 损失函数

    (5)

    其中,φX为通过元学习训练得到的模型参数,由于最小化图像的预测质量分数和真实质量分数之间的差异,该文提出使用欧几里德距离的平方作为损失函数,如下所示:

    (6)

    其中,y为x的真实质量分数。

    3.1 数据集

    在合成失真和真实失真的数据集上分别进行了实验。合成失真的数据集被用来学习失真知识的先验模型,并评估先验模型对未知失真的泛化能力,使用TID2013[25]和KADID-10K[26]生成元训练集学习先验知识,进行留一法交叉验证,目的是为了验证先验模型对于未知失真的泛化能力。假设数据集中有N种失真,该文使用N-1种失真类型进行训练,剩余的一种用于性能测试。再使用真实失真的数据集验证自适应融合局部和全局特征无参考方法对于失真的评估性能,选用的真实失真的数据集包括:CID2013[27]、LIVE challenge[28]和KonIQ-10K[29]。CID2013数据集包含六个部分,总共有480张真实失真的图像,使用79台数码相机进行拍摄,并通过人工对图像质量进行评分,评分范围为[0,100],越接近100图像质量越好。LIVE challenge数据集包含1 162张移动相机拍摄获取的真实失真图像,如运动模糊、曝光不足、白噪声和JPEG压缩,分数范围在[0,100]。数据量相对较大的IQA数据集KonIQ-10K,包含100 073幅图像,每幅图像是由大约120名工作人员的5个评分平均而来,范围在[1,5],得分越高表示质量越好。同时还在IQA数据集LIVE[18]和CSIQ[30]不同失真类型测试该模型,每个数据集包含了779和866张合成失真图像。

    3.2 评价指标

    采用了常见的用于无参考图像质量评价的指标,分别是斯皮尔曼秩相关系数(Spearman rank order coefficient,SROCC)和皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC),来衡量预测的单调性和准确性。在N个测试图像上,PLCC定义为:

    (7)

    (8)

    SROCC和PLCC的值表示与主观得分的相关性,范围在[0,1],值越接近1,表示实验模型越接近人的主观视觉感受,模型性能越好。

    3.3 结果分析

    3.3.1 可视化分析

    为了验证元学习通过两级梯度优化学习质量先验模型的有效性,该文采用可视化代码显示不同失真的梯度变化与失真的关系。首先在TID2013和KADID-10K数据集中特定的失真图像中学习质量先验模型,然后在LIVE数据集中随机选择三张严重失真(高斯模糊、JPEG2000压缩、加性高斯粉红噪声)的图像进行梯度分析。图像以及相应的梯度图如图4所示,左边小方框内表示放大后的失真局部细节,由于失真会引起偏导的急剧变化[21],通过梯度可以捕捉到引起变化的失真位置,右侧的小方框显示了其失真位置对应在梯度图中的分布,梯度图反映出图像中真实失真的位置。这有力地表明,通过元学习可以从大量NR-IQA任务中有效地学习图像中各种失真的共享先验知识。

    3.3.2 图像质量分析

    实验一:真实失真数据集上预测图像质量的对比分析。

    为了验证从合成数据集中学习的质量先验模型对真实失真的泛化能力,表现自适应融合局部和全局特征方法的有效性,将所提出的方法与5种传统方法和8种基于深度学习的NR-IQA方法在真实失真数据集上进行比较。

    诸如传统方法包括BLIINDS-II[31](blind image integrity notator using DCT statistics)、BRISQUE[9](blind referenceless image spatial quality evaluator)、ILNIQE[32](integrated local natural image quality evaluator)、CORNIA[10](codebook representation for no reference image assessment)和HOSA[33](high order statistics aggregation),基于深度学习的NR-IQA方法包括BIECON[34](blind image evaluator based on a convolutional neural network)、MEON[7](end-to-end blind image quality assessment)、DIQaM-NR[20](deep image quality assessment metric no-reference)、DIQA[35](deep CNN-based image quality assessment)、NSSADNN[14](naturalness-aware deep no-reference image quality assessment)、MetaIQA[21](meta-learning image quality assessment)、MetaIQA+[22](deep meta-learning image quality assessment)和HyperIQA[16](hyper network image quality assessment)。在CID2013、LIVE challenge和KonIQ-10K数据集中,将所有图像分为80%训练样本和20%测试样本。表1总结了三个IQA数据集的测试结果,每个数据集最好的结果用粗体标出。结果表明自适应融合局部和全局特征的无参考方法在CID2013和LIVE challenge上取得了最好的效果,在CID2013数据集上,相比于MetaIQA+方法SROCC和PLCC都提高了2.7个百分点。在LIVE challenge数据集中,PLCC对于MetaIQA提高了5.1个百分点,SROCC跟HyperIQA相比提高了0.8个百分点,与MetaIQA+比较提高了1.5个百分点。同时在KonIQ-10K数据集上与HyperIQA方法取得了较好的结果,PLCC性能相比于HyperIQA提高了0.6个百分点。实验证明充分考虑局部失真与全局上下文信息的联系,有助于感知图像质量,同时通过学习质量先验模型,有效提升预测性能,提高在不同失真数据集的泛化能力。

    表1 在LIVE challenge、CID2013、KonIQ-10K数据集上与其他方法的性能比较

    实验二:合成数据集上对不同失真类型预测图像质量的对比分析。

    对于合成失真数据集,引入深度元学习的IQA方法,该文引入了两个合成图像数据集LIVE和CSIQ,并与其他方法进行性能比较。在实验过程中进行不同失真类型的性能比较,包括JPEG压缩(JPEG)、JPEG2000压缩(JP2K)、整体对比度缩减(CC)、加性高斯粉红噪声(WN)、快速锐利衰减失真(FF)、加性高斯白噪声(FN)以及高斯模糊(GB)等失真类型,如表2所示,并在每种失真类型中用粗体标出了最佳性能。结果表明自适应融合局部和全局特征的无参考方法SROCC值都大于0.9,文中方法对于高斯模糊的失真类型表现出色,在两个数据集上都要比其他的方法有明显的提高,LIVE数据集中GB失真类型比BRISQUE方法提高了0.6个百分点,同时在快速锐利衰减失真类型上比HyperIQA提高了0.6个百分点。在CSIQ数据集上,文中方法在多个失真类型上取得不错的效果,尤其是对于整体对比度缩减的失真类型,相比于以往的方法,SROCC值达到了0.912,比HyperIQA方法提高了3.8个百分点。这表明通过自适应融合局部和全局特征模块,可以有效获取失真信息,并通过多尺度融合的方式保留了图像失真的信息,因此,对于高斯模糊和快速锐利衰减类型表现出色。然而,该文提出的模型在JPEG和JP2K类型上略低于其他模型,是因为这两种类型会使得图像整体上丢失部分高频信息,而高频信息正是图像中的细节部分,随着网络的加深损失了失真细节信息,使算法的有效性降低,从而影响质量得分。在WN失真类型中,无法有效构建局部与全局失真特征的联系,弱化了失真特征的表征能力,但即便在这种情况下,该文提出的方法仍然有较好的效果。

    3.3.3 消融实验分析

    实验一:验证不同尺度融合有效性的消融实验。

    文中方法将浅层的细节特征和高层的语义特征进行融合,合并上下文信息,充分利用浅层的特征(例如提取失真图像的边缘信息、纹理信息等),改善随网络加深而导致高层网络输出的特征图逐渐变小、丢失更多细节信息的问题。考虑到不同层次所提取的失真信息不同,为了提高文中方法预测的准确性,在不同尺度上进行特征融合的消融实验,通过实验结果选择性能最好的多层次特征融合来优化文中方法。

    实验结果如表3所示。在改进后的Resnet50的Layer1、Layer2、Layer3上进行特征融合是最好的选择,其实验效果是最好的,能够避免失真图像的细节信息丢失,丰富提取特征。

    表2 比较LIVE和CSIQ数据集上不同失真类型的SROCC

    表3 在LIVE challenge和CID2013数据集上不同尺度的消融结果

    实验二:验证不同模块有效性的消融实验。

    除此之外,采取对改进网络每次减少一个模块的方式进行消融实验验证提出方法的有效性。即减少自适应融合局部和全局特征模块(SC),增强特征融合模块(MF)进行实验。

    表4 验证方法有效性的消融实验

    由表4可以看出,当对所有模块进行融合时,质量评价的效果有明显的提升,使用增强特征融合和自适应融合局部和全局特征模块相比于单独使用Resnet50提高了将近2%。同时,在LIVE challenge和CID2013两个数据集上都进行了消融实验,通过实验证明,自适应融合局部和全局特征的方法在处理NR-IQA任务时具有优势,提高了失真图像质量预测的准确性。

    提出了一种自适应融合局部和全局特征的图像质量评价算法,扩大了卷积操作时的感受野,有效构建每个空间位置长距离空间和通道间的依赖关系,校准原始空间和全局上下文的映射关系,自适应融合局部和全局特征信息,获取到更丰富的失真信息;
    通过增强特征融合,避免随网络加深而导致图像细节信息的损失;
    此外,还引入了元学习训练方法,通过学习质量先验模型,提高对未知失真场景的泛化能力。在LIVE challenge数据集上,相比于MataIQA+方法,SROCC提高了1.5个百分点,在CID2013数据集上提高了2.7个百分点。由于该文仅考虑了对失真信息的感知,忽略了语义内容与失真变化的关系,因此今后在对失真进行评估时需要融入更多的语义特征,了解图像语义内容对失真的影响。

    猜你喜欢 全局卷积特征 基于改进空间通道信息的全局烟雾注意网络北京航空航天大学学报(2022年8期)2022-08-31领导者的全局观中国医院院长(2022年13期)2022-08-15离散型随机变量的分布列与数字特征中学生数理化(高中版.高考数学)(2022年3期)2022-04-26基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11二分搜索算法在全局频繁项目集求解中的应用现代计算机(2019年19期)2019-08-12从滤波器理解卷积电子制作(2019年11期)2019-07-04抓特征解方程组初中生世界·七年级(2019年5期)2019-06-22不忠诚的四个特征当代陕西(2019年10期)2019-06-03落子山东,意在全局金桥(2018年4期)2018-09-26
    相关热词搜索:全局局部自适应

    • 名人名言
    • 伤感文章
    • 短文摘抄
    • 散文
    • 亲情
    • 感悟
    • 心灵鸡汤