基于改进稀疏表示的大数据模糊聚类仿真研究

时间：2023-04-20 11:10:08 来源：千叶帆本文已影响人

鄂晶晶，杨丽华，冯锋

(1. 呼伦贝尔学院计算机学院，内蒙古呼伦贝尔 021000；
2. 宁夏大学信息工程学院，宁夏银川 750021)

现如今在医学、生物学、电子商务以及互联网领域中，海量数据的聚类分析已经受到了广泛应用[1，2]，为人们提供了巨大的便利。在实际生活中，采用聚类算法对数据聚类分析时，需要根据数据数值的属性对其进行分类，例如在统计数据时不仅需要单一的报告，还需要多种类别，令获取的数据信息更加全面，便于聚类。通常情况下数据聚类算法只能针对数据的属性对其聚类，不能与混合性的数据聚类，而后也有专家提出了对混合型数据聚类的算法，但由于经验不足，导致聚类精度较低。

为了能够精准地实现对多种数据的数据分类，相关领域专家和学者提出了更多的数据聚类算法研究成果。王秋萍[3]等人提出一种基于改进KH与KHM聚类的混合数据聚类算法，该算法为了解决聚类算法的缺陷之处采用改进磷虾群算法对数据位置更新，对种群位置搜索能力有着显著的提升，再采用两种算法对搜索能力开展了具体提升，将上述算法与聚类算法相融合，在选取的20个标准测试函数中开展聚类分析测试，对不同的数据个体进行迭代和替换，以此保障数据全局收敛性，该算法的位置更新效果存有误差，导致该算法存在聚类效果差的问题。邱保志[4]等人提出基于残差分析的混合属性数据聚类算法，该算法依据数据之间的相似性对其开展了局部密度计算，根据计算结果对数据开展聚类中心预选取，构建聚类模型获取预选取数据的真实聚类中心，最终依据数据之间的距离对数据的各个簇划分，从而完成数据聚类，该算法的局部密度计算结果不明显，导致该算法存在CPU耗时长的问题。施虹[5]等人提出改进的均值插补不完备数据聚类算法，通过划分数据集形成两种不具备关联性的子集，并采用传统聚类算法对划分后的子集数据聚类，得出最初聚类结果，根据初始聚类数据的属性填补缺失数据，以此确立最终插补值，从而完成对数据的聚类，该算法的数据划分结果不完善，导致该算法存在平均迭代次数多的问题。

由于大数据量非常大，其类型较多，智能分析相对精准迅速，但很多时候无法得以高效、迅速的处理。为了解决上述算法中存在的问题，提出基于改进稀疏表示的大数据模糊聚类算法。

2.1 大数据的改进稀疏表示

1)稀疏表示

根据数据处理理论可知，基于字典的线性组合可以有效对大数据表示，在聚类分析算法中应用广泛。确定大数据后需要利用稀疏表示[6，7]寻找稀疏解，用方程表达式定义为

(1)

对最小化求解问题的l0范式转换，令其等价于l1范式最小化学习求解问题，因此求解方程(1)，定义如下

(2)

设置y定义为测试样本，令y满足下述方程表达式，从而保证稀疏表示的准确性，定义如下

(3)

式中，ω1定义为稀疏系数，λ1定义为正则化参数，D定义为全部训练样本数据所组建而成的字典。其中ω1需要采用BP算法即可求解获取。

2)大数据协同表示

利用稀疏表示理论获取的数据稀疏度存在稀疏较大的问题，会导致数据中的重要特征出现丢失的问题，使数据聚类精度下降。因此采用数据协同表示方法[8]，分别对大数据稀疏系数开展范式约束，以此降低大数据字典原子中潜存的方差，其方程表达式定义为

(4)

方程表达式中，λ2定义为正则化参数。

根据方程(4)对其进行求导操作，求导结果设定该方程表达式为0，基于设定结果计算出大数据的协同表示系数，即ω2，计算结果表示如下

ω2=(DTD+λ2+I)-1+DTy

(5)

式中，I标记为求导处理，T定义为时刻。

基于上述处理，最终获取的残差值定义如下

(6)

2.2 特征提取

根据大数据的改进稀疏表示原理，提取大数据特征，利用BP算法[9，10]获取各个数据特征的稀疏系数及协同表示系数，达到提升数据模糊聚类精度的目的。

1)大数据标准化

处理完成后设定各个大数据的指标均值全部定义为1，那么大数据的方差表示为

(7)

数据经标准化处理后能够有效去除对数据量纲及数量级产生的影响。

2)大数据特征量提取

①提取大数据个体指标绝对量特征，定义为

(8)

式中，AQF(Fij)定义为第i个数据个体在T时期所获取的均值，j定义为指标。

②提取大数据个体的偏度特征，其提取结果定义为

(9)

通过获取的大数据不同特征的两种联合系数，确定了大数据的类别标签，便于对大数据的分类，因而以此为基础采用遗传算法对大数据开展模糊聚类[14，15]，具体操作如下。

1)数据编码

以模糊聚类中心为主，编码大数据各个类别，设置不同类别的样本数据维数由d定义而成，c则表示为各个类别中心数据编码长度，数据的编码长度满足c>2，因此大数据的个体为p11p12…p1dp21p22…p2d…pc1pc2pcd。

2)适应度函数

大数据模糊聚类时，它的目标函数值越小说明分类效果最佳，同时适应度值最大。为了令大数据目标函数满足这一条件，利用FCM算法确立大数据适应度函数：f=1/An(U，P)。其中，f定义为FCM算法，An(U，P)属于目标函数。通过该方程表达式完成大数据适应度函数的确立。

3)数据算子选择

4)数据交叉

以两两配对的方式在大数据内选出M个父本，并对可以交叉的位置确立，再次交叉生成下一代，主要过程为：

①以两两配对理念建立配对表，生成出1～M的不重复数据。

②生成可以均匀分布在1～N-1范围内的数据，即整数。

③交叉复制，选取最优个体，完成交叉。

5)丢失数据找回

数据聚类过程中极易出现数据丢失的问题，所以需要对数据实行找回操作，找回个体为P=(p1，p2，…，pM)，M为数据个体最大值，且任意数据分量均与常数ηi相对应，以此确定出数据丢失位置。

(10)

获取数据丢失位置后得出数据个体找回率，有效控制大数据聚类过程的丢失问题。

6)算法终止，完成大数据的模糊聚类

采用进化代数终止上述流程，得出数据c个聚类中心编码，实现大数据聚类。

为了验证基于改进稀疏表示的大数据模糊聚类算法的整体有效性，需要对该算法开展实验对比测试。实验的样本数据来源为Public Data Sets on Amazon Web Services (AWS)数据集(http：∥aws.amazon.com/datasets)，该数据集中包括多种类大数据，适用于不同聚类算法测试。为突出研究算法的应用有效性，采用研究提出的基于改进稀疏表示的大数据模糊聚类算法(算法1)、文献[3]提出的基于改进KH与KHM聚类的混合数据聚类算法(算法2)、文献[4]提出的基于残差分析的混合属性数据聚类算法(算法3)完成对比测试，具体实验过程如下。

4.1 不同算法的平均迭代次数对比

据研究发现，大数据聚类准确率与数据平均迭代次数在整体聚类性能中占据着重要地位。聚类准确率高但平均迭代次数多，说明该算法的迭代效率差，在整体聚类效果中存有缺陷。所以为了能够全面验证算法1、算法2和算法3的聚类效果，需要对三种算法的平均迭代次数进行测试。具体测试结果如表1所示。

表1 平均迭代次数对比测试

根据表1中的数据发现，随着测试样本数据的不断增加，虽然三种算法的平均迭代次数也在不断提升，但是相比之下，算法1的平均迭代次数为最低，说明在更少的迭代次数下，研究算法即可达到理想的应用效果。

4.2 不同算法的CPU耗时对比

对大数据聚类时将会消耗大量的CPU时间，CPU耗时越高对大数据聚类造成的影响就越大，因而利用三种算法对聚类时的CPU消耗时间进行测试，测试结果如图1所示。

依据图1中的数据可知，算法1聚类数据时CPU整体耗时都在0.6s以内，而算法2和算法3的总体CPU耗时更高，当聚类数据较多时，CPU的耗时已接近1s。这主要因为算法1提取了大数据五个方面的特征量，加强了算法1的聚类精度，令算法1的聚类效果最优。

图1 CPU耗时测试

4.3 不同算法对多类大数据的聚类效果可视化测试

从Public Data Sets on Amazon Web Services (AWS)数据集中选取3种大数据，每种大数据数量为50个，测试样本数据为150个，并保留其混乱顺序，分别采用算法1、算法2和算法3对其完成聚类处理，可视化输出其聚类结果，如图2～图4所示。

图2 算法1的可视化聚类效果

图3 算法2的可视化聚类效果

根据图2～图4的测试结果可知，对于随机选取的三类大数据，研究算法可实现其聚类，且3类数据的数量相差不大，符合实际大数据分布情况。相比之下，算法2和算法3的大数据聚类出现偏差，数据类别为2类，很明显这两种聚类算法对多类大数据的处理效果不够理想。

图4 算法3的可视化聚类效果

研究提出基于改进稀疏表示的大数据模糊聚类算法。通过描述改进稀疏表示基本原理提取大数据特征，再采用BP算法计算特征量，取得各个数据的稀疏系数及协同表示系数。基于获取结果，采用遗传算法对大数据进行模糊聚类，实现数据分类。该算法解决了当前数据聚类算法占用CPU内存较高且聚类不够精准的问题，在后续模糊聚类算法中发挥着重要作用。

猜你喜欢聚类定义测试幽默大测试幽默大师(2020年11期)2020-11-26基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08“摄问”测试摄影之友(影像视觉)(2019年3期)2019-03-30“摄问”测试摄影之友(影像视觉)(2019年2期)2019-03-05“摄问”测试摄影之友(影像视觉)(2018年12期)2019-01-28基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26成功的定义山东青年(2016年1期)2016-02-28一种层次初始的聚类个数自适应的聚类方法研究电子设计工程(2015年6期)2015-02-27自适应确定K-means算法的聚类数：以遥感图像聚类为例华东师范大学学报（自然科学版）(2014年6期)2014-02-27修辞学的重大定义当代修辞学(2014年3期)2014-01-21

相关热词搜索：稀疏，仿真，模糊，