基于信息融合多维数据去重的大数据环境聚类算法研究

期刊: 创新科技研究 DOI: PDF下载

陶金

安顺职业技术学院,贵州安顺 561000

摘要

在信息技术水平日益提升的今天,社会大众之间的联系更加紧密,交流方式愈发便捷。基于此,大数据技术、云计算技术的快速发展,使数据在快速分析处理中面临许多挑战,而多维数据去重的大数据环境聚类算方法的合理运用,能够提高数据的分析效率,使采样复杂度降低,保证数据分析的精准性。文章将对多维数据去重在大数据环境下聚类算法展开研究,希望为业内工作者提供可靠参考依据。


关键词

信息融合;多维数据去重;大数据环境;聚类算法

正文


当前,社交网络、物联网的完善发展,使社会大众已经进入到信息化时代,并改变大众的日常生活方式,满足社会大众日益增长的物质需求,提高大众的生活品质。但是大量信息的出现,使数据信息持续增加,怎样提高信息数据的处理效果,保障信息处理的精准性,成为值得研究学者深入探讨的课题。

一、大数据环境的聚类划分与多维聚类阐述

(一)数据信息的多维聚类区分

在大数据研究中,数据信息具有多方面的复杂性,如网页数据包含文本属性和链接属性。常规处理大数据的方法是利用采样技术缩小数据规模,便于关系数据库系统的使用并提高数据管理效果。然而,这种方法容易丢失数据的精准性和关联价值,难以实现数据信息的重要价值复用与抽取。另一种方式是根据单一方法强制聚类数据,但这会破坏数据的多维结构,难以获得准确结果。

数据聚类分析的目标是根据数据的分布特点和内在多维关系,对数据信息的不同侧面进行聚类。原则是同类数据应具有相似特性,异类数据因其差异性可被科学归类。在多维聚类分析模型设计中,如果数据具有不同意义的聚类划分方式与重复数据,需要将整个数据划分为不同类型,目的是找到一种有效的聚类区分方式,使更多应用者获得去重后的聚类数据集。

(二)多维聚类的原理概述

实施聚类划分的关键是进行多维分析,需解决维度无法改变的问题。通过整理数据维度信息到事实表中,利用冗余维度改变问题分析角度,能有效解决数据维度问题。在联机分析处理过程中,只要维护增多不明显增加开销,就不会对数据分析性能产生不利影响。

多维聚类分析算法的关键是学习决策树模型,这是一种持续优化改善的过程。在决策树模型中,聚类分析通过计算,能准确判定给定的后验概率。然而,在数据运用过程中,需要进一步考量计算难度,通常利用贝叶斯网络结构估算概率,有效解决数据不确定性和不完整性的问题。通过概率推理,即使在不完全数据情况下,也能对少量未知数据状态进行主观概率估算,最终运用期望值和修正概率,做出最佳选择。

二、非结构化数据的归类与多维数据分析函数模型的构建

(一)非结构化数据的数据模型概述

非结构化数据,如文档、文本、图片、XML、HTML、报表、图像、音频、视频等,无法通过数据库二维逻辑展现。本次研究的多维去重聚类算法主要运用贝叶斯网络模型,揭示观测变量的隐藏结构,通过显变量(如叶子节点)与其他节点的内在逻辑关系,允许存在多个隐变量,即一个因变量应对一种数据聚类方式。多维去重聚类算法通过分析随机变量的概率依赖关系,进一步处理非结构化数据,依赖条件概率分布进行定量描述。

数据处理的主要步骤包括:

数据信息的预处理:清洗数据,降低噪声,解决数据丢失问题,对连续值进行离散化处理,实现数据转换。

数据结构集和测试训练集的学习:利用概率评估方式进行数据预处理,将数据集划分为数据结构集和测试训练集,形成分类系统,评估其精准性并进行修正。

分词与文本向量化分析:将字序列重新组合成词序列,并量化文本中的词特性,形成文本特征向量,常用向量空间模型处理。

特征选取与多维聚类:降低文本向量特征空间的高维性和稀疏性,增强分类效率与精准度,常用方法包括文本频率、信息增益、互信息量、卡方统计、文本证据权、优势率等。

(二)多维数据聚类剖释函数模型定义

依照上述对大数据环境非结构化数据的区分流程,对大数据分析函数模型进行定义,主要包括以下几种情况:(1)定义A:问题可描述成已知数据集和类别集合分类问题就是明确这样的函数映射关系,获得数据集D中各个数据项Di,都能映射至其中一个类别上。(2)定义B:已知大数据变量集合,变量Ti依托的节点集合P(Ti),其节点之间的依赖性可通过相图表示,即对每个变量都能表示成一个节点,对于每个节点Ti,都要在P(Ti)中的每个有向节点引导一条有向边至Ti。(3)定义C:整体马尔科夫性假设A与B作为贝叶斯网T的两个变量,Z是T中不涵盖A与B的节点结合,如若Zd-分割为A与B,其A与B在给定Z时条件独立,也就是-分割与条件独立,能够说明贝叶斯网论侧面与概率论侧面的内在关联性。(4)定义D:贝叶斯公式假设表示样本空间M的一个划分,如若用P(di)表示事件di发生概率,同时P(di0的情况下,其中。对于任何一个事件t,都会符合P(t)0的要求。(5)定义E:如若依照特征矢量X提供的依据,对某个物体进行分类,,且。可以利用贝叶斯公式,获得,决策要求就是似然率测试规则。(6)定义F:根据贝叶斯网络推理,运用概率分解的方式,使推理的难度降低,实现计算的模块化。通过消元方式,对数据信息实现边缘化处理,会让任何给定大数据集合通过似然率测试要求,获得最小错误概率的计算样本。

三、多维聚类算法的应用

(一)数据的数据去重算法优化

如若想要在1TB个数据中,将重复数找出,且内存开销只支持10M数据计算,常规的运算思路就是,利用快速排序方式,排序后对数据展开遍历,随后将重复的数据删除。然而,运用hash计算方法,该计算方法主要应用hash函数取模,随后通过余数展开分1K组;再对分组内部实施hash查重复数。如若找出满足条件的hash函数,需展开数据映射,并应用链接方法,以免数据相互冲撞。

算法的具体流程如下:首先,如若A集合映射之后的值与B,C,D…集合映射值相一致;随后,需运用字符串匹配方式,将A删除;最终,如若A!=B,C,D…,需把A加入链表,继续遍历。此算法尽管运用哈希算法,使数据之间的耦合度降低,但是也有明显不足,其一很难设计出没有任何冲突的hash函数;其二每次展开hash时,需要进行取模操作,会浪费一定的时间与精力,所以建议运用聚类算法。

(二)多维聚类算法的优化

文章根据上述内容,进行函数模型的建立,对算法加以优化。首先,把一个大群体数据划分成N(N=1022)个数据区间段,应用N个文件储存。确保每个文件都能表示一个区间(1x1M放在1Mx2M放在当中,M=1022k)。其次,通过递归扫描相应数,以对比的方式,把数划分为N个区间。最终,分别对N文件,展开排序与去重操作。运用字典运算方式。由于数据随机,平均每个文件数据个数均为2M/1M个,其2M÷1M×4=8M÷4,且小于10M,此时可用bit操作更加节省内存,M为1022k。

在数据去重处理后,需对数据展开数据聚类分析,此时主要应用贝叶斯公式展开计算,1)。此公式的这一部分作为数据与模型的融合程度,而作为模型与数据融合过密的情况,此部分是一项差额负量,且模型与数据融合过于疏松的情况下,此部分会成为一项补偿量。依照上述贝叶斯公式要求,模型和数据相融合十分紧密,数据融合的复杂程度不能过高聚类特性,对隐数模型展开多维聚类算法的优化。

此算法会接受输入量k,随后把n个数据对象划分为K个聚类,且要满足:(1)相同聚类中对象相似度较高;(2)不同聚类中对象相似度过小的基本要求。聚类相似度就是通过各个聚类中对象的均值,得出一个“DataCell”进行计算。相应的算法描述为:输入原始数据对象集合S;输出各个聚类数据对象集合。具体过程如下:

①集合初始化,要求S集合展开增量聚类,形成对S的划分集合,促使其Nil为空值。

②随机选取一个对象,在等待聚类对象集合中随机选取一个对象Si,对其展开重要属性Mi计算,其中Mi需要是所有属性的子集。

③求出各个聚类集合,对集合展开遍历,如若游标没有滚动至数据集末尾,就要一直执行。

④在数据滚动时,求得其中的重要聚类属性Mi

⑤假如在Si中,有一个或者一个以上的对象和具有部分或所有相同属性,且重要属性是所有属性的百分比大于阈值情况下,可以把这一属性设定为一个标签,即flag。

⑥然后将flag相同的Si数据集合展开聚类多维分析。

⑦其他自成一类。

⑧最终进行聚类并合。

(三)算法复杂程度的分析

针对新算法在实施操作上的空间开销,可考量的因素为待聚类大数据抽象特性样本为k个,假如聚类运用优化的层次聚类方式,每个待聚类簇根据串行实现方法展开预置,其聚类总时间开销即0(n2logn),且假设抽取样本花销为m,其算法总空间复杂度S(n)可以用加以表示。

同时,结合前文提出的算法优化要求,如若模型与数据结合比较疏松,假定x为数据集的维,y表示数据对象的大小,在属性划分算法中,只对数据集扫描一次,其z表示数据集的聚类个数,除此之外,聚类结果不会在多维空间形状的影响下,使其精准度降低,且与数据集输入顺序没有关系,权值和阈值能结合以往经验加以科学判断。如此一来,可以发现多维空间聚类,也能使聚类过程的计算量降低。如若样本数据运用线性排列循序,聚类花费所需时间即m,展开去重筛查的时间表示n,其k个样本展开聚类划分的总时间用k×m表示,去重筛查总时间用k×n表示,聚类时间复杂程度用k×n2logn表示,该算法总时间复查程度公式为:。由此说明,此算法的时间开销属于线性,即0(n2logn)。

(四)算法开销对比

常用的大数据分析方法如模糊信息粒化方法、粗糙集近似方法、熵空间方法等,具有不同的特点。模糊信息粒化方法通过隶属度函数表达,数据分析能力和复杂管理适应力较低,但巨量性适应力较高。粗糙集近似方法利用相似关系设定,其数据分析能力显著,适合大数据增量处理。熵空间方法通过划分方式设定,数据分析能力强,处理数据复杂结构与巨量性的能力显著。本文研究的多维数据去重聚类算法通过主观表达形式,显著提高了数据分析能力和非结构化数据处理能力。对比这些大数据分析方法,在主观表达、大数据处理特性方面存在明显差异,使不同方法能够在相应领域中合理应用。

四、多维数据去重的聚类算法积极作用

(一)提高数据检测的效率

常规数据去重算法难以满足去重要求,容易导致去重结构偏差,筛选出的数据与预期目标相悖。通过升级优化去重算法,尤其是多维数据去重聚类算法,筛选作用明显,数据去重精准度和检测效率大大提升,实现多维数据去重处理。

(二)多维数据检验精准度较高

多维数据去重能够有效保证数据检验的精准度。常规算法在突发情况下容易出现检验偏差,降低数据质量,导致检验结果与实际不符。多维数据去重能够进一步分析数据,提高去重效率和数据质量,降低数据库重复性,为应用者提供更高质量的数据支持。

(三)多维数据检验的及时性显著

利用多维数据对数据库筛选,能准确定位所需数据,保留高价值数据。通过运用规则相似的评价算法与多维标签,能够实时反馈数据质量,合理筛选数据的有效性,强化数据检验效率,减轻工作负担。

结束语:

综上所述,基于信息融合,在大数环境下,多维数据去重的难度进一步升级,社会大众对多维数据去重给予高度重视,使所收集的数据能够减少重复率,且提高数据信息的精准度。然而,利用聚类算法,能够使多维数据去重效率升高,在和其他算法展开对比后,可以发现聚类算法与同类算法相比,其精准性明显提升,提高去重质量的优化速度,为推动信息融合发展奠定良好开端。

参考文献:

[1]葛宇,杜春晖,李亚杰,等.大数据环境下多维传感器数据融合算法研究[J].现代电子技术,2021,44(7):28-31.

[2]王海滨.大数据环境中多维数据去重的聚类算法研究[J].网络安全技术与应用,2021(4):37-38.

[3]罗琪.解析大数据挖掘视域下多维数据去重聚类算法[J].大众标准化,2020(13):61-62.

[4]史静,南开辉,周琪,等.大数据环境下基于K-means聚类算法的分组负荷预测研究[J].电力大数据,2020,23(6):9-16.

[5]解艳.基于大数据挖掘处理的多维数据去重聚类算法分析模型仿真[J].自动化技术与应用,2021,40(12):112-115.


...


阅读全文