[发明专利]一种不确定数据的聚类方法在审

专利信息
申请号: 201510666299.9 申请日: 2015-10-16
公开(公告)号: CN105260748A 公开(公告)日: 2016-01-20
发明(设计)人: 李嘉菲;孙小玉;高滢 申请(专利权)人: 吉林大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 吉林长春新纪元专利代理有限责任公司 22100 代理人: 白冬冬
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 不确定 数据 方法
【说明书】:

技术领域

发明属于数据采集和处理技术领域。

背景技术

近年来,随着技术的进步和人们对数据采集和处理技术理解的不断深入,不确定数据得到了广泛的重视,在许多现实的应用中,例如经济、军事、金融、电信等领域,数据的不确定性普遍存在且扮演着关键角色。不确定性数据的涌现,使传统的聚类分析面临巨大挑战]。数据的不确定性来源于多种情况,物理仪器采集数据产生的误差,传感器网络应用的情况下周围环境对数据的影响,网络传输特别是无线网络传输过程中受到带宽、传输延时、能量等因素的干扰,以及出于隐私保护的特殊目的等都可能导致数据不确定性的产生。

数据不确定性的表现形式分为两种情况,分别是存在级的不确定性和属性级的不确定性。1)存在级不确定性:存在级的不确定性代表元组的不确定性,数据库中元组存在与否带有一定的概率,且这个概率会影响其他元组存在与否;2)属性级不确定性是指元组数据值的不确定性,属性值中的误差造成的数据不确定性通常由概率密度函数,或者方差、协方差等统计参数来表示。数据挖掘领域多考虑的是属性级的不确定性。

数据挖掘领域中的聚类分析是一种无监督学习,它是一个把数据对象划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似[。传统聚类方法在处理不确定数据时产生很多误差,并且其聚类结果对不确定性程度表现得非常敏感。所以近年来,针对不确定数据的聚类相应提出了许多改进性的聚类算法。Kriegel等人提出了基于密度的不确定性数据聚类方法FDBSCAN算法,它是根据一种基于高密度联通区域的基于密度的聚类方法DBSCAN所改进而成,FDBSCAN算法聚类过程于原方法非常相似,不同的是它重新定义了距离公式,令表示元组和之间的距离的概率密度函数,则与之间的距离在之间的概率为,基于上述距离公式提出了FDBSCAN算法,它更适合应用于大型数据集,并且提高了聚类的质量。之后Kriegel等人又针对不确定数据而适当改进了通过点排序识别聚类结构的OPTICS算法,提出了FOPTICS算法,解决了层次聚类问题。Ngai等人根据一种基于形心的K-means算法而改进而成的UK-means算法[9],为提高算法的计算效率,MBR最小边界矩形来描述数据点出现的区域,并设计剪枝策略降低聚类过程中的计算数量。Lee等人又在UK-means的基础之上,提出CK-means算法,它将UK-means算法中的距离期望简化为数据点之间的距离,这样的方式降低了算法的计算量,并且针对大型数据集,节省了时间的开销。Gullo等人根据基于代表对象的划分方法K-medoids算法提出了UK-medoids算法,算法同样根据一种新的不确定数据距离的度量方法提高了聚类效率。

综上所述我们可以发现,现有的不确定数据的聚类方法大多都是根据传统的处理确定性数据的聚类算法而改进而成,它们主要存在以下的问题:(1)改进后的聚类算法虽然提升了处理不确定数据的聚类质量,但因为没有从本质上降低数据的不确定性,所以在实际应用中,依旧会出现聚类结果受误差影响严重的现象。(2)改进后的聚类算法在处理高维不确定数据的情况时,因为不确定性加重了高维数据的稀疏性,反之高维数据的稀疏性也会导致数据的不确定性更加难以控制处理,所以其对于处理高维不确定数据的结果并不理想。(3)因为是针对不确定数据的特性而对传统聚类算法进行改进,导致很多改进后的算法计算复杂性增大、时间开销增加,很大程度地降低了聚类效率。

发明内容

本发明的目的是利用数据本质上的潜在关联,探寻不确定表象下底层数据记录的真实协方差结构,提取数据的主要特征,并进行降噪聚类的不确定数据聚类方法。

本发明步骤如下:

①获取底层数据真实协方差结构:数据集中包含条均值表示为的不确定性记录,对应的概率分布函数表示为,数据记录的第个元素表示为,第条记录的第个元素的概率分布表示为,将数据记录第维的源值表示为,由加上得到的值,因此表示在构造分布的均值过程中产生的噪音,由此给出:

将数据库第维对应的随机变量表示为;

将对应于源数据第维的真值的随机变量表示为,对应于的第维的随机变量表示为,则:

将源数据第维和第维的协方差表示为,并希望和得到,

获取源数据真实协方差结构的求解公式:

以此来估计协方差的值;

的值可以由观测数据得到,它所构成的协方差矩阵叫做或者;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510666299.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top