[发明专利]基于优化簇相关矩阵的聚类融合方法在审
申请号: | 201710131334.6 | 申请日: | 2017-03-07 |
公开(公告)号: | CN106991433A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 徐占洋;郑克长;周成兵 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 江苏爱信律师事务所32241 | 代理人: | 唐小红 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 优化 相关 矩阵 融合 方法 | ||
技术领域
本发明属于数据挖掘领域,具体涉及的是一种利用聚类成员内外簇之间的关系和簇的稳定度对二进制簇相关矩阵进行优化的聚类融合方法。
背景技术
近几十年来,随着信息时代科技的快速发展,数据存储技术和数据采集技术也得到了飞速地进步。由此使得各类数据海量积累,出现了“信息爆炸而知识匮乏”的现象。如何从海量数据中提取出有用的知识目前面临着巨大的挑战。对于数据挖掘一词,目前还没有一个完整的定义,我们推崇的定义是韩家炜(韩家炜,坎伯.数据挖掘概念与技术(原书第2版)(计算机科学丛书)[M].机械工业出版社,2008.)给出的数据挖掘概念:“数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程”。
聚类分析是数据挖掘领域的一个重要分支,能够发现数据内在的分布情况。所谓聚类分析就是将数据对象分组成为多个类或簇,使得在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大(朱国红.基于特征点选择的聚类算法研究与应用[D].山东大学,2010.)。事实上,任何一个单一的聚类算法都不能达到普遍适用的效果。为了提高聚类性能,聚类融合技术的提出较大地改变了这种现状。它是为了解决无监督的聚类分析中可能因为样本的特殊数据分布与聚类假设不匹配,导致聚类结果不理想的问题。聚类融合的基本思想是:将多个对一组对象进行聚类成员的不同结果进行合并,而不使用对象原有的特征(阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10.)。
聚类融合在对不同的聚类成员进行合并之前需要创建关系矩阵。基于矩阵的方法的基本思想是把每一次聚类的结果看成是数据重新组织的新模式,在这个基础之上,数据对象之间的近似度可以由新的特征模式之间的近似度代替(朱萌.基于模糊矩阵的聚类融合[D].南京理工大学,2008.)。矩阵是依附于共识函数存在的,不同的共识函数需要创建不同的矩阵。二进制簇相关矩阵是目前关于矩阵的最好表现形式之一,其空间复杂度为O(N×H)(H是聚类成员中簇的数量之和)明显低于相似性矩阵的O(N2)。但是一般的二进制簇相关矩阵是稀疏且离散的,非0即1,明显影响聚类融合的准确性。
发明内容
本发明所要解决的技术问题是基于优化簇相关矩阵的聚类融合方法。通过综合考虑聚类成员内簇与簇的关系、聚类成员外簇与簇的关系、簇的稳定度等因素,将数据出现在簇的概率转换成簇与簇之间的关系,加入簇的稳定度因子,构造优化簇相关矩阵。对优化簇相关矩阵应用多路谱聚类算法(李新叶,余晓晔.适用于复杂结构的多路谱聚类算法的改进[J].北京工业大学学报,2013,39(3):425-429.)进行聚类得到最终聚类结果。本发明能够有效利用聚类成员的特征,提高聚类融合的准确度和精度。
本发明的技术方案如下:
基于优化簇相关矩阵的聚类融合方法,包括以下步骤:
步骤1),用K-means算法对有N个D维特征数据的集合XND进行M次聚类,最终得到M个有差异的聚类成员;
步骤2),考虑步骤1)得到的M个聚类成员,计算聚类成员间簇与簇的关系Rter和聚类成员内簇与簇的关系Rtra,创建簇相关矩阵CA,计算簇的稳定度S。
步骤3),根据步骤2)得到的簇相关矩阵CA和簇的稳定度S,考虑数据xt落在簇Cmi的概率,根据公式RA(xt,Cmi)=CA(xt,Cmi)×S(Cmi)构造优化簇相关矩阵RA。
步骤4),根据步骤3)得到的优化簇相关矩阵RA,对RA应用多路谱聚类算法:根据优化簇相关矩阵RA,求出对角矩阵D、拉普拉斯矩阵L、L的特征值和与其相对应的特征向量;使用前T个最大特征值对应的特征向量构造新的数据集合UNT,并建立与原始数据集合的对应关系;然后用K-means对UNT进行聚类。
进一步的,本发明的基于优化簇相关矩阵的聚类融合方法,步骤1)用K-means算法每次选取不同的初始聚类中心或设置不同的K值参数,对有N个D维特征数据的集合XND进行M次聚类,最终得到聚类成员集合Π={Π1,Π2,…ΠM}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710131334.6/2.html,转载请声明来源钻瓜专利网。