[发明专利]一种柔性流行嵌入的数据聚类方法在审
申请号: | 201810989222.9 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109389149A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 肖云;任鹏真;赵珂;王蓓蕾;许鹏飞;郭军;王欣;陈晓江;房鼎益 | 申请(专利权)人: | 西北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 张明 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 嵌入 数据聚类 嵌入的 投影 矩阵 低维子空间 高维数据 合成数据 后续处理 基准数据 性能方面 鲁棒性 亲和度 图分割 图结构 降维 优化 学习 表现 改进 | ||
本发明公开了一种柔性流行嵌入的数据聚类方法,在该方法中,通过改进柔性流行嵌入(FME)的理论,形成了一种柔性嵌入聚类(FEC),并将其嵌入到二分谱图分割(BSGP)中,形成了一种新的基于图结构优化柔性嵌入聚类(SOGFE)方法;利用本发明提供的方法进行聚类时可以学习一个优化过的有明确聚类结构的亲和度矩阵并不需要后续处理步骤,并且也可以学习一个合适的投影方向来将高维数据投影到低维子空间中;在两个合成数据集和四个基准数据集上的聚类实验表明,该方法比现有的聚类方法在鲁棒性、降维、聚类性能方面有更优越的表现。
技术领域
本发明涉及聚类方法,具体涉及一种柔性流行嵌入的数据聚类方法。
背景技术
随着互联网和大数据时代的到来,机器学习领域中关于聚类的算法也越来越受到重视。同时基于图谱理论的谱聚类算法更是成为机器学习领域研究的热点。传统谱聚类存在许许多多的缺陷,如构造相似矩阵、聚类后的结果没有明确的聚类结构仍需要后续处理。协同聚类或者叫双聚类是同时聚类数据矩阵中行和列的问题。
一些基于图的协同聚类方法提出描述样本和特征之间的关系, Dhillon将谱聚类应用于二分图对文档和文字进行协同聚类。然而,这样的方法有一个问题,就是它在最终的结果中没有明确的聚类结构,还需要后续的处理如K-means算法来得到最终的聚类结果。聂等人提出了一种学习结构优化的二分图的新颖的协同聚类方法,这样可以直接得到聚类结果而不需要后续处理,然而,这些协同聚类方法仍然是基于谱聚类的,并且它们第一步仍然是建立在一个完全分离的K 个聚簇上以获得高性能,因此现有的聚类方法大多存在步骤复杂,算法效率低的问题。
发明内容
本发明的目的在于提供一种柔性流行嵌入的数据聚类方法,用以解决现有技术中的聚类方法大多存在步骤复杂,算法效率低等问题。
为了实现上述任务,本发明采用以下技术方案:
一种柔性流行嵌入的数据聚类方法,用于将输入的待聚类数据集聚类成k个类别,k>1,所述的方法包括:
步骤1、输入待聚类数据集X;
步骤2、根据式I获得待聚类数据集X的相似矩阵S:
式I中,P为亲和度矩阵,通过式II获得:
式II中,||||F为F范数,Tr()为矩阵的迹,F为指示矩阵,LS为相似矩阵S的正则化拉普拉斯矩阵,λ、α、μ均为常数参数,μ>0,λ>0,α>0,W为投影矩阵,A为初始亲和度矩阵, 1为单位向量,b为残差向量;
步骤3、采用图论的方法对相似矩阵S进行处理,获得k个类别的聚类结果。
进一步地,所述的步骤2的式II中,μ=10-6,α=109。
进一步地,所述的步骤2中获得亲和度矩阵P时,式II的收敛条件为迭代次数大于30次或收敛临界值小于10-11。
进一步地,所述的步骤3中,采用graphconncomp函数对相似矩阵S进行处理,获得k个类别的聚类结果。
本发明与现有技术相比具有以下技术特点:
1、本发明提供的聚类方法为聚类的学习和投影的选择之间的连接形成了一个统一的框架,并且最终学习到的亲和度图有最优结构;
2、通过本发明提供的聚类方法可以直接获得最终的聚类结果不需要后续步骤,提高了算法的效率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810989222.9/2.html,转载请声明来源钻瓜专利网。