[发明专利]一种基于双边集成的聚类方法在审
申请号: | 202010319386.8 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111651651A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 杨辉;朱建勇;彭晗;聂飞平 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62 |
代理公司: | 北京恒创益佳知识产权代理事务所(普通合伙) 11556 | 代理人: | 付金豹 |
地址: | 330013 江西省南昌市经*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双边 集成 方法 | ||
1.一种基于双边集成聚类方法,其特征在于,包括以下步骤:(1)通过对给定数据集运行多次k-means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果。
2.根据权利要求1所述的基于双边集成聚类方法,其特征在于,所述步骤(1)中,对于给定的数据集X=[x1,x2,x3,x4,x5,x6]运行3次k-means算法,每次聚成3类;
分别将这3次的聚类结果h1=[1,1,2,1,2,3]Th2=[1,2,2,3,3,3]Th3=[1,1,3,2,2,3]T分别转化为指示矩阵并将其作为新数据矩阵W的特征(列);
假设新的数据矩阵W∈Rn×d,通过对其构建邻接矩阵A:
3.根据权利要求书1所述基于双边集成聚类方法,其特征在于,所述步骤(2)中,运用Ncut算法对所构图进行多划分;目标函数如下所示:
由于YTDY是对角矩阵,其对角线元素中每一行的元素有且仅有一个为1,其它为0,而且前n行存储着样本的聚类结果,后d行存储着样本特征的聚类结果;公式(2)可以转化为如下所示:
s.t.Y∈φ(n+d)×c (3)
式中L=D-A,Y=[FT,GT];所以公式(3)可以进一步改写为:
即通过公式(4)目标优化函数可以等效转变成如下所示:
s.t.F∈φn×c,G∈φd×c (5)
上式求解是一个NP问题,所以加入Tr(WTW))和Tr((YTDY)-1FTF(YTDY)-1GTG),公式(5)的目标优化函数可以转变成如下所示:
s.t.F∈φn×c,G∈φd×c,S∈diag (6)
式中W为新的数据矩阵;矩阵里面保存着行(样本)的聚类结果,每一行有且只有一个非零元素1,若第i个样本属于第j个簇,则fij=1,其它则为0,矩阵里面保存着列(特征)的聚类结果,每一行有且只有一个非零元素1,若第i特征属于第j个簇,则gij=1,其它则为0;c为行和列的聚类簇数,S=(YTDY)-1为对角矩阵。
4.根据权利要求书1所述基于双边集成聚类方法,其特征在于,所述步骤(3)通过一个高效的交替优化算法优化变量,并且在此过程中能够同时对样本和基聚类同时聚类,其过程为:
将得到的数据矩阵W构建一个二部图;利用二部图划分模型,为样本点聚类集合,τc(1≤c≤k)为基聚类的聚类集合,如果给定样本xi·与基聚类集合τm的关联大于与任何其它基聚类集合的关联,则它属于样本集合所以
每个样本集合都由基聚类集合确定,同样的,每个基聚类集合同样由样本集合所确定
直观看到的是和τc(1≤c≤k)之间存在递归关系,在等式(7)和(8)中描述的关系确定这样构建的二部图是基于对样本和基聚类同时聚类的结构;
将数据矩阵W作为双边聚类算法的输入,直接得到最终的聚类结果;双边聚类算法目标函数如下所示:
s.t.F∈φn×c,G∈φ(m×c)×c,S∈diag (9)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010319386.8/1.html,转载请声明来源钻瓜专利网。