[发明专利]一种基于超簇加权的集成聚类方法在审
申请号: | 202011033044.6 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112232383A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 钱雪忠;薛红艳 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 许燕萍 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 集成 方法 | ||
1.一种基于超簇加权的集成聚类方法,其特征在于,包括以下步骤:
1)利用基于地标点表示的谱聚类方法对样本集进行聚类生成基聚类集合;所述基聚类集合由多个基聚类成员集合构成,每个基聚类成员包括多个类簇,每个类簇中包括样本集中的多个样本点;
2)对基聚类集合中的基聚类成员进行处理得到超簇集合,并计算出每个基聚类成员的权重,以及根据超簇集合和计算出的权重计算出共协矩阵;
3)采用层次聚类方法对所述共协矩阵进行聚类得到聚类结果。
2.如权利要求1所述的基于超簇加权的集成聚类方法,其特征在于,所述步骤1)中利用基于地标点表示的谱聚类方法对样本集进行聚类生成基聚类集合的方法包括以下步骤:
A1)从样本集中随机选出P’个候选点,对P’个候选点使用K-means算法得出P个地标点;
A2)对P个地标点使用自适应谱聚类算法进行第一次聚类得到多个地标点簇,每个地标点簇中包括多个地标点;
A3)将样本集中的每个样本点分别映射到与该样本点距离最近的地标点上,以使得样本点划归到与该样本点距离最近的地标点所在的地标点簇中;
A4)重复步骤A2)-A3),直至完成M次聚类,得到M个基聚类成员,由多个基聚类成员构成所述基聚类集合。
3.如权利要求2所述的基于超簇加权的集成聚类方法,其特征在于,所述步骤A3)中,将样本集中的每个样本点分别映射到与该样本点距离最近的地标点上的方法为:先计算样本点与每个地标点簇的中心点的距离,并根据计算结果选择与样本点距离最近的地标点簇作为最近邻簇,再计算样本点与最近邻簇中各个地标点的距离,然后选择出最近邻簇中与样本点距离最近的地标点,并将样本点映射到最近邻簇中与该样本点距离最近的地标点上。
4.如权利要求1所述的基于超簇加权的集成聚类方法,其特征在于,所述步骤2)中对基聚类集合中的基聚类成员进行处理得到超簇集合的方法为:先将所有基聚类成员进行相交生成相交簇集合,相交簇集合包括多个相交簇,再对相交簇集合中的相交簇进行碎片化整理后得到超簇集合。
5.如权利要求4所述的基于超簇加权的集成聚类方法,其特征在于,对相交簇集合中的相交簇进行碎片化整理的方法为:
判断相交簇中样本点的数目是否不大于设定阈值,若判断为是,则表示该相交簇为碎片对象,然后对碎片对象进行碎片化整理,否则,不做处理;
对碎片对象进行碎片化整理的方式为:计算相交簇集合中的相交簇之间的相似度,然后将碎片对象合并到与该碎片对象最相似的相交簇中。
6.如权利要求1所述的基于超簇加权的集成聚类方法,其特征在于,
定义基聚类集合为Π={π1,…πm…,πM},其中为基聚类成员,表示第m次聚类获得的基聚类成员,M为聚类总次数,为类簇,表示πm中的第i个类簇,nm为πm中类簇的总数;
所述步骤2)中计算每个基聚类成员的权重W(πm)的方法包括以下步骤:
B1)利用以下公式计算出类簇Cim相对于基聚类集合Π的信息熵E(Cim):
其中,∩表示两个类簇相交的样本点的数目,表示类簇中样本点的数目,nj表示第j个基聚类成员中类簇的数目;
B2)利用以下公式计算获得平均熵E(πm):
B3)利用以下公式计算出基聚类成员πm的权重W(πm):
其中,a=min{E(π1),...,E(πM)},b=max{E(π1),...,E(πM)}。
7.如权利要求6所述的基于超簇加权的集成聚类方法,其特征在于,定义超簇集合为zi为超簇,表示第i个超簇,N*为Z中超簇的总数,则利用以下公式计算所述共协矩阵WECA:
其中,表示在基聚类成员πm中超簇zi和zj出现在同一个类簇中的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011033044.6/1.html,转载请声明来源钻瓜专利网。