[发明专利]一种基于加权相似性度量的聚类集成方法在审
申请号: | 201910079817.5 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109829494A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 白亮;杜航原 | 申请(专利权)人: | 山西大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 李富元 |
地址: | 030051 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及聚类集成分析领域,特别涉及一种基于加权相似性度量的聚类集成方法。依照聚类成员的质量进行加权相似性度量,在集成过程中加强高质量聚类成员的积极影响,同时抑制低质量聚类成员的不利干扰,以获得更具准确性和鲁棒性的聚类集成结果。该方法首先计算数据集中任意两个样本在每个聚类成员中对符号空间数据描述的一致性,接着计算每个聚类成员对特征空间数据描述的一致性并以此计算每个聚类成员的集成权重,在此基础上计算数据集中任意两个样本的加权相似性,然后构建数据集的加权相似性矩阵从而将聚类集成任务转换为图最小分割问题,通过利用谱聚类方法求解获得聚类集成结果,最终进行结果输出。 | ||
搜索关键词: | 聚类 加权 相似性度量 计算数据 数据描述 样本 相似性矩阵 符号空间 集成过程 任务转换 特征空间 最小分割 鲁棒性 数据集 求解 构建 权重 输出 分析 | ||
【主权项】:
1.一种基于加权相似性度量的聚类集成方法,采集样本数据,对于特征空间中样本数量为N的数据集在数据集X内的第i个样本记为xi,表示一系列在数据集X上生成的聚类成员构成的集合,其中T表示C中聚类成员的数量,表示C中第t个聚类成员,Ct,k为Ct中的第k个簇,St表示Ct中簇的数量;将聚类划分视为对数据集的符号表示,那么聚类集合中每个聚类成员对应一个符号空间中的聚类符号向量,T个聚类符号向量构成的聚类符号向量集合记为其中表示第t个聚类成员Ct的聚类符号向量,lt,k表示Ct中的第k个簇的标签;表示聚类集成结果,其中C*,s表示C*中第s个簇,S*表示C*中簇的数量;利用生成聚类集成结果C*的过程,包括以下步骤:S10、对数据集X进行数据标准化处理,利用高斯核函数对数据集进行映射,使映射后得到的标准化数据集服从高斯分布,其中ψi表示标准化数据集中的第i个样本;S20、计算数据集X中任意两个样本在每个聚类成员中对符号空间数据描述的一致性:首先,计算聚类符号向量集合L关于数据集X的条件信息熵,用于表示利用数据集X对符号空间数据描述的不确定性;接着,计算聚类符号向量集合L关于两个样本在某一个聚类成员中所属簇的条件信息熵,用于表示利用这两个簇对符号空间数据描述的不确定性;再计算聚类符号向量集合L的以上两个条件信息熵的差值作为两个样本在这个聚类成员中对符号空间数据描述的一致性,以此类推计算任意两个样本在每个聚类成员中对符号空间数据描述的一致性;S30、计算每个聚类成员对特征空间数据描述的一致性:首先,计算标准化数据集Ψ关于数据集X的条件信息熵,用于表示利用数据集X对特征空间数据描述的不确定性;接着,计算标准化数据集Ψ关于某个聚类成员的条件信息熵,用于表示该聚类成员对特征空间数据描述的不确定性;计算标准化数据集Ψ的以上两个条件信息熵的差值作为该聚类成员对特征空间数据描述的一致性,以此类推计算每个聚类成员对特征空间数据描述的一致性;S40、依据每个聚类成员对特征空间数据描述的一致性计算每个聚类成员的集成权重,分别控制各聚类成员对最终聚类集成结果的影响;S50、利用步骤S20获得的任意两个样本在每个聚类成员中对符号空间数据描述的一致性以及步骤S40获得的每个聚类成员的集成权重计算数据集中任意两个样本间的加权相似性;S60、将聚类集成任务转换为图最小分割问题,即使得最终的聚类集成结果中所有不在同一簇中的两个对象间的加权相似性最小;S70、利用谱聚类方法对聚类集成任务转换得到的图最小分割问题进行求解,获得聚类集成结果C*;S80、将聚类集成结果C*进行输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910079817.5/,转载请声明来源钻瓜专利网。