[发明专利]一种基于加权相似性度量的聚类集成方法在审

申请号：	201910079817.5	申请日：	2019-01-28
公开（公告）号：	CN109829494A	公开（公告）日：	2019-05-31
发明（设计）人：	白亮;杜航原	申请（专利权）人：	山西大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	太原市科瑞达专利代理有限公司 14101	代理人：	李富元
地址：	030051 山***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及聚类集成分析领域，特别涉及一种基于加权相似性度量的聚类集成方法。依照聚类成员的质量进行加权相似性度量，在集成过程中加强高质量聚类成员的积极影响，同时抑制低质量聚类成员的不利干扰，以获得更具准确性和鲁棒性的聚类集成结果。该方法首先计算数据集中任意两个样本在每个聚类成员中对符号空间数据描述的一致性，接着计算每个聚类成员对特征空间数据描述的一致性并以此计算每个聚类成员的集成权重，在此基础上计算数据集中任意两个样本的加权相似性，然后构建数据集的加权相似性矩阵从而将聚类集成任务转换为图最小分割问题，通过利用谱聚类方法求解获得聚类集成结果，最终进行结果输出。
搜索关键词：	聚类加权相似性度量计算数据数据描述样本相似性矩阵符号空间集成过程任务转换特征空间最小分割鲁棒性数据集求解构建权重输出分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于加权相似性度量的聚类集成方法，采集样本数据，对于特征空间中样本数量为N的数据集在数据集X内的第i个样本记为x_i，表示一系列在数据集X上生成的聚类成员构成的集合，其中T表示C中聚类成员的数量，表示C中第t个聚类成员，C_t,k为C_t中的第k个簇，S_t表示C_t中簇的数量；将聚类划分视为对数据集的符号表示，那么聚类集合中每个聚类成员对应一个符号空间中的聚类符号向量，T个聚类符号向量构成的聚类符号向量集合记为其中表示第t个聚类成员C_t的聚类符号向量，l_t,k表示C_t中的第k个簇的标签；表示聚类集成结果，其中C_*,s表示C_*中第s个簇，S_*表示C_*中簇的数量；利用生成聚类集成结果C_*的过程，包括以下步骤：S10、对数据集X进行数据标准化处理，利用高斯核函数对数据集进行映射，使映射后得到的标准化数据集服从高斯分布，其中ψ_i表示标准化数据集中的第i个样本；S20、计算数据集X中任意两个样本在每个聚类成员中对符号空间数据描述的一致性：首先，计算聚类符号向量集合L关于数据集X的条件信息熵，用于表示利用数据集X对符号空间数据描述的不确定性；接着，计算聚类符号向量集合L关于两个样本在某一个聚类成员中所属簇的条件信息熵，用于表示利用这两个簇对符号空间数据描述的不确定性；再计算聚类符号向量集合L的以上两个条件信息熵的差值作为两个样本在这个聚类成员中对符号空间数据描述的一致性，以此类推计算任意两个样本在每个聚类成员中对符号空间数据描述的一致性；S30、计算每个聚类成员对特征空间数据描述的一致性：首先，计算标准化数据集Ψ关于数据集X的条件信息熵，用于表示利用数据集X对特征空间数据描述的不确定性；接着，计算标准化数据集Ψ关于某个聚类成员的条件信息熵，用于表示该聚类成员对特征空间数据描述的不确定性；计算标准化数据集Ψ的以上两个条件信息熵的差值作为该聚类成员对特征空间数据描述的一致性，以此类推计算每个聚类成员对特征空间数据描述的一致性；S40、依据每个聚类成员对特征空间数据描述的一致性计算每个聚类成员的集成权重，分别控制各聚类成员对最终聚类集成结果的影响；S50、利用步骤S20获得的任意两个样本在每个聚类成员中对符号空间数据描述的一致性以及步骤S40获得的每个聚类成员的集成权重计算数据集中任意两个样本间的加权相似性；S60、将聚类集成任务转换为图最小分割问题，即使得最终的聚类集成结果中所有不在同一簇中的两个对象间的加权相似性最小；S70、利用谱聚类方法对聚类集成任务转换得到的图最小分割问题进行求解，获得聚类集成结果C_*；S80、将聚类集成结果C_*进行输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山西大学，未经山西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910079817.5/，转载请声明来源钻瓜专利网。

上一篇：基于特征混合矩阵的指纹与指静脉识别融合方法
下一篇：基于LSTM和DCGAN的时序性图像预测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于加权相似性度量的聚类集成方法在审

专利文献下载