[发明专利]一种基于加权相似性度量的聚类集成方法在审

专利信息
申请号: 201910079817.5 申请日: 2019-01-28
公开(公告)号: CN109829494A 公开(公告)日: 2019-05-31
发明(设计)人: 白亮;杜航原 申请(专利权)人: 山西大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 太原市科瑞达专利代理有限公司 14101 代理人: 李富元
地址: 030051 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 聚类 加权 相似性度量 计算数据 数据描述 样本 相似性矩阵 符号空间 集成过程 任务转换 特征空间 最小分割 鲁棒性 数据集 求解 构建 权重 输出 分析
【说明书】:

本发明涉及聚类集成分析领域,特别涉及一种基于加权相似性度量的聚类集成方法。依照聚类成员的质量进行加权相似性度量,在集成过程中加强高质量聚类成员的积极影响,同时抑制低质量聚类成员的不利干扰,以获得更具准确性和鲁棒性的聚类集成结果。该方法首先计算数据集中任意两个样本在每个聚类成员中对符号空间数据描述的一致性,接着计算每个聚类成员对特征空间数据描述的一致性并以此计算每个聚类成员的集成权重,在此基础上计算数据集中任意两个样本的加权相似性,然后构建数据集的加权相似性矩阵从而将聚类集成任务转换为图最小分割问题,通过利用谱聚类方法求解获得聚类集成结果,最终进行结果输出。

技术领域

本发明涉及聚类集成分析领域,特别涉及一种基于加权相似性度量的聚类集成方法。

背景技术

聚类分析是数据挖掘中一个重要且活跃的研究领域。作为一种无监督学习方法,聚类实质上是一个密度估计问题,需要聚类的数据预先未被标注所属类别,且可以由一个混合模型产生。它的主要思想是将数据分为若干个类或簇(组),使得簇内数据对象相似度最大化,簇间数据对象相似度最小化。近几年,大规模数据集在各个领域频繁涌现,这对聚类分析研究提出了新的挑战。面对大规模数据,传统的聚类分析算法不再像处理中小规模数据一样“得心应手”,而普遍存在处理困难、处理时间长、参数难确定、效率低下和聚类质量不高等诸多问题。聚类集成正是在这种背景下发展起来的,它寻找多个聚类解答的结合来获得更优的聚类。聚类集成在不同领域和数据集上有更好的平均性能,能发现任何单个聚类算法无法得到的解答,对于噪声,异常点,采样的变动更不敏感,还可以从聚类集体分布中估计得到簇的不确定性。聚类集成算法要解决的主要问题有两个:一个是如何产生不同的聚类从而形成一个聚类集体,第二个问题是如何从这个聚类集体中得到一个统一的聚类结果。目前国内外在聚类集成方面的研究都把重点放在第二个问题上,也就是如何从聚类集体中得到一个统一的聚类结果。

公开号为CN105844303A的专利《一种基于局部和全局信息的采样式聚类集成方法》公开了一种基于局部和全局信息的采样式聚类集成方法,首先对目标数据集进行混合采样并生成学习样本,在此学习样本空间中进行聚类分析并生成聚类划分,接下来对聚类划分进行质量评估,并根据评估结果更新目标数据集的权重向量;以上步骤进重复多轮,进而产生多个聚类划分。然后把多个聚类划分融合为一个新的特征表示,并使用传统的聚类算法对此特征表示做聚类分析,并生成集成聚类结果。该发明使得集成学习具有较强的抗噪性,同时也使其具有极高解决问题数据的能力;而且新的特征可以有效而全面地表征全局与局部的簇结构信息,使得集成学习算法在不同特点的数据集上产生好的效果。公开号为CN107169511A的专利《基于混合聚类集成选择策略的聚类集成方法》将聚类集成选择问题转化为特征选择问题,从多角度生成基础聚类结果,更具多样性,利用特征选择算法进行优化,避免人为因素及冗余度问题,考虑了局部和全局权重,有机结合各聚类结果子集,提升聚类准确性。该方法的步骤包括:输入测试数据集样本矩阵X;对数据集样本矩阵X进行聚类操作,生成基础聚类结果集合;将基础聚类结果集合转换到新特征空间,且基础聚类结果集合中的每一个聚类结果作为新特征空间的每一个特征;使用特征选择技术对特征进行聚类集成选择,得到聚类结果子集;对聚类结果子集使用赋权函数获得最终聚类结果子集;集成最终聚类结果子集,得到最终聚类结果。

由多个聚类成员的集合产生统一集成结果的过程中,一种常用的方法是利用样本在不同聚类成员中出现在同一簇内的频次进行样本间的相似性度量,构建数据集的相似性矩阵,再利用最小分割方法对数据集进行分割,从而获得统一的集成结果。然而,由于聚类集体中的各个聚类成员质量参差不齐,它们对于最终聚类集成结果的影响也不相同,忽略这些影响而单一考虑样本相似性可能导致聚类集成结果有效性降低。为此,本发明提出一种基于加权相似性度量的聚类集成方法,在利用聚类集合计算样本相似度的过程中加强质量较优的聚类成员对聚类集成结果的积极影响,同时限制质量较差成员的不利干扰,使聚类集成结果更具准确性和鲁棒性。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910079817.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top