[发明专利]一种基于信息熵权重两支决策优化的数据聚类集成方法在审

申请号：	201810810658.7	申请日：	2018-07-23
公开（公告）号：	CN109241992A	公开（公告）日：	2019-01-18
发明（设计）人：	徐健锋;王文国;刘斓;梁伟;吴俊杰	申请（专利权）人：	南昌大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南昌新天下专利商标代理有限公司 36115	代理人：	施秀瑾
地址：	330031 江西省***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	聚类决策优化数据聚类信息熵权重聚类集合决策思想算法处理局部权鲁棒性
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于信息熵权重两支决策优化的数据聚类集成方法，包括以下步骤：(1)集成聚类成员生成；(2)基于两支决策思想的局部权重算法处理基础聚类；(3)基于最终的基础聚类集合的聚类集成；(4)结束。与现有的技术相比较，本发明提升集成聚类的抗干扰性、鲁棒性和集成聚类的最终效果。

技术领域

本发明属于数据挖掘、机器学习领域中对研究对象或数据的聚类方法研究。

背景技术

聚类集成方法是一种有效的聚类技术，基于聚类权重信息熵的集成策略是其中的一种有效的新型集成聚类方法。但是该方法存在聚类效果对基础聚类敏感的问题。

基于聚类权重信息熵的集成策略主要方法为：基于某个特定数据集合对象，采用普通聚类方法实施M次聚类生成M种基础聚类，并且利用信息熵方法确定各个基础聚类及各个类簇的权重。基于上述基础聚类及其权重构建上述数据集合元素间的带权距离矩阵。然后以带权距离矩阵为基础，采用传统层次聚类或其它经典聚类方法，不断聚合高权重元素群体，直至获得最终聚类。

对于聚类结果优劣程度的评判多采用NMI指标，NMI取值在0到1之间，数值越大，聚类效果越好。选取一个聚类结果π^G作为评判标准，那么对于测试集聚类元素π'有如下计算公式：

其中n'是π'中的类簇个数，n^G是π^G中的类簇个数，n_i'是π'中第i个类簇的元素个数，n_j^G是π^G中第j个类簇的元素个数，n_ij是π'中第i个类簇和π^G中第j个类簇共同元素的个数。

发明内容

基础聚类是集成聚类技术的聚类基础，其质量与最终聚类结果质量紧密相关。本发明基于信息熵权重两支决策的策略，提出了一种改进基于聚类权重信息熵的集成聚类技术中基础聚类质量的新方法，从而能够有效实现聚类集成结果质量的提升。

本发明是通过以下技术方案实现的。

本发明所述的一种基于信息熵权重两支决策优化的数据聚类集成方法，其特征在于，包括以下步骤：

(1)集成聚类成员初步生成；

(2)基于两支决策思想的局部权重算法处理基础聚类成员；

(3)基于最终的基础聚类集合的聚类集成；

(4)结束。

本发明步骤(1)所述聚类成员初步生成，其步骤为：

1)利用数据聚类算法对数据集D＝{d₁,d₂,...,d_x}做聚类操作；