[发明专利]一种基于信息熵权重两支决策优化的数据聚类集成方法在审
申请号: | 201810810658.7 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109241992A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 徐健锋;王文国;刘斓;梁伟;吴俊杰 | 申请(专利权)人: | 南昌大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南昌新天下专利商标代理有限公司 36115 | 代理人: | 施秀瑾 |
地址: | 330031 江西省*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 决策优化 数据聚类 信息熵 权重 聚类集合 决策思想 算法处理 局部权 鲁棒性 | ||
一种基于信息熵权重两支决策优化的数据聚类集成方法,包括以下步骤:(1)集成聚类成员生成;(2)基于两支决策思想的局部权重算法处理基础聚类;(3)基于最终的基础聚类集合的聚类集成;(4)结束。与现有的技术相比较,本发明提升集成聚类的抗干扰性、鲁棒性和集成聚类的最终效果。
技术领域
本发明属于数据挖掘、机器学习领域中对研究对象或数据的聚类方法研究。
背景技术
聚类集成方法是一种有效的聚类技术,基于聚类权重信息熵的集成策略是其中的一种有效的新型集成聚类方法。但是该方法存在聚类效果对基础聚类敏感的问题。
基于聚类权重信息熵的集成策略主要方法为:基于某个特定数据集合对象,采用普通聚类方法实施M次聚类生成M种基础聚类,并且利用信息熵方法确定各个基础聚类及各个类簇的权重。基于上述基础聚类及其权重构建上述数据集合元素间的带权距离矩阵。然后以带权距离矩阵为基础,采用传统层次聚类或其它经典聚类方法,不断聚合高权重元素群体,直至获得最终聚类。
对于聚类结果优劣程度的评判多采用NMI指标,NMI取值在0到1之间,数值越大,聚类效果越好。选取一个聚类结果πG作为评判标准,那么对于测试集聚类元素π'有如下计算公式:
其中n'是π'中的类簇个数,nG是πG中的类簇个数,ni'是π'中第i个类簇的元素个数,njG是πG中第j个类簇的元素个数,nij是π'中第i个类簇和πG中第j个类簇共同元素的个数。
发明内容
基础聚类是集成聚类技术的聚类基础,其质量与最终聚类结果质量紧密相关。本发明基于信息熵权重两支决策的策略,提出了一种改进基于聚类权重信息熵的集成聚类技术中基础聚类质量的新方法,从而能够有效实现聚类集成结果质量的提升。
本发明是通过以下技术方案实现的。
本发明所述的一种基于信息熵权重两支决策优化的数据聚类集成方法,其特征在于,包括以下步骤:
(1)集成聚类成员初步生成;
(2)基于两支决策思想的局部权重算法处理基础聚类成员;
(3)基于最终的基础聚类集合的聚类集成;
(4)结束。
本发明步骤(1)所述聚类成员初步生成,其步骤为:
1)利用数据聚类算法对数据集D={d1,d2,...,dx}做聚类操作;
2)将聚类次数控制参数m置初值为1;
3)判断控制参数m是否小于或等于备选聚类成员个数M,是则执行步骤4,否则转到步骤6);
4)得到第m次聚类记为其中集合πm的基数个数为|πm|记为Nm;
5)将控制参数m执行m=m+1,然后转到步骤3);
6)生成备选的备选聚类集合将所有备选聚类成员Π={π1,π2,...,πM}标上不确定标记;
7)结束。
本发明步骤(2)所述基于两支决策思想的局部权重算法处理基础聚类成员,其步骤为:
1)设置控制参数r初值为1,设置循环次数限制k。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌大学,未经南昌大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810810658.7/2.html,转载请声明来源钻瓜专利网。