[发明专利]聚类方法中基于信息熵的聚类数目优化方法在审
申请号: | 201910383553.2 | 申请日: | 2019-05-09 |
公开(公告)号: | CN110276373A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 黄明胜;韦锋;杨金华;王鑫;严宪平;李翠珍;马鑫 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都拓荒者知识产权代理有限公司 51254 | 代理人: | 邹广春 |
地址: | 550002 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息熵 聚类 离散分布 样本数据 优化 概率信息 质心距离 质心 运算复杂度 运算效率 聚类法 电厂 | ||
1.一种聚类方法中基于信息熵的聚类数目优化方法,在所述聚类方法中包括样本数据和质心,其特征在于,所述优化方法包括:
获取所述样本数据与对应的所述质心之间的质心距离;
基于所述质心距离获得所述样本数据的出现概率信息;
对所述信息熵进行处理以获得处理后信息熵;
对所述处理后信息熵进行离散分布处理以获得离散分布信息熵;
基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目。
2.根据权利要求1所述的优化方法,其特征在于,所述聚类方法为k-means聚类算法,所述获取所述样本数据与对应的所述质心之间的质心距离,包括:
基于所述样本数据中获取k个聚类中心,其中所述k为正整数;
获取每个所述样本数据与所述聚类中心的初始距离;
基于所述初始距离对所述样本数据进行分类以获得所述样本数据的多个聚类,其中每个所述聚类包括一个质心;
基于所述质心获得所述样本数据与对应的所述质心之间的质心距离。
3.根据权利要求2所述的优化方法,其特征在于,所述基于所述质心距离获得所述样本数据的出现概率信息,包括:
基于所述质心距离获得所述样本数据的出现概率信息,所述出现概率信息表征为:
其中,x为样本数据、μ为质心、a为所述样本数据与所述质心的距离最小值、b为所述样本数据与所述质心的距离最大值、为标准正太分布函数、Φ()为标准正太分布函数的累计分布函数。
4.根据权利要求3所述的优化方法,其特征在于,所述优化方法还包括:
基于所述距离最小值和所述距离最大值确定区间长度Δ;
基于所述区间长度Δ对所述出现概率信息进行优化,以获得优化后出现概率信息,所述优化后出现概率信息表征为:
5.根据权利要求4所述的优化方法,其特征在于,所述对所述信息熵进行处理以获得处理后信息熵,包括:
获取所述样本数据的信息熵,所述信息熵表征为:
其中,X为所述样本数据所包含的可能状态、NX为所述样本数据的状态数、pi为第i个样本数据状态发生的概率,i为正整数;
对所述信息熵进行加权处理以获得所述样本数据的加权熵,所述加权熵表征为:
其中Mk为第k类聚类的样本数据的样本数量、MA为样本数据的总数量;
将所述加权熵作为处理后信息熵。
6.根据权利要求5所述的优化方法,其特征在于,所述对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,包括:
获取离散分布均匀模型,所述离散分布均匀模型表征为:
其中,为在每个所述聚类中任意一个样本数据i与对应的所述质心的平均距离;
基于所述离散分布均匀模型对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,所述离散分布信息熵表征为:
其中,
7.根据权利要求6所述的优化方法,其特征在于,所述基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目,包括:
基于所述出现概率信息和所述离散分布信息熵生成间隙信息EGap,所述间隙信息EGap表征为:
;
基于所述间隙信息EGap获得聚类数目k;
获取所述聚类数目k的最小值,并将所述最小值确定为优化后聚类数目。
8.根据权利要求7所述的优化方法,其特征在于,所述基于所述间隙信息EGap获得聚类数目k,包括:
基于所述间隙信息EGap生成优化公式:
基于所述优化公式获得聚类数目k。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910383553.2/1.html,转载请声明来源钻瓜专利网。