[发明专利]一种基于样本密度和自适应调整聚类中心的聚类分析方法有效
申请号: | 202010158639.8 | 申请日: | 2020-03-09 |
公开(公告)号: | CN111382797B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 张维;马志华 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 密度 自适应 调整 中心 聚类分析 方法 | ||
1.一种基于样本密度和自适应调整聚类中心的轴承故障数据聚类分析方法,其特征在于步骤如下:
步骤1:选择轴承故障数据初始聚类中心
1-1:初始化聚类数目初始化中心点集n为样本数量;
1-2:聚类处理的轴承故障数据集X={x1,x2,...,xi,...,xn},每个样本对象包含p维特征{xi1,xi2,...,xil,...,xip},xil分别表示第i个对象的第l个特征值,i≤n,l≤p;计算轴承故障数据集中每个样本对象的密度值ρ(xi),如公式(1)所示,并按照密度值的大小降序排列;
ρ(xi)=exp[-v(xi)] (1)
其中:为样本间的欧氏距离,i=1,2,...,n;j=1,2,...,n;
1-3:从轴承故障样本数据集中选取处于最密集区域的样本,即最大的密度值max{ρ(xi)}对应的样本对象作为第一个类簇的初始聚类中心M1,并将其加入到初始化中心点集M中;
1-4:计算该聚类中心M1对应的邻域半径以该聚类中心点为中心以为半径的圆形区域所包含轴承故障数据对象的集合,作为轴承故障数据对象的邻域
轴承故障数据对象的邻域半径R:
其中:cR为半径调节系数,0<cR≤1,为轴承故障数据对象之间的平均距离;
1-5:从轴承故障样本数据集中删除聚类中心M1和其邻域内的样本数据,在剩余的样本数据中继续寻找下一个聚类中心;
1-6:重复执行1-2~1-5,直到找到K个初始聚类中心点{M1,M2,...,Mi,...,MK};
1-7:保存轴承故障数据初始聚类中心点集M={M1,M2,...,Mi,...,MK};
步骤2:轴承故障数据初始样本分配和聚类处理
2-1:将轴承故障样本数据集X={x1,x2,...,xi,...,xn}中的样本对象分配到距离其最近的中心点所在的类簇中,形成初始类簇{C1,C2,...,CK},并计算聚类的误差平方和SSEK:
其中,是相应类Ci中ni个样本的均值,i=1,2,...,K;
2-2:更新类簇中心,在每一类簇中重新寻找距离所在类簇其它轴承故障数据样本点距离总和最小的点作为新的类簇中心;
2-3:计算误差平方和,若与上次误差平方和相同或者聚类中心不再改变,保存聚类中心点集Mk,并执行下一步,否则转到2-1;
步骤3:轴承故障数据聚类子类簇合并
3-1:计算当前聚类结果的类间分散度DispK和类内聚合度AggrK;
计算每个子类Ci内所有样本任意两个元素之间的距离d,定义子类Ci的类内聚合度:
计算所有子类{C1,C2,...,CK}的类内聚合度取各个子类的类内聚合度的调和平均值,并根据不同类簇中样本量的大小设置不同权重,定义为整个聚类的类内聚合度:
其中:wi为类Ci的聚合度AggrCi的调和权重,
使用最小生成树算法对K个聚类中心{M1,M2,...,Mi,...,MK}之间的距离进行计算,可以得到K-1组距离数{D1,D2,...,DK-1};计算所有聚类中心之间的距离在最小生成树上对应的最小距离总和sumD,定义整个聚类的类间分散度:
3-2:计算K个聚类中心{M1,M2,…,Mi,…,MK}之间的距离,找到距离最近的两个子类簇;
3-3:合并距离最近的这两个子类,K=K-1,得到当前K个聚类中心,将轴承故障样本重新分配到距离其最近的中心点,并更新聚类中心M={M1,M2,…,Mi,…,MK};
3-4:计算合并后重新得到的聚类结果的类内聚合度AggrK和类间分散度DispK,计算合并后的聚类稠密度E,赋给E0;
计算聚类稠密度变化率:
使用新的类簇中心再次进行K-means处理,再次合并距离最近的类,并重新计算合并后的类簇稠密度;通过计算合并后聚类稠密度E的变化情况来判断当前合并是否合理;
步骤4:子类合并后的轴承故障样本数据分配和聚类处理
4-1:将轴承故障样本数据集中的样本对象分配到距离其最近的中心点所属类中,并计算聚类的误差平方和,在每一类簇中重新寻找距离所在类簇其他样本点距离总和最小的点作为新的类簇中心;
4-2:计算误差平方和,若与上次误差平方和相同或者聚类中心不再改变,保存聚类中心点集M={M1,M2,...,Mi,...,MK},并执行下一步;否则转到4-1;
4-3:找到距离最近得两个聚类子集,合并这两个子集,K=K-1,更新聚类中心;
步骤5:轴承故障数据聚类合并的合理性判断
5-1:计算合并后聚类结果的AggrK、DispK和合并后的E值;
5-2:评判E值变化,判断当前合并是否合理,如果合并合理,E0=E,并使用当前聚类中心进行下次聚类中,转到4-1;如果合并不合理,则执行5-3;
使用指数爆炸2n来判断相对聚类性能,当新的评判值E相对比前次评判值E0的比值在抛物线2n下方,即log2E-log2E0<1时,满足合并条件后,继续下一次合并,再判断其合并性能;当log2E-log2E0>1时聚类性能太差,不合并最近聚类中心,算法终止;
5-3:K=K+1,算法结束,输出最佳轴承故障数据聚类数目K、聚类中心点集M。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010158639.8/1.html,转载请声明来源钻瓜专利网。