[发明专利]一种基于样本密度和自适应调整聚类中心的聚类分析方法有效

申请号：	202010158639.8	申请日：	2020-03-09
公开（公告）号：	CN111382797B	公开（公告）日：	2021-10-15
发明（设计）人：	张维;马志华	申请（专利权）人：	西北工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	西北工业大学专利中心 61204	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于样本密度自适应调整中心聚类分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于样本密度和自适应调整聚类中心的轴承故障数据聚类分析方法，其特征在于步骤如下：

步骤1：选择轴承故障数据初始聚类中心

1-1：初始化聚类数目初始化中心点集n为样本数量；

1-2：聚类处理的轴承故障数据集X＝{x₁,x₂,...,x_i,...,x_n}，每个样本对象包含p维特征{x_i1,x_i2,...,x_il,...,x_ip}，x_il分别表示第i个对象的第l个特征值，i≤n,l≤p；计算轴承故障数据集中每个样本对象的密度值ρ(x_i)，如公式(1)所示，并按照密度值的大小降序排列；

ρ(x_i)＝exp[-v(x_i)] (1)

其中：为样本间的欧氏距离，i＝1,2,...,n；j＝1,2,...,n；

1-3：从轴承故障样本数据集中选取处于最密集区域的样本，即最大的密度值max{ρ(x_i)}对应的样本对象作为第一个类簇的初始聚类中心M₁，并将其加入到初始化中心点集M中；

1-4：计算该聚类中心M₁对应的邻域半径以该聚类中心点为中心以为半径的圆形区域所包含轴承故障数据对象的集合，作为轴承故障数据对象的邻域

轴承故障数据对象的邻域半径R：

其中：c_R为半径调节系数，0＜c_R≤1，为轴承故障数据对象之间的平均距离；

1-5：从轴承故障样本数据集中删除聚类中心M₁和其邻域内的样本数据，在剩余的样本数据中继续寻找下一个聚类中心；

1-6：重复执行1-2～1-5，直到找到K个初始聚类中心点{M₁,M₂,...,M_i,...,M_K}；

1-7：保存轴承故障数据初始聚类中心点集M＝{M₁,M₂,...,M_i,...,M_K}；

步骤2：轴承故障数据初始样本分配和聚类处理

2-1：将轴承故障样本数据集X＝{x₁,x₂,...,x_i,...,x_n}中的样本对象分配到距离其最近的中心点所在的类簇中，形成初始类簇{C₁,C₂,...,C_K}，并计算聚类的误差平方和SSE_K：

其中，是相应类C_i中n_i个样本的均值，i＝1,2,...,K；

2-2：更新类簇中心，在每一类簇中重新寻找距离所在类簇其它轴承故障数据样本点距离总和最小的点作为新的类簇中心；

2-3：计算误差平方和，若与上次误差平方和相同或者聚类中心不再改变，保存聚类中心点集M_k，并执行下一步，否则转到2-1；

步骤3：轴承故障数据聚类子类簇合并

3-1：计算当前聚类结果的类间分散度Disp_K和类内聚合度Aggr_K；

计算每个子类C_i内所有样本任意两个元素之间的距离d，定义子类C_i的类内聚合度：

计算所有子类{C₁,C₂,...,C_K}的类内聚合度取各个子类的类内聚合度的调和平均值，并根据不同类簇中样本量的大小设置不同权重，定义为整个聚类的类内聚合度：

其中：w_i为类C_i的聚合度Aggr_Ci的调和权重，

使用最小生成树算法对K个聚类中心{M₁,M₂,...,M_i,...,M_K}之间的距离进行计算，可以得到K-1组距离数{D₁,D₂,...,D_K-1}；计算所有聚类中心之间的距离在最小生成树上对应的最小距离总和sum_D，定义整个聚类的类间分散度：

3-2：计算K个聚类中心{M₁,M₂,…,M_i,…,M_K}之间的距离，找到距离最近的两个子类簇；

3-3：合并距离最近的这两个子类，K＝K-1，得到当前K个聚类中心，将轴承故障样本重新分配到距离其最近的中心点，并更新聚类中心M＝{M₁,M₂,…,M_i,…,M_K}；

3-4：计算合并后重新得到的聚类结果的类内聚合度Aggr_K和类间分散度Disp_K，计算合并后的聚类稠密度E，赋给E₀；

计算聚类稠密度变化率：

使用新的类簇中心再次进行K-means处理，再次合并距离最近的类，并重新计算合并后的类簇稠密度；通过计算合并后聚类稠密度E的变化情况来判断当前合并是否合理；

步骤4：子类合并后的轴承故障样本数据分配和聚类处理

4-1：将轴承故障样本数据集中的样本对象分配到距离其最近的中心点所属类中，并计算聚类的误差平方和，在每一类簇中重新寻找距离所在类簇其他样本点距离总和最小的点作为新的类簇中心；

4-2：计算误差平方和，若与上次误差平方和相同或者聚类中心不再改变，保存聚类中心点集M＝{M₁,M₂,...,M_i,...,M_K}，并执行下一步；否则转到4-1；

4-3：找到距离最近得两个聚类子集，合并这两个子集，K＝K-1，更新聚类中心；

步骤5：轴承故障数据聚类合并的合理性判断

5-1：计算合并后聚类结果的Aggr_K、Disp_K和合并后的E值；

5-2：评判E值变化，判断当前合并是否合理，如果合并合理，E₀＝E，并使用当前聚类中心进行下次聚类中，转到4-1；如果合并不合理，则执行5-3；

使用指数爆炸2ⁿ来判断相对聚类性能，当新的评判值E相对比前次评判值E₀的比值在抛物线2ⁿ下方，即log₂E-log₂E₀＜1时，满足合并条件后，继续下一次合并，再判断其合并性能；当log₂E-log₂E₀＞1时聚类性能太差，不合并最近聚类中心，算法终止；

5-3：K＝K+1，算法结束，输出最佳轴承故障数据聚类数目K、聚类中心点集M。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010158639.8/1.html，转载请声明来源钻瓜专利网。

上一篇：图像特征的提取方法、装置、设备及存储介质
下一篇：动作捕捉方法、装置、电子设备及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于样本密度和自适应调整聚类中心的聚类分析方法有效

专利文献下载