[发明专利]一种最大熵证据C均值聚类方法在审
申请号: | 202110624768.6 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113283523A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 焦连猛;王丰;杨浩宇;马皓楠;刘准钆;梁彦;潘泉 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 最大 证据 均值 方法 | ||
本发明公开了一种最大熵证据C均值聚类方法,首先在传统ECM算法的目标函数中加入熵约束条件;然后针对条件极值问题使用拉格朗日乘子法,引入n个拉格朗日因子,然后对各个变量求导,得到各个变量的极值点,从而最终得到各变量的迭代公式,完成聚类工作。本发明利用信息熵区分样本相似性的特性对算法进行约束,减少噪声点对聚类性能的影响,同时将熵作为聚类算法的正则化函数,有效提高了算法的噪声检测能力和对观测值的适当分配能力。
技术领域
本发明属于数据处理技术领域,具体涉及一种C均值聚类方法。
背景技术
聚类就是将物理或抽象的对象,按照对象间的相似性进行区分和分类的过程,是一种无监督的分类。聚类分析已经被广泛地应用到很多领域中,包括数据分析、模式识别、市场研究以及图像处理等。聚类分析的方法可以分很多种,根据其分类思想的不同,可以分为基于划分的方法、基于分层的方法、基于密度的方法和基于网格的方法等等。在这之中,基于划分的算法是最常用的聚类算法类型之一,有时也被叫做基于目标函数的聚类算法。然而,传统的聚类划分方法是一种硬性划分,核心思想是把每个待处理的目标样本严格地依照公式划分到某个类或者簇中。硬性划分方法的代表是C均值算法。在这个算法中,样本的隶属度不是1就是0,而现实中大多数的对象并没有严格的属性可以用于甄别,所以这种硬性的划分无法真正地反应出需要分类的对象和类之间的实际关系,反而很容易在聚类时产生错分、漏分的情况。在硬划分基础上改进的模糊划分将模糊逻辑应用于聚类方法,观察结果可以属于不止一个聚类,这种组合将提供更大的灵活性来处理真实世界观测中的不确定性。但模糊划分对于边界和偏离样本仍得不到符合人类认知的聚类结果。
基于置信函数理论的证据C均值(ECM)很好地解决了这一问题。Dempster-Shafer证据理论(或置信函数理论)与概率论或可能性论一样,是一个用部分和不可靠信息进行推理的理论框架。它包含不确定性下的不同推理模型。证据划分允许对象不仅属于单个聚类,而且属于描述可能聚类的识别框架的任何子集。因此,证据划分提供了比其他划分更精细的划分结果,这使得它对于解决复杂的数据聚类问题非常有吸引力。然而,当观测值中有过多噪声点时,这种方法的性能可能会降低。为减少噪声点对聚类性能的影响,利用信息熵区分样本相似性的特性对算法进行约束。
发明内容
为了克服现有技术的不足,本发明提供了一种最大熵证据C均值聚类方法,首先在传统ECM算法的目标函数中加入熵约束条件;然后针对条件极值问题使用拉格朗日乘子法,引入n个拉格朗日因子,然后对各个变量求导,得到各个变量的极值点,从而最终得到各变量的迭代公式,完成聚类工作。本发明利用信息熵区分样本相似性的特性对算法进行约束,减少噪声点对聚类性能的影响,同时将熵作为聚类算法的正则化函数,有效提高了算法的噪声检测能力和对观测值的适当分配能力。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:在ECM算法的目标函数中加入熵约束条件;
步骤1-1:ECM是基于置信划分的一种聚类算法,即利用定义在集合Ω={ω1,........ωc}上的基本置信隶属函数mi来表示对象i的类别;对于每个对象i,当i和焦点Aj间的距离dij越远时,mij=mi(Aj)的值越小;每个类ωk用一个vk表示;
定义:
与Aj相关联的重心通过下式计算:
其中cj=|Aj|是Aj的势;
对象i与任一重心的距离定义如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110624768.6/2.html,转载请声明来源钻瓜专利网。