[发明专利]一种极大中心间隔的核可能性C均值聚类方法在审
申请号: | 201610041187.9 | 申请日: | 2016-01-20 |
公开(公告)号: | CN105718949A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 狄岚;于晓瞳 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 极大 中心 间隔 可能性 均值 方法 | ||
【技术领域】
本发明涉及数据挖掘与模式识别技术领域,涉及数据集的聚类分析和图像分割。
【背景技术】
聚类分析是一种无监督模式识别中的重要方法,已广泛应用于数据挖掘、图像处理、计算机视觉、生物信息和文本分析领域中。聚类算法能将分布未知的数据进行分类,寻找出隐藏在数据中的结构,并按照某种相似程度的度量,使具有相同性质的数据尽可能归于同一类。RuspiniEH.首先提出了模糊划分的概念,并把模糊集理论引入聚类分析之中。随着模糊理论的引入,鉴于分类本质的模糊性,人们逐步接受了模糊聚类分析。
模糊c均值(FCM)聚类算法是最常用的模糊聚类算法之一。在FCM中,同一个样本属于所有类的隶属度之和为1,这种约束强化了噪声点和野值点的隶属度,使FCM对噪声点和野值点较为敏感。针对这个问题,Krishnapuram和Keller放松了隶属度的约束条件,提出了可能性c均值(PCM)聚类算法。PCM较好的解决了FCM对噪声点和野值点的敏感性问题,但是PCM对初始参数敏感,运行效率低,且在边界模糊度较高的数据集中进行聚类分析时,因忽略类中心间的距离关系,容易产生聚类中心重合的现象。针对上述问题,很多相关的改进算法一一被提出,如基于粒子群算法(PSO)和模拟退火算法(SA)的PCM算法和将数据压缩技术引入到PCM中。这些算法虽然解决了PCM对初始参数敏感和运行效率低的缺点,但是对非超球体结构数据的聚类效果不是很令人满意。
支持向量机(SVM)的成功,使核函数的应用得到重视并广泛的应用到机器学习的其他领域,如核主成分分析、核Fisher鉴别分析以及基于核的聚类分析等。基于核的聚类分析就是通过运用核函数将原始空间中的数据映射到高维的特征空间中,在高维的特征空间中进行聚类分析,从而得到原始空间的聚类划分。基于核函数的聚类算法(如基于核的模糊c均值(KFCM)聚类算法和基于核的可能性c均值(KPCM)聚类算法)的出现,在一定程度上克服了FCM、PCM以及相关改进算法不适合非超球体等多种数据结构的缺陷,然而它们依然遗留了原始算法存在的缺陷,即忽略了类中心间的距离关系,当对边界处模糊度较高或边界处存在噪声点和野值点的数据集进行聚类分析时,易产生聚类中心位置重合或偏移的现象,以至于造成边界处数据的误分问题。
【发明内容】
本发明的目的为了使KPCM能够对边界模糊的数据和像素值相近像素点进行较好的划分。
为了达到本发明的目的,本发明引入了高维空间的类间极大惩罚项,充分考虑了类之间的信息,将高维空间中的聚类中心之间的距离与隶属度矩阵之间的乘积求和,充分考虑了类间的相似性,同时引入了调控参数λ,通过调控参数对类间距离进行有效的调节,从而实现聚类中心之间的距离极大化,以达到边界点正确划分的目的。
给定样本空间X={x1,x2,...,xn},样本空间的维数为p,n是样本个数。定义一个非线性映射Φ:x→Φ(x)∈F,其中x∈X。X表示原始数据空间,F则是映射后的高维特征空间。则KPCM的目标函数如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610041187.9/2.html,转载请声明来源钻瓜专利网。