[发明专利]一种优化的聚类方法有效
申请号: | 201910439344.5 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110222747B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 王鑫;张香梁;吕国芳;宁晨;马贞立 | 申请(专利权)人: | 河海大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 优化 方法 | ||
本发明公开了一种优化的聚类方法,具体包括如下步骤:S1:选取数据集中的像素点,组建密集点集合Y;S2:从密集点集合Y中选取像素点组建集合Q;S3:在数据集中选取m个像素点,组建备选的初始聚类中心点集C;S4:将密集点集合Y中的像素点划分到集合Q中的各初始聚类中心所在的类中,获取第一次聚类的平均最大相似度;S5:获取最小聚类平均最大相似度;S6:将最小聚类平均最大相似度对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心,进行kmeans聚类,获取聚类结果。本发明为了减小噪声对于数据的干扰,使用密度分布函数排除密度稀疏点,剔除一些噪声干扰点和异常点,选出最优的初始聚类中心,从而确定出最优聚类的数目k值,提高聚类精度。
技术领域
本发明涉及信号与信息处理技术领域,尤其涉及一种优化的聚类方法。
背景技术
随着人工智能、互联网的发展,获取大规模数据变得越来越容易,各种数据平台的快速发展逐渐奠定了当代大数据应用的基础。同时在对大量数据进行初步加工的过程中,往往要求将某些相似的数据进行分类,而聚类就是其中一种利用数据的分布特点进行数据加工的常用技术。聚类是一种无监督的学习,它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象,簇内的对象越相似,聚类的效果就越好。
Kmeans算法是著名的聚类算法,因为实现起来比较简单,所以是应用最广研究最多的聚类算法之一。Kmeans算法中的k表示的是聚类为k个簇,means代表取每一个聚类中数据值的均值作为该簇的中心,或者称为质心,即用每一个的类的质心对该簇进行描述。Kmeans算法收敛速度快,聚类效果较优,主要需要调参的参数仅仅是簇数k。但是kmeans算法对噪音和异常点比较的敏感,k值的选取不好把握,随机选择聚类中心等缺点都会影响聚类效果。
发明内容
发明目的:针对在现有聚类方法中,最优聚类的数目k值不易选取的问题,本发明提出一种优化的聚类方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
一种优化的聚类方法,所述方法具体包括如下步骤:
S1:将图像中所有的像素点集中在一个数据集中,计算所述数据集中每个像素点的密度函数值,选出所述数据集中密度函数值不小于数据集的平均密度函数值的像素点,由所述不小于平均密度函数值的像素点组建密集点集合Y;
S2:从所述密集点集合Y中选取两个像素点,组建集合Q;
S3:在所述数据集中通过焦点统计方法选取m个像素点,由所述选取出的m个像素点组建备选的初始聚类中心点集C,其中选取出的像素点的个数,具体为:
m=η/2
其中:m为选取出的像素点的个数,η为密集点集合中Y元素的个数;
S4:将所述密集点集合Y中的像素点划分到集合Q中的各个初始聚类中心所在的类中,获取第一次聚类的平均最大相似度;
S5:从所述备选的初始聚类中心点集C中选择一个像素点,添加至所述集合Q中,作为所述集合Q中的一个新初始聚类中心,并将所述像素点在备选的初始聚类中心点集C中删除,重复步骤S4-步骤S5,将每次聚类的平均最大相似度进行比较,选出聚类平均最大相似度的最小值;
S6:将所述聚类平均最大相似度最小值对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心,进行kmeans聚类,获取聚类结果。
进一步地讲,所述步骤S1由不小于平均密度值的像素点组建密集点集合Y,具体如下:
S1.1:在所述数据集中,以所述数据集中的像素点为圆心,通过预设半径画圆,由在所述圆内的其他像素点,组建所述像素点的最近邻集合Gb(xi);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910439344.5/2.html,转载请声明来源钻瓜专利网。