[发明专利]基于密度半径的改进K-means聚类算法在审

专利信息
申请号: 201810354305.0 申请日: 2018-04-19
公开(公告)号: CN108549913A 公开(公告)日: 2018-09-18
发明(设计)人: 万思思;刘丹;王永松;伍功宇 申请(专利权)人: 成都康乔电子有限责任公司;电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 成都虹桥专利事务所(普通合伙) 51124 代理人: 吴中伟
地址: 610041 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及聚类算法领域,公开了一种基于密度半径的改进K‑means聚类算法,解决现有K‑means聚类算法存在的局部最优解、对噪声和离群点比较敏感、k值选取不准确问题。本发明首先按照密度半径对所有样本点进行排序,选取密度半径最大的样本点作为初始值,重复前述述步骤,选出所有的初始点以及类别数量k,并开始聚类操作;从聚类后的类别质心中选出距离最近的两个质心,将这两个质心所在的类别单独拿出来看成一个二分类,并计算其二分类的贝叶斯得分,然后将这个两个类别合并为一个类别,并计算合并后的贝叶斯得分,再根据得分判断是否需要合并这两个类别,重复前述步骤直到不用合并为止。本发明适用于大数据聚类处理。
搜索关键词: 聚类算法 质心 合并 贝叶斯 样本点 聚类操作 聚类处理 距离最近 准确问题 初始点 大数据 二分类 最优解 重复 聚类 算法 排序 噪声 改进 敏感 分类
【主权项】:
1.基于密度半径的改进K‑means聚类算法,其特征在于,包括如下步骤:A.计算样本数据集T内所有样本点两两之间的距离;B.指定一个密度半径d,根据密度半径d以及样本点两两之间的距离求出每个样本点在密度半径d内的所有的样本点;C.根据各样本点在密度半径d内样本点的数目对样本数据集内的样本点排序,从而得到将排序后的数据集T’;D.定义一个空的集合S,将数据集T’中第一个样本点放入集合S中,并将数据集T’中第一个样本点以及其密度半径d内的所有样本点从数据集T’中删除;E.重复执行步骤D,直到集合当集合时,集合S中的样本的个数即为K‑means聚类算法可能的k值,集合S中的值即为K‑means聚类算法可能的初始值;F.将集合S看作质心集合,质心集合中每个初始值即为不同的类别质心,计算样本数据集T内所有样本点与质心集合中各类别质心的距离,并标记样本数据集T内每个样本点的类别为与该样本点距离最小的质心的类别;G.利用各类别内所有的样本点重新计算出各类别新的类别质心,从而更新质心集合;H.判断更新后质心集合内的质心与样本数据集T内的样本点之间的误差平方和准则函数是否收敛,若收敛且更新后质心集合相对于更新前没有发生变化,则直接进入步骤I;否则,重复执行步骤F和G,直到误差平方和准则函数收敛且质心集合更新后再无变化,进入步骤I;I.求出质心集合内所有质心两两之间的距离,并选择距离最小的两个质心,将距离最小的两个质心所在的两个类别单独拿出来;J.判断步骤I单独拿出来的两个类别是否需要合并,若不需要合并,则算法结束;若需要合并,则将步骤I单独拿出来的两个类别合并,并计算合并后类别的质心,同时将步骤I选择的两个质心从质心集合中删除,并将合并后类别的质心放入质心集合,同时跳转步骤I。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康乔电子有限责任公司;电子科技大学,未经成都康乔电子有限责任公司;电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810354305.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top