[发明专利]一种参数自适应的密度峰值聚类方法在审
申请号: | 201810333670.3 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108596230A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 杜韬;许婧文;曲守宁;王玉栋;武奎;庞战;牟国栋;李国昌;张瑞;刘闯 | 申请(专利权)人: | 济南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N99/00 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 张渲 |
地址: | 250022 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参数自适应 聚类结果 聚类 自适应调整 簇头节点 迭代优化 聚类参数 自动获得 自动聚类 角色 | ||
本发明涉及一种参数自适应的密度峰值聚类方法,其特征在于,包括以下步骤:S1:基于数据密度属性自动获得数据角色;S2:以簇头节点为核心实现自动聚类;S3、评价聚类结果与自适应调整聚类参数,迭代优化聚类结果。
技术领域
本发明属于网络数据通信技术领域,涉及一种通信领域用聚类方法,尤其是一种参数自适应的密度峰值聚类方法。
背景技术
随着硬件技术,网络通信技术,各种传感设备和各种信息技术的飞速发展,在社会网络,传感器网络,电子商务,网络监控,气象环境监测,金融零售企业等多个应用领域,产生了大量的动态数据,如何在这些数据中获取有效的知识成为大数据应用研究的热点。
聚类分析是无监督的机器学习方法,不需要设置样本数据集进行训练就可以对数据进行有效的划分,因此在大数据分析领域具有很好的应用前景。目前聚类算法已经在金融分析、环境监测、工业控制等领域有着广泛的用途,是机器学习领域重要的分支之一。
现有的聚类算法需要设置初始参数,实现聚类,而初始参数对计算结果影响较大,需要准确的先验知识设置参数值,导致聚类效率低的缺陷。此为现有技术的不足之处。
因此,针对现有技术中的上述缺陷,提供设计一种参数自适应的密度峰值聚类方法;以解决现有技术中的上述缺陷,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种参数自适应的密度峰值聚类方法,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种参数自适应的密度峰值聚类方法,包括以下步骤:
S1:基于数据密度属性自动获得数据角色;
S2:以簇头节点为核心实现自动聚类;
S3、评价聚类结果与自适应调整聚类参数,迭代优化聚类结果。
所述步骤S1包括以下步骤:
S11:计算数据点的节点局部密度,用ρ表示节点局部密度,计算公式如下:
其中dc是以节点i为中心的邻域Ar的半径,所有在此区域内的点视为i的邻居节点,dij是节点i到节点j的欧氏距离;
得到节点的所有密度值之后对其进行从大到小排序得到序列{ρq1,ρq2,...,ρqn};
S12:计算数据点的最近高密度点距离,用δ表示最近高密度点距离;用以下公式计算节点i最近且比i密度高的节点的距离δ;
ρ和δ组合及其角色判断如表1所示。
表1数据角色分配表
所述步骤S2包括以下步骤:
当所有节点的角色分配完毕之后,所有簇内点选择距离自己最近的簇头,加入该簇头的类中,形成微簇,然后所有的微簇按以下公式计算相互间的距离:
其中,m和n分别是两个相邻微簇的节点数,i和j分别是两个不同微簇中的点,如果根据公式(3)计算的两个微簇间的距离小于dc,则这两个簇进行合并,新簇的簇头由原簇头中局部密度较大的一个担任;当所有的微簇间的距离都大于dc,本次聚类结束。
所述步骤S3包括以下步骤:
采用待定点优化聚类,具体公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810333670.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在线异常的监测诊断方法和系统
- 下一篇:一种学生宿舍用电器分类方法