[发明专利]一种基于可拓关联函数的改进密度峰值聚类方法在审
申请号: | 201910661779.4 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110414583A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 赵燕伟;朱芬;徐晨;桂方志;任设东;黄程侃 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 分配点 可拓关联函数 关联函数 样本点 节域 差异度 决策图 数据集 样本集 准确率 遍历 度量 构建 邻域 物元 样本 改进 绘制 引入 分配 | ||
一种基于可拓关联函数的改进密度峰值聚类方法,包括:引入平均差异度作为样本密度度量标准并获得相应的相对距离;绘制相应的决策图,选取密度和相对距离都较大的样本点作为簇心;基于k邻域思想提出雏形簇概念,将雏形簇内样本点标记为已分配点;分别建立样本集和雏形簇物元模式下的节域和经典域;计算经典域和节域下的可拓距及相应的位值;构建各属性的可拓关联函数及综合关联函数;依次遍历未分配点,获取其对各雏形簇的综合关联函数值,将其分配到最大综合关联函数值所对应的簇中,并标记为已分配点,直至不存在未分配点,完成聚类。本发明对任意形状的数据集能实现准确的簇心选取和精确的聚类,具有更高的聚类准确率和更稳定的聚类性能。
技术领域
本发明涉及一种基于可拓关联函数的改进密度峰值聚类方法。
背景技术
随着大数据技术以及可拓学的快速发展,如何融合可拓学分析和挖掘数据中隐藏的知识,成为一个企业是否具有竞争力的重要因素。聚类是数据分析的重要手段,在数据挖掘、图像处理等领域被广泛应用,密度峰值聚类是2014年提出的高效聚类算法,但其存在选取的簇心质量不佳、非簇心点分配不准确引起“多米诺骨牌效应”等问题,使得聚类效果不理想,准确率不高。因此需要提出一种基于可拓关联函数的密度峰值聚类方法,基于可拓关联函数充分考虑样本点间的相关性,对其隶属程度进行定量描述,从而实现精准聚类,具有更好的准确率。
发明内容
本发明为了克服现有密度峰值聚类方法中密度度量不准确及一步分配策略所引起的聚类准确率低的不足,提供一种基于可拓关联的改进密度峰值聚类方法,借助可拓关联函数对样本间相关性的准确描述,实现更好的聚类效果。
本发明解决其技术问题所采用的技术方案是:
S1:样本点密度和相对距离的获取:将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)、(2)计算各数据点平均差异度作为密度指标ρ;根据公式(2)计算相对距离δ:
设样本集O={O1,O2,…,On},其中Oi为m维向量(i=1,2,…,n),有如下定义:
其中dc为截断误差,dij是样本i和j之间的欧式距离。
S2:绘制决策图,选取簇心:根据ρ和δ值,绘制样本点决策图,选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ。
S3:计算簇心的k距离及k距离邻域:由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi)。
所述的k值过大会影响聚类正确率,过小会增加算法运行时间,一般取值为簇心个数的2~4倍。
S4:建立雏形簇:将S3中所述的k距离邻域N(ζi)中的样本点分别分配到对应簇心所在的簇中,形成雏形簇,并将这些样本点标记已分配点;
S5:综合关联函数的建立:根据样本数据及S4中所述的雏形簇,构造该样本集所对应的各属性关联函数;
在步骤S5中,包括如下子步骤:
S51:样本集物元构建及节域获取:对样本集根据公式(4)建立物元模型;根据公式(5)计算样本集节域:
样本物元模型:样本Oi表示为
其中C为样本Oi的属性特征,V为样本Oi属性特征所对应的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910661779.4/2.html,转载请声明来源钻瓜专利网。