[发明专利]一种基于可拓关联函数的改进密度峰值聚类方法在审
申请号: | 201910661779.4 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110414583A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 赵燕伟;朱芬;徐晨;桂方志;任设东;黄程侃 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 分配点 可拓关联函数 关联函数 样本点 节域 差异度 决策图 数据集 样本集 准确率 遍历 度量 构建 邻域 物元 样本 改进 绘制 引入 分配 | ||
1.一种基于可拓关联函数的密度峰值聚类方法,包括以下步骤:
S1:样本点密度和相对距离的获取:将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)、(2)计算各数据点平均差异度作为密度指标ρ;根据公式(2)计算相对距离δ:
设样本集O={O1,O2,…,On},其中Oi为m维向量(i=1,2,…,n),有如下定义:
其中dc为截断误差,dij是样本i和j之间的欧式距离;
S2:绘制决策图,选取簇心:根据ρ和δ值,绘制样本点决策图,选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ;
S3:计算簇心的k距离及k距离邻域:由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi);
所述的k值过大会影响聚类正确率,过小会增加算法运行时间,一般取值为簇心个数的2~4倍;
S4:建立雏形簇:将S3中所述的k距离邻域N(ζi)中的样本点分别分配到对应簇心所在的簇中,形成雏形簇,并将这些样本点标记已分配点;
S5:综合关联函数的建立:根据样本数据及S4中所述的雏形簇,构造该样本集所对应的各属性关联函数;
在步骤S5中,包括如下子步骤:
S51:样本集物元构建及节域获取:对样本集根据公式(4)建立物元模型;根据公式(5)计算样本集节域:
样本物元模型:样本Oi表示为
其中C为样本Oi的属性特征,V为样本Oi属性特征所对应的值;
其中<xcj,ycj>为该样本集O第j维属性值的取值范围;
S52:雏形簇物元构建及经典域的获取:根据公式(4)建立雏形簇物元模型,并在雏形簇物元模型的基础上,根据公式(6)获取雏形簇心簇各属性的经典域;
其中<xi,j,yi,j>为第i个簇心ζi的k距离邻域N(ζi)第j维属性的取值范围;
S53:计算任意样本的可拓距及位值:由所述的节域X和经典域X0分别根据公式(7)计算出可拓距,同时根据公式(8)计算出位值
实轴上任意一点x与区间X0=<a,b>之距为:
设X0=<a,b>,X=<c,d>,且则称
为点x关于区间X0和X组成的区间套的位值;
S54:关联函数构建:由S53中所述的样本可拓距及位值,根据公式(9)建立各属性的关联函数;
称k(x)为点x关于区间X0和X的关联函数;
S55:综合关联函数的构建:由S54中所述的各属性关联函数,根据公式(10)建立样本点的综合关联函数;
其中λ1,λ2,...,λm为样本集各属性的权重系数且满足vi为对象O第i个属性对应的值;
S6:未分配点聚类:依次遍历未分配点,分别计算出其与各雏形簇的综合关联函数值,将其归属到关联度最大的簇内,并将其标记为已分配点,直至所有点完成分配,则聚类完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910661779.4/1.html,转载请声明来源钻瓜专利网。