[发明专利]基于子类数目自动确定的改进密度峰值聚类方法及系统在审
申请号: | 201810502889.1 | 申请日: | 2018-05-23 |
公开(公告)号: | CN108734221A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 许鸿文;薛印玺;陈雯;李羚;殷蔚明;谢靖 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 郝明琴 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 聚类 子类 自动确定 样本点 改进 核心思想 聚类结果 聚类中心 人为干预 分布图 无人为 自动性 准确率 迭代 | ||
1.一种基于子类数目自动确定的改进密度峰值聚类方法,其特征在于,包含如下步骤:
S1、对所有样本点的γ值进行降序排列,使得γ1≥γ2≥…≥γN,N为样本点的个数;
S2、获得γ1≥γ2≥…≥γN中的前m个,其中m为不大于的最大正整数;
S3、利用公式(1)依次计算所述m个γ值之间的相邻样本点之间的欧式距离γi,i+1;
γi,i-1=γi-γi-1,2≤i≤m (1)
S4、利用公式(2)获得
S5、获得满足条件的所有γi,i+1;
S6、分别计算出S5中获得的γi,i+1对应的下标i;
S7、计算S6中获得的下标i的最大值,作为Kmax;
S8、将Kmax对应的样本点作为转折点对所有样本点进行聚类。
2.根据权利要求1所述的基于子类数目自动确定的改进密度峰值聚类方法,其特征在于,所述步骤S8具体包括:
S81、获取步骤S1所述所有样本点形成的样本集S以及所有的Ki,并分别初始化密度变量MinPts以及领域变量Eps为dc以及0;其中,dc为样本集的截断距离,1≤i≤Kmax,从样本集中选取Kmax个最大的γ值对应的样本点作为可能是聚类中心的样本点以作为所述Ki,即Ki表示第i个可能的聚类中心;
S82、将Ki按照γ值的大小进行排序,即
S83、判断所有Ki对应的样本点是否全部都被划分进子类,若果是,则跳转到步骤S86,否则执行步骤S84;
S84、按照由大到小的顺序依次判断是否已经包含在已有的子类中,若已经被包含,则i更新为i+1,继续步骤S84,否则执行步骤S85;
S85、在样本集S中,以对应的样本点作为核心点进行一次DBSCAN迭代过程,形成一个子类Ci,并将子类Ci中的点从样本集S中剔除,跳转到步骤S83;
S86、将最终得到的子类分类结果作为AC-CFSFDP算法的聚类结果。
3.根据权利要求1所述的基于子类数目自动确定的改进密度峰值聚类方法,其特征在于,步骤S8中,进行所述聚类时,聚类的聚类中心的数目在(0,Kmax]范围内。
4.一种基于子类数目自动确定的改进密度峰值聚类系统,其特征在于,包含如下模块:
样本点排序模块,用于对所有样本点的γ值进行降序排列,使得γ1≥γ2≥…≥γN,N为样本点的个数;
样本点选取模块,获得γ1≥γ2≥…≥γN中的前m个,其中m为不大于的最大正整数;
距离计算模块,用于利用公式(1)依次计算所述m个γ值之间的相邻样本点之间的欧式距离γi,i+1;
γi,i-1=γi-γi-1,2≤i≤m (1)
距离平均模块,用于利用公式(2)获得
距离选取模块,用于获得满足条件的所有γi,i+1;
下标计算模块,用于分别计算出距离选取模块中获得的γi,i+1对应的下标i;
极值求取模块,用于计算下标计算模块中获得的下标i的最大值,作为Kmax;
样本聚类模块,用于将Kmax对应的样本点作为转折点对所有样本点进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810502889.1/1.html,转载请声明来源钻瓜专利网。