[发明专利]基于互为共享最近邻的层次聚类方法有效

专利信息
申请号: 201410488243.4 申请日: 2014-09-22
公开(公告)号: CN104217015B 公开(公告)日: 2017-11-03
发明(设计)人: 周红芳;王心怡;刘园;郭杰;段文聪;何馨依;刘杰;李锦 申请(专利权)人: 西安理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安弘理专利事务所61214 代理人: 李娜
地址: 710048*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 互为 共享 近邻 层次 方法
【权利要求书】:

1.基于互为共享最近邻的层次聚类方法,其特征在于,将待处理的数据集设为D,设聚类数为K,设最近邻值一为K1,设最近邻值二为K2,且K1<K2,具体按照以下步骤实施:

步骤1,分别通过最近邻值一K1和最近邻值二K2计算数据集D的最近邻矩阵,得到最近邻矩阵T1和最近邻矩阵T2;

步骤2,依次查找数据集D中每一个数据点i的最近邻矩阵T2中的每一个邻域点的最近邻矩阵T1’,如果T1’中包含数据点i,则将最近邻矩阵T2中的该数据点i保留,否则将其删除,得到数据点i的最近邻排名矩阵Mi,最近邻排名矩阵Mi是指以数据点i及其互为最近邻数据点为行构建的矩阵,遍历数据集D中的所有数据点,得到最近邻排名矩阵M;

步骤3,通过最近邻排名矩阵M计算出数据集D中每一个数据点i的局部密度Di,局部密度Di是数据点i所在的局部区域在整个数据集中稠密程度的表示,并且将这些数据点按照局部密度Di的大小进行降序排列;

其中,局部密度Di按照以下公式计算:

Di=count(Mi),i∈n(1)

Mi为最近邻排名矩阵M中第i个数据点的最近邻排名矩阵;

步骤4,取排序后的前K×10个数据点作为子簇中心点,并以子簇中心点和子簇中心点的最近邻排名矩阵中所包含的数据点组成子簇;将未进行划分的数据点划分到该数据点的最近邻中最先出现的子簇中,得到若干子簇;

步骤5,计算步骤4最终得到的各子簇两两之间的相似度,将相似度最大的子簇对进行合并;

步骤6,合并后的子簇数目如果小于K,则执行步骤4;合并后的子簇数目如果等于K,则执行步骤7;

步骤7,将数据集D中从未被分配的数据点i划分到离未被分配的数据点最近的子簇中,得到最终的划分结果,所述划分结果为K个类簇。

2.根据权利要求1所述的基于互为共享最近邻的层次聚类方法,其特征在于,步骤5中子簇两两之间的相似度按照以下方法计算:

设有子簇Cx,子簇Cy,0<x,y≤z,最近邻排名矩阵M,则:子簇两两之间的相似度为:

Similarity(Cx,Cy)=NumNeighborCx(Cy)CountNeighbor(Cx)+NumNeighborCx(Cx)CountNeighbor(Cy)---(2)]]>

其中,是子簇Cx中的点在最近邻排名矩阵M中的所有最近邻的点,在这些最近邻点的最近邻排名矩阵中,出现属于子簇Cy的点的次数;

是子簇Cx中的点在最近邻排名矩阵M中的所有最近邻的点,在这些最近邻点的最近邻排名矩阵中,出现属于子簇Cx的点的次数;

CountNeighbor(Cx)是子簇Cx中的点在最近邻排名矩阵M中的所有最近邻的点,这些最近邻点分属不同子簇的子簇数;

CountNeighbor(Cy)是子簇Cy中的点在最近邻排名矩阵M中的所有最近邻的点,这些最近邻点分属不同子簇的子簇数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410488243.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top