[发明专利]一种基于并行自然邻的局部核心点聚类算法在审
申请号: | 201910080473.X | 申请日: | 2019-01-28 |
公开(公告)号: | CN109858545A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 程东东;黄金龙;张素兰;李捷;桂俊 | 申请(专利权)人: | 长江师范学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云 |
地址: | 408100 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类算法 并行 数据对象 数据集 聚类 快速排序法 构造决策 邻域信息 搜索算法 非局部 构建 共享 分配 | ||
1.一种基于并行自然邻的局部核心点聚类算法,其特征在于,包括以下几个步骤:
S1:采用快速排序法对数据集进行KD-树的构建;
S2:采用并行的自然邻搜索算法,获取每个数据对象的邻域信息;
S3:通过计算每个数据对象的密度从而获取局部核心点;
S4:计算局部核心点之间的共享近邻的距离;
S5:构造决策图,实现局部核心点的聚类;
S6:分配非局部核心点,实现数据集中所有数据对象的聚类。
2.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S1中所述快速排序法为,采用快速排序后的标称值的位置与需要查找的中值位置进行比较,从而判断中值点位于标称值的左边或右边,然后递归地去查询,直到标称值的位置为中值点所在的位置为止。
3.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S2中,所述并行的自然邻搜索算法为采用收集节点和搜索节点两种类型的计算节点对KD-树进行并行计算,用于获取数据集的每个数据对象的邻域信息。
4.如权利要求3所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述收集节点,用于判断自然邻搜索算法算法是否停止,逆近邻的样本点数目为0,则算法停止;所述搜索节点,用于在KD-树中搜索数据邻域信息和发送数据邻域信息。
5.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S3中,包括以下步骤:
S3-1:计算数据集中每个数据对象的密度Den,计算公式为:
公式(1)中,Den(p)表示数据对象p的密度,nb(p)表示数据对象p的逆近邻数量,p,q∈D,NNλ(p)是p的λ最近邻居集合,q是p的λ最近邻居集合中的数据对象,dist(p,q)是p和q的欧式距离;
S3-2:选取数据对象局部邻域中MaxDen值对应的数据对象为局部核心点。
6.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S4中,包括以下步骤:
S4-1:定义局部核心点的邻域:
公式(2)中,NLORE(p)表示局部核心点p的邻域,MLORE(p)表示局部核心点p的成员的集合,NNλ(q)是局部核心点q的λ最近邻居集合;
S4-2:定义两个局部核心点的共享近邻:
SLORE(p,q)=NLORE(p)∩NLORE(q) (3)
公式(3)中,SLORE(p,q)表示局部核心点p和q的共享近邻,NLORE(p)为局部核心点p的邻域,NLORE(q)为局部核心点q的邻域;
S4-3:计算两个局部核心点之间的共享近邻距离:
公式(4)中,SD(p,q)为局部核心点p和q的共享近邻距离,d(p,q)是两个局部核心点p,q之间的欧式距离,Den(o)是数据对象o的密度,maxd是任意两个局部核心点之间的距离的最大值;|SLORE(p,q)|表示局部核心点p和q的共享近邻数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长江师范学院,未经长江师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910080473.X/1.html,转载请声明来源钻瓜专利网。