[发明专利]基于距离的多节聚类方法和装置、存储介质及电子装置在审
申请号: | 202011091982.1 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112215287A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 祝世虎;李岩 | 申请(专利权)人: | 中国光大银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵静 |
地址: | 100033 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 距离 多节聚类 方法 装置 存储 介质 电子 | ||
本发明公开了一种基于距离的多节聚类方法和装置、存储介质及电子装置。该方法包括:确定待聚类数据集中任意两个数据之间的距离,得到距离集合,待聚类数据集包括N个数据,N为自然数;根据距离集合确定N个数据中的每个数据的相邻数据数量,共得到N个相邻数据数量,其中,每个相邻数据数量为N个数据中与一个数据之间的距离小于或等于第一预设距离的数据的数量;按照N个相邻数据数量的大小对N个数据中的多个数据执行Q级聚类,以使待聚类数据集中的每个数据均被聚类,其中,不同的多个数据对应的Q的取值相同或不同,Q为大于或等于1的整数。采用上述技术方案,解决了相关技术中,在聚类时,存在聚类结果差的问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种基于距离的多节聚类方法和装置、存储介质及电子装置。
背景技术
目前,在各类数据去重、数据聚类、相似数据推荐的场景,例如舆情预警系统中的新闻、公告类文档的去重和聚类;互联网中对新闻或者网页进行去重、聚类或相似推荐时,需要对数据集进行分类,通过分析数据之间的相似性,来将数据集分成多个类。相关技术中,一般采用的聚类算法有K-means聚类算法和(Density-Based Spatial Clustering,简称DBSCAN)聚类算法。
基于距离的聚类算法K-means:
如图1所示,每个点是一条数据,K-means算法的流程如下:随机选取K个点做为初始聚类中心;分别计算每个样本点到K个中心的距离(相似度大小),找到离该点最近的中心点,将它归属到对应的类,所有数据就分为了K个类;之后重新计算每个类的中心(类中所有点的平均距离中心),将其定为新的中心;反复迭代2-3步,直到聚类中心不再发生变化为止。通过以上原理可知,K-means算法存在以下缺点:K值直接影响了聚类结果,而K值需要预先给定,在对海量的数据进行聚类时,预先并不知道数据里有多少个类,这就造成很难获取到较好的聚类结果;每次更新聚类中心的时候,要计算整个类里所有数据的平均值,使得噪声点对算法性能影响较大,如果数据里有一个点距离其他数据点都非常偏远,很容易导致聚类中心的偏离,影响聚类结果;K-means算法以聚类中心为圆心,基于距离进行聚类,只能发现“类圆形”的类,如果数据分布是长条形或者圆环形,则K-means算法性能较差。
基于密度的聚类算法DBSCAN:
如图2所示,DBSCAN算法是基于密度进行聚类的算法,DBSCAN需要指定两个参数:邻域半径R和最少点数目minpoints。该算法将所有数据点分为3类:核心点,边界点和噪声点,邻域半径R内样本点的数量大于等于minpoints的点叫做核心点;不属于核心点但在某个核心点的邻域内的点叫做边界点;既不是核心点也不是边界点的是噪声点。
DBSCAN的算法步骤分成两步:(1)寻找核心点形成临时聚类簇。扫描全部样本点,如果某个样本点R半径范围内点数目=MinPoints,则将其纳入核心点列表,并将其密度直达(在该点邻域内)的点形成对应的临时聚类簇。(2)合并临时聚类簇得到聚类簇。对于每一个临时聚类簇,检查其中的点是否为核心点,如果是,将该点对应的临时聚类簇和当前临时聚类簇合并,得到新的临时聚类簇。重复此操作,直到当前临时聚类簇中的每一个点要么不在核心点列表,要么其密度直达的点都已经在该临时聚类簇,该临时聚类簇升级成为聚类簇。继续对剩余的临时聚类簇进行相同的合并操作,直到全部临时聚类簇被处理,剩余未聚类的点即为噪声点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国光大银行股份有限公司,未经中国光大银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011091982.1/2.html,转载请声明来源钻瓜专利网。