[发明专利]一种基于改进DBSCAN的三支聚类方法及系统在审
申请号: | 201910512061.9 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110210575A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 于会;陈芦园;王星南;毛奎涛;张洁;杨海泽 | 申请(专利权)人: | 重庆亿创西北工业技术研究院有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京艾皮专利代理有限公司 11777 | 代理人: | 杨克 |
地址: | 402260 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 边界域 缩放 相似度矩阵 距离矩阵 噪声点 欧几里得距离 数据处理技术 对象集合 核心对象 聚类结果 重新计算 错误率 数据集 正域 算法 延迟 改进 决策 集合 分配 应用 | ||
本发明公开了一种基于改进DBSCAN的三支聚类方法及系统,属于数据处理技术领域。该三支聚类方法包括以下步骤:计算聚类对象集合中的任意两个对象的欧几里得距离,得到所有对象的相似度矩阵;利用缩放函数对相似度矩阵进行重新计算,得到缩放距离矩阵;在缩放距离矩阵的基础上,利用DBSCAN算法得到若干个簇和噪声点集合;确定每个簇的正域和边界域;判断每个簇的边界域中的对象是否隶属于两个或者两个以上的簇;将每个噪声点分别分配至对应核心对象所在簇的边界域中。本发明提供的三支聚类方法在大多数数据集上都能得到较好的聚类结果,其得到的边界域是延迟决策的结果,在实际应用中可以降低聚类的错误率或者决策风险。
技术领域
本发明涉及数据处理技术领域,具体是一种基于改进DBSCAN的三支聚类方法及系统。
背景技术
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,即将对象分类到不同的类(或者簇)的过程,同一个类中的对象有很大的相似性,属于不同类的对象有很大的相异性。
现有技术中,文献“Zhu Y.,Ting K.M.,Angelova M.(2018)A Distance ScalingMet hod to Improve Density-Based Clustering.In:Phung D.,Tseng V.,Webb G.,HoB.,Ganji M.,Rashidi L.(eds)Advances in Knowledge Discovery and DataMining.PAKDD 2018.Lecture Notes in Computer Science,vol 10939.”公开了一种使用多维距离缩放算法来提高基于密度聚类性能的方法,简称为DScale。该方法是一种预处理技术,在原数据计算的距离上进行缩放得到新的距离。将新距离值应用于现有的基于密度的聚类算法,能检测到具有不同密度的所有聚类,提高聚类准确率。文献在经典的具有噪声的基于密度的聚类算法(Density-Based Spatial Clustering of Applications withNoise,DBSCAN)上进行实验,提出了DScale-DBSCAN算法,实验证明DScale-DBSCAN在大部分数据集上能提高聚类准确率。
虽然,DScale-DBSCAN克服了传统DBSCAN的缺点,但该算法本质上属于硬聚类算法。硬聚类假设每个对象必须分配到一个确定的集群中,一个对象只能属于其中的一个类,类和类之间存在确定清晰的边界。但在许多实际应用中,不同类之间可能不一定具有清晰的边界,一个对象可能同时属于两个或者两个以上的类。尤其在信息不完整或者不准确的情况下,很难给出一个明确的硬聚类结果。如果强制把一些对象划分到一个类中,将带来更高的错误率和决策风险。所以,硬聚类算法DScale-DBSCAN难以充分地解释对象和类之间的关系。
发明内容
本发明的目的在于提供一种基于改进DBSCAN的三支聚类方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于改进DBSCAN的三支聚类方法,包括以下步骤:
获取聚类对象集合;
计算聚类对象集合中的任意两个对象的欧几里得距离,得到所有对象的相似度矩阵;
利用缩放函数对相似度矩阵进行重新计算,得到缩放距离矩阵;
在缩放距离矩阵的基础上,利用DBSCAN算法得到若干个簇和噪声点集合;
确定每个簇的正域和边界域,若簇中的对象是高密度点,则将该对象添加到正域中;若簇中的对象是低密度点,则将该对象添加到边界域中;
判断每个簇的边界域中的对象是否隶属于两个或者两个以上的簇,若该边界域中的对象隶属于两个或者两个以上的簇,则将该对象添加到对应簇的边界域中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆亿创西北工业技术研究院有限公司,未经重庆亿创西北工业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910512061.9/2.html,转载请声明来源钻瓜专利网。