[发明专利]一种基于聚类算法DBSCAN的维度细分方法在审
申请号: | 201910413733.0 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110362638A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 刘训瀚;王若琪;张怡 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维度 聚类结果 聚类算法 数据集中 子空间 聚类 分割 分割结果 分割点 数据集 算法 重复 | ||
1.一种基于聚类算法DBSCAN的维度细分方法,其特征在于,该方法包括如下步骤:
步骤1,将多维数据集表示如下:
nD={d1,d2…,dn}=d1∪d2∪...∪dn
其中,dn表示第n个维度,nD表示多维数据集;先将数据集中数据进行标准化处理,使每个维度中的数据成为符合均值为0、方差为1的数据,n表示维度数,调整DBSCAN的参数:给定点在邻域内成为核心对象的最小邻域点数MinPts、邻域半径Eps,针对每一个维度内部分别使用DBSCAN算法,得到的聚类成为该维度的子维度,进行单维度聚类后的数据集表示如下:
其中,表示第n个维度被分成kn类;
步骤2,对聚类结果提供计算得分的方法,得到一个得分最高的聚类结果;即,多维数据集nD中的某个维度di经过DBSCAN算法聚类后,被分成ni类,该步骤具体处理如下:
其中表示di的第ni个维度,该维度对应的分割点的集合为集合Xi的任一子集都视为一种分割方式,此时有个子集,即有种分割方式;
对得到的分割方式计算得分,计算得分的过程为:以此分割方法得到单维度的子维度,每个子维度分别计算与其他维度对应数据之间的Pearson相关系数,Pearson相关系数是变量间的线性相关关系,计算公式为:
其中,x、y表示进行计算的两个维度的一组对应数据点,n表示一个维度中数据点的总数;
对每个分割方式,都得到一个对应的相关关系矩阵:
得分即定义为矩阵每行的均值与方差的和,得分越高,即认为子维度的相关关系的差距越大,分割效果越明显,越适合进行多尺度的维度分析。选出得分最高的一个分割方式,作为暂时的聚类结果;
步骤3,利用步骤2得到的暂时的聚类结果,在对应的分割点集合Xi中,在随机位置随机插入0~5个不超过数据集尺寸的自然数,作为新的分割点,重复100次,得到100种新的分割方案,并计算按新方案分割后的得分,其中得分最高的一种分割方法,其分割结果作为最终的聚类结果。
2.根据权利要求1的基于聚类算法DBSCAN的维度细分方法,其特征在于,所述分割方法得到单维度的子维度,每个子维度分别计算与其他维度之间的皮尔森相关系数,得到一组相关系数,得分即定义为这组数据的均值与方差的和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910413733.0/1.html,转载请声明来源钻瓜专利网。