[发明专利]一种基于聚类算法DBSCAN的维度细分方法在审
申请号: | 201910413733.0 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110362638A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 刘训瀚;王若琪;张怡 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维度 聚类结果 聚类算法 数据集中 子空间 聚类 分割 分割结果 分割点 数据集 算法 重复 | ||
本发明公开了一种基于聚类算法DBSCAN的维度细分方法,该方法包括:步骤1,针对每一个维度内部分别使用DBSCAN算法,得到的聚类成为该维度的子维度,进行单维度聚类;步骤2,对聚类结果提供一个计算得分的方法,得到一个得分最高的聚类结果;步骤3,利用步骤2得到的暂时的聚类结果,随机插入0~5个不超过数据集尺寸的自然数,作为新的分割点,重复100次,得到100种新的分割方案,并计算按新方案分割后的得分,其中得分最高的一种分割方法,其分割结果作为最终的聚类结果。与现有技术相比,本发明有助于用户得到数据集中相关性更强的子空间;使用此方法细分后,能够体现出数据集中相关性更强的子空间。
技术领域
本发明涉及于多维维度分析技术领域,特别涉及一种多尺度的维度细分方法。
背景技术
目前多维和高维数据普遍存在于日常生活和科学研究中。多维数据的复杂性不仅体现在其维度高、数据规模大,还体现在维度间的相关关系复杂。因此分析多维数据维度之间的关联和模式,对多维数据的可视分析方法研究也有着重要意义。特别是现有的维度分析方法大多将一个维度作为一个整体来分析,认为所有维度相关性是同一粒度的,但是在真实数据中,维度间的相关性可能是多尺度的,存在虽然某些维度在数据集整体中没有很强的相关关系,但是通过维度细分后发现某些部分间有着明显的相关关系却在整体中被掩盖了的情况。因此通过维度细分方法来研究多尺度的维度间相关性具有重要意义。维度细分方法通过将一个维度分割成几个子维度,增多了维度的数量,但是维度之间的关系会更精确清晰。对于维度细分过程来说,维度的分割方法对是否能分离出具有明显相关性的结果影响很大。如图1所示,为维度细分的示意图。维度细分指通过某些方法,在一维数据上分割出几个子类,以每个子类作为子维度进行维度分析。
发明内容
本发明旨在提供了一种基于聚类算法DBSCAN的维度细分方法,分割后子维度间相关性变化较大,用户能够发现数据隐藏的信息。
本发明提出一种基于聚类算法DBSCAN的维度细分方法,该方法包括如下步骤:
步骤1,将多维数据集表示如下:
nD={d1,d2...,dn)=d1∪d2∪...∪dn
其中,dn表示第n个维度,nD表示多维数据集;先将数据集中数据进行标准化处理,使每个维度中的数据成为符合均值为0、方差为1的数据,n表示维度数,调整DBSCAN的参数:给定点在邻域内成为核心对象的最小邻域点数MinPts、邻域半径Eps,针对每一个维度内部分别使用DBSCAN算法,得到的聚类成为该维度的子维度,进行单维度聚类后的数据集表示如下:
其中,表示第n个维度被分成kn类;
步骤2,对聚类结果提供一个计算得分的方法,得到一个得分最高的聚类结果;即,多维数据集D中的某个维度di经过DBSCAN算法聚类后,被分成ni类,该步骤具体处理如下:
其中表示di的第ni个维度,该维度对应的分割点的集合为集合Xi的任一子集都视为一种分割方式,此时有子集,即有种分割方式;
对得到的分割方式计算得分,计算得分的过程为:以此分割方法得到单维度的子维度,每个子维度分别计算与其他维度对应数据之间的Pearson相关系数,Pearson相关系数是变量间的线性相关关系,计算公式为:
其中,x、y表示进行计算的两个维度的一组对应数据点,n表示一个维度中数据点的总数;
对每个分割方式,都得到一个对应的相关关系矩阵:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910413733.0/2.html,转载请声明来源钻瓜专利网。