[发明专利]一种基于多维时序数据的聚类挖掘方法在审
申请号: | 202011569684.9 | 申请日: | 2020-12-26 |
公开(公告)号: | CN112650818A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 刘博;赵怀菩 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 时序 数据 挖掘 方法 | ||
1.一种基于多维时序数据的聚类挖掘方法,其特征在于:包括以下步骤:
步骤1、获取大气污染的多维时序数据集,并对多维时序数据集中的数据进行预处理,其中,每个维度应该代表一种污染物浓度的序列,各维度的污染物相对独立,维度含义不随时间变化,处理后的数据格式形如:输入序列X,X={x1,x2,…,xm},m为长度,x是一个时刻的数据,每个点xi={pi1,pi2,…,pin},xi包含n种污染物维度,pij代表i时间j种污染物维度的数据的值;
步骤2、使用累计均方误差值AE对预处理后的大气污染多维时序数据集中的数据进行自底向上的线段拟合,生成线段模式时间序列,通过线段拟合,用一个值代表原有数个值,一方面压缩大气污染多维数值型数据的数据量,减少大气污染数据中的突变型噪音干扰;
步骤3、从步骤2的大气污染线段模式时间序列中选取时间跨度为w的一系列线段作为一种潜在模式的向量,计算所有向量之间的相似度;
步骤4、用基于聚类再发现的密度聚类算法计算多维度时序数据的聚类,作为目标聚类模式,其中利用大气污染等各个领域中数据的一般性噪音的局部性分布规律,使用余弦距离,k近邻距离等多种度量方法测量数据,并通过引入“判断距离”比较两种方法的差距;利用各个领域数据中的模式的出现频率不一的特性以及数据分析一般按照模式明显程度依次挖掘的特性,使用改进的“再发现”方法迭代的寻找数据中明显模式,并且引入霍普金斯统计量加速计算过程;
步骤5、输出聚类结果。
2.根据权利要求1所述的一种基于多维时序数据的聚类挖掘方法,其特征在于:步骤4具体包括以下步骤:
步骤4.1、设置算法的参数;
步骤4.2、根据算法参数和输入数据,计算截断距离d_c;对所有向量之间的相似度进行升序排列,选取前第x*100%位置的相似度作为截断距离d_c;
步骤4.3、根据算法参数和截断距离,计算判断距离dj;
步骤4.4、使用密度峰值聚类算法计算出聚类中心和聚类;算法一次计算出指定的k个聚类;
步骤4.5、将已发现的聚类从数据中排除,引入霍普金斯统计量H,根据数据去除聚类前后H的改变情况,有选择地重复步骤3、步骤4.2、步骤4.4,直到没有新的聚类为止;
步骤4.6、使用判断距离,将步骤4.4,步骤4.5中发现的聚类进行重新整理调整;
步骤4.7、使用数据与最近聚类中心的距离,数据的k近邻距离,判断距离,对剩余未分类点进行分类;
步骤4.8、输出聚类结果。
3.根据权利要求2所述的一种基于多维时序数据的聚类挖掘方法,其特征在于:步骤4中的步骤4.3的过程:计算判断距离dj。
4.根据权利要求2所述的一种基于多维时序数据的聚类挖掘方法,其特征在于:步骤4.8的过程:将聚类从数据中排除,计算原数据的霍普金斯统计量H1,和排除已划分聚类数据的霍普金斯统计量H2,比较H1与H2的大小;若H2大于等于H1,从步骤4.5或4.6选取聚类中心的步骤开始重复;若H2小于H1,从步骤3,4.2,然后从4.4开始;重复以上步骤,直到所有聚类被选出。
5.根据权利要求2所述的一种基于多维时序数据的聚类挖掘方法,其特征在于:步骤4.9的过程:通过判断数据到聚类间的距离,将现有聚类中的数据重新划分到最合适的聚类中,即对于每种聚类中的数据,分别计算数据到所属聚类中心的距离d1和数据到其它聚类中心的距离d2;当所有d2都满足d1和d2差值小于“判断距离”时,不需要操作;当存在d1d2且d1与d2差值大于等于“判断距离”时,重新划分当前聚类模式到距离最近的聚类中心之中;重复这个过程直到完成所有聚类数据的整理工作。
6.根据权利要求2所述的一种基于多维时序数据的聚类挖掘方法,其特征在于:步骤4中的步骤4.10的过程:通过综合考虑数据与最近聚类中心的距离,数据的k近邻距离,以及步骤4.3计算出的“判断距离”,对于剩余的未分类数据进行完全划分,即对每个未分类点y,分别计算其到最近聚类中心的距离d3,以及到k近邻的聚类中心的距离d4,然后考虑d3和d4的差值:若差值小于“判断距离”,将点y划分到d3对应的聚类中心;若差值大于“判断距离”,将点y划分到d4对应的聚类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011569684.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置