[发明专利]一种基于多维时序数据的聚类挖掘方法在审
申请号: | 202011569684.9 | 申请日: | 2020-12-26 |
公开(公告)号: | CN112650818A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 刘博;赵怀菩 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 时序 数据 挖掘 方法 | ||
本发明公开了一种基于多维时序数据的聚类挖掘方法,首先对数据算它们之间的相似度,利用密度峰值聚类算法分别选出几个聚类簇;然后把他们从数据中去除,提出使用霍普金斯统计量进行判断,并有选择的重复上述筛选的过程,直到选出所有的聚类;然后提出并使用判断距离,对现有的聚类进行整理和调整;之后对未分类点,使用结合判断距离,最近距离,k近邻距离的算法,对其划分到现有聚类中;最后将聚类结果输出。本方法具有面向海量数据、泛化能力强、应用领域广泛的优势。
技术领域
本发明属于数据挖掘技术领域,包括聚类算法挖掘分析多维时序数据中的聚类模式。
背景技术
多维时序数据在各个领域都广泛存在。在金融中,股票,期货,汇率,利率等数据都是多维时序数据。相对于平常的天气监测数据,如果能在天气数据中寻找并证实某种规律性则更能发现其研究的意义和价值。常见的空气质量变化模式通常也是经常出现的,而非常见的天气现象,如严重污染天气等,则相对少见,但这些天气变化模式也不是随机出现的,其中也存在一些共性的规律。聚类即物以群聚,将相似的数据划分到一类,如果对空气质量指标数据进行聚类模式分析,就可以揭示出天气变化的普遍特征,从而为大气污染治理提供数据支持。因此得到一个高效的多维时序数据聚类模式分析方法是非常具有实际意义的。
Rodriguez和Laio提出了密度峰值聚类算法(DPC)挖掘聚类模式,其思想是:具有高密度的聚类中心,它们之间的距离也比较大。所以通过数据的密度和距离做出决策图,可以清楚的找到数据中潜在的聚类中心。这种方法不需要实现指定聚类簇的个数,同时鲁棒性较强,对数据变换不敏感,可以根据数据中的密度动态调整目标聚类簇的特性。但其问题是对于相似的聚类其敏感度不高,准确度低,并且聚类要求严格,产生结果偏少。
实际生活中的多元时间序列数据有很多,但是因为它们的应用领域不同,它们的特性有很大差异。并不能找出一种普遍适用的方法。目前学术界也已经围绕多元时间序列的模式挖掘展开了很多研究,但都是针对特定领域内数据,这些现有方法都有一定的局限性。
发明内容
本发明要解决的技术问题是,提供一种基于多维时序数据的聚类挖掘方法,首先对数据算它们之间的相似度,利用密度峰值聚类算法分别选出几个聚类簇;然后把他们从数据中去除,提出使用霍普金斯统计量进行判断,并有选择的重复上述筛选的过程,直到选出所有的聚类;然后提出并使用判断距离,对现有的聚类进行整理和调整;之后对未分类点,使用结合判断距离,最近距离,k近邻距离的算法,对其划分到现有聚类中;最后将聚类结果输出。
本发明针对大气污染中的多维时序数据,其中输入数据的每个维度代表一种固定的污染物因子的序列。例如,本专利接受的时序数据维度格式为:{CO,NO2,SO2,O3,PM10,PM2.5}。本专利输出模式为这些污染物(或部分污染物)中较频繁出现的模式子序列,即若干种污染物变化组成的污染模式。
本发明面向海量多维时序大气污染数据集,提出了一种挖掘多维时序数据的污染模式的方法。本发明创新的基于密度峰值聚类(DPC)的聚类算法求得时序数据的聚类模式。与传统密度峰值聚类算法相比,这种方法减少了数据计算量,并且提升准确度。可以有效的对多维时序数据进行挖掘。可以更好的发现传统聚类方法难以发现的大气污染数据集种新的聚类模式,尤其是表现模式相似的大气污染聚类模式。
为了实现上述目的,本发明采用技术方案如下。
接受大气污染多维数据输入,计算所有数据之间的相似度,并根据相似度使用改进的密度峰值聚类算法寻找多维时序的聚类模式,并把挖掘结果输出。改进的密度峰值聚类算法过程应该包括,1.计算向量的距离和截断距离,2.使用密度峰值聚类算法一次选出k个聚类模式,3.对数据进行分析并重复2直到选出所有聚类模式过程,4.对已发现的聚类模式进行分析,重新整理和调整,5.利用数据中出现噪音的偶然性,对未分类数据再次进行划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011569684.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置