[发明专利]启发式的不等长时间序列聚类核心集的构建方法在审
申请号: | 202111613504.7 | 申请日: | 2021-12-27 |
公开(公告)号: | CN114510991A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 党迎旭;王树良;王奕;袁汉宁;耿晶;刘传鲁;刘衬;赵园 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 李爱英;付雷杰 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 启发式 不等 长时间 序列 核心 构建 方法 | ||
本发明的启发式的不等长时间序列聚类核心集的构建方法,通过增加核心集Ct‑1的时间序列数据对象的权重,根据该权重采样不等长时间序列数据集TS的时间序列数据对象Tj,根据时间序列数据对象Tj构建稀疏矩阵A’,将稀疏矩阵A’利用SPIRAL算法中提出的循环坐标下降法进行矩阵分解得到TS的特征向量X;将特征向量X输入到LWCS算法得到时间序列数据Tj的采样概率Qt(i),优化采样概率Qt(i)为采样概率Pt(i);根据采样概率Pt(i)重构TS的核心集Ct;当核心集Ct‑1和核心集Ct中相同的时间序列数据Tj的个数大于预设阈值时,核心集Ct收敛,核心集Ct为不等长时间序列聚类的核心集C。使可能为核心集成员的数据对象的特征转换更准确且趋于稳定,实现高质量的核心集构建。
技术领域
本发明属于数据挖掘技术领域,特别涉及一种启发式的不等长时间序列聚类核心集的构建方法。
背景技术
在数据挖掘领域,面向不同的数据挖掘算法,相关研究人员从数据集角度出发,构建了近似替代原数据集的加权子集,称其为核心集。在核心集上得到的挖掘结果与在原始数据集上得到的挖掘结果比较接近,并有理论保证。核心集可以有效缩减数据集规模,提高数据挖掘效率。目前核心集研究主要关注传统数据,缺乏面向时间序列聚类的核心集构建方法,尤其是面向不等长时间序列聚类。
时间序列数据使聚类问题中典型的数据类型之一。时间序列聚类算法基本可以分为三类:基于形状、基于特征、基于模型。
基于形状的聚类方法主要是通过时间轴的非线性拉伸和收缩,尽可能地匹配两个时间序列的形状来计算其相似性,并采用面向传统数据的聚类算法进行聚类,这种方法也被称为基于原始数据的方法。面向传统数据的聚类算法可以是K-Means、K-Medoids、基于密度的聚类等。时间序列计算相似性的方法可以是欧氏距离、DTW、MPdist及DTW的优化算法等。
时间序列表示学习是将原始时间序列映射到另一低维空间,使得数据能尽可能地反映原时间序列信息。基于特征的聚类方法主要是通过表示学习将时间序列数据转换为特征向量,然后将传统聚类算法应用于特征向量。表示学习提取出的特征向量通常是等长的,且能够反映原始时间序列信息。
基于模型的聚类方法主要是将原始时间序列转换为一组模型参数,然后选取合适的模型距离和聚类算法(通常是传统聚类算法)应用于模型参数。常见的模型有隐马尔科夫模型、自回归滑动平均模型等。
面向聚类的核心集构建算法通过给数据赋予不同采样概率进行采样来构建核心集。在计算采样概率时,需要计算数据集的均值。而不等长时间序列的均值计算比较复杂,较难得到。因此面向聚类的核心集构建算法无法适用于不等长时间序列聚类。
LWCS算法是一种经典面向K-Means聚类的核心集构建算法。由于不等长时间序列数据集均值计算困难,所以不等长时间序列数据集无法直接应用 LWCS算法构建核心集。SPIRAL是一种保留时间序列相似性的表示学习框架。该框架可以通过特征转换将不等长的时间序列数据转换为等长的特征向量。将SPIRAL表示学习框架与LWCS核心集构建算法结合,形成面向不等长时间序列聚类的核心集构建框架(TSCoreset-Framework)。该框架包含两个部分,首先用SPIRAL表示学习框架将不等长时间序列转换为特征向量,基于得到的特征向量,采用LWCS算法构建核心集。该框架能够实现面向不等长时间序列聚类的核心集构建。但由于该框架是在特征转换后的特征向量上进行核心集构建,核心集受特征转换结果影响较大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111613504.7/2.html,转载请声明来源钻瓜专利网。