[发明专利]启发式的不等长时间序列聚类核心集的构建方法在审

申请号：	202111613504.7	申请日：	2021-12-27
公开（公告）号：	CN114510991A	公开（公告）日：	2022-05-17
发明（设计）人：	党迎旭;王树良;王奕;袁汉宁;耿晶;刘传鲁;刘衬;赵园	申请（专利权）人：	北京理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京理工大学专利中心 11120	代理人：	李爱英;付雷杰
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	启发式不等长时间序列核心构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明的启发式的不等长时间序列聚类核心集的构建方法，通过增加核心集C_t‑1的时间序列数据对象的权重，根据该权重采样不等长时间序列数据集TS的时间序列数据对象T_j，根据时间序列数据对象T_j构建稀疏矩阵A’，将稀疏矩阵A’利用SPIRAL算法中提出的循环坐标下降法进行矩阵分解得到TS的特征向量X；将特征向量X输入到LWCS算法得到时间序列数据T_j的采样概率Q_t(i)，优化采样概率Q_t(i)为采样概率P_t(i)；根据采样概率P_t(i)重构TS的核心集C_t；当核心集C_t‑1和核心集C_t中相同的时间序列数据T_j的个数大于预设阈值时，核心集C_t收敛，核心集C_t为不等长时间序列聚类的核心集C。使可能为核心集成员的数据对象的特征转换更准确且趋于稳定，实现高质量的核心集构建。

技术领域

本发明属于数据挖掘技术领域，特别涉及一种启发式的不等长时间序列聚类核心集的构建方法。

背景技术

在数据挖掘领域，面向不同的数据挖掘算法，相关研究人员从数据集角度出发，构建了近似替代原数据集的加权子集，称其为核心集。在核心集上得到的挖掘结果与在原始数据集上得到的挖掘结果比较接近，并有理论保证。核心集可以有效缩减数据集规模，提高数据挖掘效率。目前核心集研究主要关注传统数据，缺乏面向时间序列聚类的核心集构建方法，尤其是面向不等长时间序列聚类。

时间序列数据使聚类问题中典型的数据类型之一。时间序列聚类算法基本可以分为三类：基于形状、基于特征、基于模型。

基于形状的聚类方法主要是通过时间轴的非线性拉伸和收缩，尽可能地匹配两个时间序列的形状来计算其相似性，并采用面向传统数据的聚类算法进行聚类，这种方法也被称为基于原始数据的方法。面向传统数据的聚类算法可以是K-Means、K-Medoids、基于密度的聚类等。时间序列计算相似性的方法可以是欧氏距离、DTW、MPdist及DTW的优化算法等。

时间序列表示学习是将原始时间序列映射到另一低维空间，使得数据能尽可能地反映原时间序列信息。基于特征的聚类方法主要是通过表示学习将时间序列数据转换为特征向量，然后将传统聚类算法应用于特征向量。表示学习提取出的特征向量通常是等长的，且能够反映原始时间序列信息。

基于模型的聚类方法主要是将原始时间序列转换为一组模型参数，然后选取合适的模型距离和聚类算法(通常是传统聚类算法)应用于模型参数。常见的模型有隐马尔科夫模型、自回归滑动平均模型等。

面向聚类的核心集构建算法通过给数据赋予不同采样概率进行采样来构建核心集。在计算采样概率时，需要计算数据集的均值。而不等长时间序列的均值计算比较复杂，较难得到。因此面向聚类的核心集构建算法无法适用于不等长时间序列聚类。

LWCS算法是一种经典面向K-Means聚类的核心集构建算法。由于不等长时间序列数据集均值计算困难，所以不等长时间序列数据集无法直接应用 LWCS算法构建核心集。SPIRAL是一种保留时间序列相似性的表示学习框架。该框架可以通过特征转换将不等长的时间序列数据转换为等长的特征向量。将SPIRAL表示学习框架与LWCS核心集构建算法结合，形成面向不等长时间序列聚类的核心集构建框架(TSCoreset-Framework)。该框架包含两个部分，首先用SPIRAL表示学习框架将不等长时间序列转换为特征向量，基于得到的特征向量，采用LWCS算法构建核心集。该框架能够实现面向不等长时间序列聚类的核心集构建。但由于该框架是在特征转换后的特征向量上进行核心集构建，核心集受特征转换结果影响较大。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111613504.7/2.html，转载请声明来源钻瓜专利网。

上一篇：基于微服务代理的天基资源虚拟化管控系统
下一篇：一种织袜机成品检测系统、存储介质及终端设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]启发式的不等长时间序列聚类核心集的构建方法在审

专利文献下载