[发明专利]一种基于多层次shapelet的时间序列数据分类方法在审

专利信息
申请号: 202010696976.2 申请日: 2020-07-20
公开(公告)号: CN111814897A 公开(公告)日: 2020-10-23
发明(设计)人: 丁琳琳;脱乃元;曹鲁杰;张翰林;宋宝燕 申请(专利权)人: 辽宁大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 沈阳杰克知识产权代理有限公司 21207 代理人: 罗莹
地址: 110000 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多层次 shapelet 时间 序列 数据 分类 方法
【权利要求书】:

1.一种基于多层次shapelet的时间序列数据分类方法,其特征在于:其步骤为:

步骤1)时间序列数据的预处理:对原始时间序列使用SAX方法进行数据降维处理:

步骤2)时间序列初始子序列的获取:滑动窗口的方法来提取时间序列中的子序列集合,通过改变和调整窗口的大小,间接控制子序列的提取长度;

步骤3)多层次shapelet候选集的发现与提取:通过提出的多层次shapelet框架对候选集合进行过滤与合并,选择信息增益大的shapelet作为候选集;

4)Shapelet转换及分类器构建:

4-1)shapelet分类转换:首先,将初始的N条时间序列数据集合根据条数建立一个简单的初始化数据矩阵,同时将通过多层次框架方法得到的所有shapelet候选集合按照所归属时间序列的顺序进行矩阵生成;其次,根据初始N条时间序列集合与shapelet矩阵之间的多对多映射关系,进行欧式距离的相似度计算,得到每条时间序列的特征值,其中每个特征值的属性代表一个shapelet,每个属性的值是从shapelet到原始序列的距离;最后,将特征值构建成N条特征向量,完成时间序列数据集合的特征化向量表示;

4.2)在为时间序列建立完分类器之后,就对后续的训练样本数据放入分类器中进行训练,在训练过程中,ELM首先随机产生输入权重和隐层节点阈值,然后再根据训练数据计算SLFNs的输出权重。

2.根据权利要求1所述的一种基于多层次shapelet的时间序列数据分类方法,其特征在于:所述的步骤1)中,具体步骤为:

1.1)数据的归一化分段近似:采用0均值标准化方法将初始时间序列数据变化为均值为0、方差为1的数据集合;

1.2)处理后的数据进行字符化表示:将每个段中的平均值映射到高斯分布表中,高斯分布表的范围代表了时间序列降维的表示范围,根据初始化设置好的w参数指标、字母基r的大小以及分裂点β的范围进行字符化操作,完成符号聚合近似表示。

3.根据权利要求1所述的一种基于多层次shapelet的时间序列数据分类方法,其特征在于:所述的步骤2)中,具体步骤为:

首先,设置滑动窗口的大小,固定好每次提取子序列的长度和范围;其次,按照每次向右进1的原则滑动窗口,改变时间序列中窗口的位置,完成时间序列中不同位置的子序列提取;最后,调整并改变窗口的大小,完成所有不同长度子序列提取,并将提取的子序列存入集合中。

4.根据权利要求1所述的一种基于多层次shapelet的时间序列数据分类方法,其特征在于:所述的步骤3)中,具体步骤为:

3.1)基于k-means的初始子序列聚类:在提取出所有时间序列的子序列后,对候选子序列进行聚类,引入DTW距离度量计算方式作为衡量指标,对子序列集合进行的过滤和筛选,DTW距离代表了子序列形状的相似程度,采用DTW算法将所有备选的shapelet候选集进行划分,使得在相同簇中的shapelet候选集合在形状上具有相似的特征;

基于DTW距离的shapelet相似性计算,设有两个不同的shapelet序列,X1={x1,x2,…xM},Y1={y1,y2,…,yN},首先计算距离矩阵之后计算累积距离矩阵Sij=Dij+min(Si,j-1,Si,j-1,Si-1,j-1)

3.2)聚类结果更新:在子序列候选集合通过k-means方法与DTW方法的结合来进行候选集的聚类后,对得到的聚类结果进行实时性的迭代和更新,以确保子序列的聚类结果满足形状近似的特点,从而实现后续shapelet候选提取中明确的类别化;

3.3)建立多层次shapelet提取框架。

5.根据权利要求4所述的一种基于多层次shapelet的时间序列数据分类方法,其特征在于:所述的步骤3.3)中,具体步骤为:

3.3.1)进行层次内候选集合并:首先,根据子序列聚类产生“堆”的情况,完成所有聚类子序列的层次划分;其次,通过候选集在层次中的内在“近似”关系完成候选集的整合,通过形状的近似特点进行筛选,形状相近的候选集合进行合并和整合,形状特点明显的候选集更具有区分能力,解释性更新,因此保留;运用DTW距离作为阈值或者给定阈值,距离小于阈值的两个候选集,说明其形状极为相似,保留接近阈值范围内的候选集进行消减;最后,在每个层次都得到精简后的shapelet候选集;

3.3.2)进行层次间候选集合并:在SH-ELM模型中使用Levenshtein Distance算法进行多层次间候选集的合并,对于两个字符串a、b,长度分为为|a|、|b|,它们的LevenshteinDistance计算公式如下:

其中当ai=bj时,leva,b(i,j)值为0,否则leva,b(i,j)值为1,leva,b(i,j)就是的前i个字符与b的前j个字符的编辑距离,a、b的相似度Sima,b表示为:

Sima,b=1-leva,b(|a|,|b|)/max(|a|,|b|)

在候选集合并的过程中,对框架内相邻的层次中的候选集进行连接计算,通过使用Levenshtein Distance方法借助字符化的近似距离计算来对层次之间的候选集合进行比较和筛选;

3.3.3)多层次top-k候选集确认:通过信息增益的指标来作为度量分类能力的评判标准,选取单个层次中信息增益最大的k个shapelet,top-k shapelet来完成提取任务;对提取出来的候选集进行最终确认,使用提取出来的候选集合完成候选时间序列的分类任务。该流程即为从数据集中抽取k个最好shapelets的过程;在初始时,k-shapelet集合为空,之后在每一层次中得到一个候选shapelet序列,都需要计算该序列与所在层次的距离;在得到距离值,计算该序列所对应的信息增益大小,根据信息增益的大小进行排序,并完成最佳shapelet的候选替换,最后输出最佳的k-shapelet。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010696976.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top