[发明专利]时序数据的模体识别方法和装置在审
申请号: | 201310681366.5 | 申请日: | 2013-12-12 |
公开(公告)号: | CN104714953A | 公开(公告)日: | 2015-06-17 |
发明(设计)人: | 刘博;陈成;李建强 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张耀光 |
地址: | 日本国*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时序 数据 识别 方法 装置 | ||
技术领域
本发明涉及时序数据分析领域,特别涉及一种时序数据的模体识别方法和装置。
背景技术
随着统计学的发展,越来越多的数据呈时序数据的形式。其中,时序数据是指按照时间顺序记录的数据。例如,股票市场的每日波动数据、每年的降雨量数据、每年的交通状况数据等。在这些时序数据中,存在着一些重复出现的相似子序列,这些重复出现的相似子序列被称为模体。由于时序数据中的模体对科学研究有十分重要的意义,因此,如何在大规模的时序数据中识别出模体,是研究时序数据问题的关键。
在现有的时序数据的模体识别方法中,常见的识别方法有两种:精确识别方法和概率识别方法。对于精确识别方法,文章Exact Discovery of Series Motifs,A.Mueen.SIAM International Conference on Data Mining-SDM,pp.473-484,2009提出扫描时序数据中所有的子序列,并计算扫描到的每两个子序列之间的欧氏距离,进而将欧氏距离满足条件的每两个子序列作为从该时序数据中识别出的模体。
对于概率识别方法,文章Probabilistic discovery of time series motifs,Chiu B,Keogh E,Lonardi S,Proceedings of the ACM IGKDD international conference on Knowledge discovery and data mining.ACM,2003:493-498提出将时间序列划分为一系列的数据子序列后,采用SAX(Symbolic Aggregate approXimation,符号集近似)方法将划分后的数据子序列转化为符号子序列,再对每个符号子序列进行随机投影,记录每个符号子序列与其他符号子序列在投影位置上具有相同符号的次数,将记录的次数中达到一定阈值的次数所对应的数据子序列作为识别出的模体。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于上述精确识别方法需要计算扫描到的每两个数据子序列之间的欧氏距离,当扫描到的数据子序列的数量很大时,计算扫描到的每两个数据子序列之间的欧氏距离的计算量很大,致使识别模体的速度较慢。
而上述概率识别方法通过符号化及随机投影将时序数据进行了离散化和降维处理,导致一些可能成为模体的时序数据信息的丢失,并使得存在较大位移差且原本在需要分析的时序数据中重复出现的概率不高的数据子序列可能被识别为模体,因此,概率识别方法所识别出的模体的准确性不高;另外,当一个符号子序列与其他符号子序列在投影位置上具有相同符号的次数达到一定阈值时,对应的数据子序列才被识别为模体,导致与其他符号子序列在投影位置上具有相同符号的次数未达到阈值的有些模体无法被识别出来,因而通过概率识别方法识别出的模体数量有限,进一步降低了模体识别的准确性。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种时序数据的模体识别方法和装置。所述技术方案如下:
第一方面,提供了一种时序数据的模体识别方法,所述方法包括:
获取需要分析的时序数据,将所述需要分析的时序数据分割成至少两个数据子序列,并对每个数据子序列进行符号化处理,得到至少两个符号子序列;
对所述符号子序列进行预设次数的随机投影,并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数;
计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离,将距离小于第一预设距离的两个数据子序列作为识别出的标准模体;
对每个预设范围内的标准模体进行聚类,得到每个预设范围内的一个中心数据子序列,并根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差;
缩小所述阈值,并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方差的数据子序列作为识别出的模体。
结合第一方面,在第一方面的第一种可能的实现方式中,所述得到至少两个符号子序列之后,还包括:
将所述符号子序列中至少两个连续的符号相同的符号子序列进行压缩,得到压缩符号子序列;
所述对所述符号子序列进行预设次数的随机投影,包括:
对所述符号子序列中未压缩的符号子序列进行预设次数的随机投影。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社;,未经日本电气株式会社;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310681366.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置