[发明专利]一种海量时间序列的分布式索引方法在审
申请号: | 201810090501.1 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108319678A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 郭棋林;周向东;庞悦;曹满亮;陈海波;郭乃网;苏运;田英杰;张勇;凌平 | 申请(专利权)人: | 复旦大学;国网上海市电力公司;华东电力试验研究院有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵志远 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间序列 索引树 分布式索引 构建 索引 索引树结构 运行效率 存储 查询 | ||
本发明涉及一种海量时间序列的分布式索引方法,包括以下步骤:1)iSAX编码:获取全部原始待索引的时间序列,并对每个时间序列进行iSAX编码,获取对应的iSAX字表示,作为索引树中的每个时间序列对应的路径;2)构建索引树:将每个时间序列的iSAX字表示作为索引树中的每个时间序列对应的路径,并根据每个时间序列对应的路径进行索引树结构的构建,对建好的索引树进行存储和查询。与现有技术相比,本发明具有运行效率高、索引精确等优点。
技术领域
本发明涉及电力数据检索领域,尤其是涉及一种海量时间序列的分布式索引方法。
背景技术
在海量高维时间序列数据集上的相似性查询往往效率低下,为了提升相似性查询的效率,往往会首先对时间序列进行降维表示,之后再在该表示上建立索引。时间序列的表示主要是为了能够在降低维度的同时,尽量保留信息。总的来说可以分为基于时间域的分割的表示,基于变换的表示,符号化表示以及二进制表示。
基于时间域分割的表示主要思想是通过对时间序列分段近似来获得一个维度相对较低,但同时又能尽可能保持信息的表示。主要的方法有分段聚集近似(PAA),原始的PAA采用均值近似的方法,会损失很多信息,比如中位数等等,如果段跨度比较大,损失的信息会更多,近似会变的不合理。因此很多研究用来改善原始的PAA。为了防止有的段跨度太大或太小,自适应分段常量近似(APCA)可以近似方法可以作用在不同长度的分段上。其他的改进方法比如RPAA,PLAA等一些PAA的变种能够解决信息丢失的问题。
单纯依赖这些表示方法来建立索引是困难的,比如小波变换方法有多分辨率的属性,但是只能用于长度为2的幂的时间序列。另外,基于变换和分段近似的表示方法都是实数值的,限制了能应用于这些表示的算法和数据结构。基于这些考虑,符号表示法成为了一个发展的方向。
很多研究人员希望通过符号表示的方法,将文本处理和生物信息学上的丰富的数据结构和算法迁移过来。然而,符号表示法在历史上一直存在两个问题,第一其无法降低时间序列的维度,而很多算法在高维情况下会失效或者低效。第二,虽然仍然可以在符号表示之后的时间序列上定义距离度量,但是却跟原始时间序列上的距离度量很难建立联系。
符号聚集近似(SAX)是一种能够解决上述两个问题的表示方法。SAX的表示方法建立在PAA的基础之上,其将分段近似的后表示中每一段的值映射到一个符号。具体的方法是首先归一化,需要一个参数确认分位点的数量,之后将每段的值映射到标准正态分布的各个分位区间。SAX表示借助了PAA的优势也达到了对时间序列降维的效果。
SAX的处理步骤如下:
(1)将原始时间序列归一化,使其均值为0方差为1,如图1所示;
(2)对归一化的时间序列使用PAA近似,分段数为w,如图2所示;
(3)对每一段的均值离散化成符号,下图基数为2,即只选择二分点,如图3所示。
表1是在选定基数a后各个分裂点的数值,基数等于想要将时间序列y轴分割成多少段。在基数为2的时候,分裂点只有一个即y=0。随着基数变大,分裂点也变多,但是两个相邻分裂点的区域概率是相等的,如果基数为a,分裂点为a-1,分成a个区间,每个区间的概率均为1/a。
表1选定基数a对应的各个分裂点的数值
表2标准正态分布上分裂点查找表(SAX字符集基a:2~12)
表2标准正态分布上分裂点查找表
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种海量时间序列的分布式索引方法。
本发明的目的可以通过以下技术方案来实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;国网上海市电力公司;华东电力试验研究院有限公司,未经复旦大学;国网上海市电力公司;华东电力试验研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810090501.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:动态变化的网络关系图的对齐方法
- 下一篇:一种主键的生成方法及装置