[发明专利]一种基于相似工况的时间序列压缩存储方法及系统在审
申请号: | 201711320722.5 | 申请日: | 2017-12-12 |
公开(公告)号: | CN108062376A | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 王建民;黄向东;江天;龙明盛;王晨 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似 工况 时间 序列 压缩 存储 方法 系统 | ||
本发明提供一种基于相似工况的时间序列压缩存储方法,包括:将时间序列按照时序划分为多个数据窗口,每个数据窗口包括预设数量个数据点,所述数据窗口包括未存储的第一数据窗口和已存储的第二数据窗口集合;基于预设的特征函数,计算所述第一数据窗口的特征值;基于所述第一数据窗口的特征值,在所述第二数据窗口集合中,确定与所述第一数据窗口特征距离最小且所述特征距离小于预设阈值的第二数据窗口;基于所述第二数据窗口,对所述第一数据窗口中的每个数据点进行差值压缩存储。本发明提供的一种基于相似工况的时间序列压缩存储方法及系统,通过在已有的时间序列中查找相似序列进行差值存储,来提高时间序列的压缩比,进而降低存储成本。
技术领域
本发明属于计算机数据管理技术领域,更具体地,涉及一种基于相似工况的时间序列压缩存储方法及系统。
背景技术
时间序列是一系列带有时间戳、依时间按照升序排列、并且来自于同一个物体的数据,例如传感器数据。时间序列有以下的特点:总量大,在一个典型的应用场景,比如一个风电厂,可能存在上万台设备,而每一台设备又包含了近千个传感器。每个传感器每隔几秒就会采集一次数据;流式到达,为了保证数据的实时性,有的传感器每采集一个数据点就会立即发送,这就要求处理方拥有较强的流式处理能力;具有相似性,在封闭环境下的传感器,例如工厂、实验室中的监控设备,其外部环境经常受到严格的控制,传感器值主要受到进行中的工艺流程影响,而这些工艺流程都是周期重复的,因此传感器值也往往有着类似的性质。而在开放条件下,例如风力发电机,其主要受到季节因素影响,在一个较长的周期内,其传感器数据也会呈现出季节性。另外,处于同一个工作环境下的传感器,例如同一个机房的传感器,因为它们的工况类似,其数据也往往表现出相似性。
现在对于时间序列的压缩往往采用的是对传统数据的压缩方法,如GZip、BZip2等,或是只关注与某种数据本身的结构特征,例如差分编码,前导零编码。
但是现有技术采用的这些基于相似工况的时间序列压缩存储方法,并没有考虑到时间序列的这些性质,尤其是时间序列之间的相似性,使得存储时间序列的存储成本过高。因此,现在亟须一种基于相似工况的时间序列压缩存储方法来有效利用时间序列的相似特性,从而降低存储成本。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于相似工况的时间序列压缩存储方法,其特征在于,包括:
步骤S1、将时间序列按照时序划分为多个数据窗口,每个数据窗口包括预设数量个数据点,所述数据窗口包括未存储的第一数据窗口和已存储的第二数据窗口集合;
步骤S2、基于预设的特征函数,计算所述第一数据窗口的特征值;
步骤S3、基于所述第一数据窗口的特征值,在所述第二数据窗口集合中,确定与所述第一数据窗口特征距离最小且所述特征距离小于预设阈值的第二数据窗口;
步骤S4、基于所述第二数据窗口,对所述第一数据窗口中的每个数据点进行差值压缩存储。
其中,步骤S2后所述方法还包括:
若所述第二数据窗口集合中所有数据窗口与所述第一数据窗口的特征距离均大于预设阈值,则直接存储所述第一数据窗口。
其中,步骤S2具体包括:
基于预设的平均值函数,计算所述第一数据窗口中每个数据点平均值标量;
将所述平均值标量作为所述第一数据窗的特征值。
其中,步骤S3包括:
S31、基于预设的采样函数,在所述第二数据窗口集合中采样出目标数据窗口;
S32、基于目标数据窗口的特征值和所述第一数据窗口的特征值,计算每个采样出的目标数据窗口和所述第一数据窗口之间的特征距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711320722.5/2.html,转载请声明来源钻瓜专利网。