[发明专利]一种针对带标签时间序列数据的补全方法有效
申请号: | 201811255098.X | 申请日: | 2018-10-25 |
公开(公告)号: | CN109299170B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 吴思萌;汪亮;陶先平;吕建 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/248 | 分类号: | G06F16/248;G06F16/22 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 标签 时间 序列 数据 方法 | ||
本发明公开了一种针对带标签时间序列数据的补全方法,主要用于解决真实场景中常见的时间序列数据连续一段整列丢失问题,该数据补全方法核心思想包括两方面:第一,运用Hankel矩阵化技术将低维时间序列组织成高维形式,引入高阶时间依赖关系,在此基础上利用矩阵分解的方法补全缺失数据,从而有效克服数据整列丢失问题;第二,在算法整体框架中建模标签信息,利用标签信息支持数据补全过程,使补全的数据更符合真实场景。通过合理运用上述两方面的思想,本发明提出的方法能够在真实的时间序列数据缺失场景中取得较好的补全效果;同时,该方法的可解释性较强,还可以在该方法的基础上进行较多扩展,从而有效运用于各类真实场景中。
技术领域
本发明涉及针对时间序列的数据采集与传输的计算机应用方法,尤其属于一种针对带标签时间序列数据的补全方法。
背景技术
随着计算机智能感知技术、计算能力以及存储技术的不断发展,每天都能获取到十分庞大的数据量,在这些数据中有很多知识是值得我们去挖掘的。时间序列数据是一种按时间顺序进行观测得到的观测数据集合,其在很多不同种类的应用中都广泛出现,例如:行为捕捉、传感器网络、天气预测、金融市场建模等等。对于时间序列数据,常见的分析处理任务包括预测/回归、异常值检测、模式识别等等,但这些任务通常都是建立在数据完整的基础上的。
然而在真实场景中,由于采集与传输中常见的因设备性能限制、网络传输错误、用户隐私保护等原因造成的数据缺失不可避免,因此针对时间序列缺失数据补全方法的研究成为了一个较为热门的话题。根据调研发现,时间序列数据丢失往往以连续一段整列丢失的形式出现,尤其对于一维时间序列数据而言,一个点的数据丢失也就意味着整列数据丢失,这个问题对于缺失数据补全是一个很大的挑战。在缺失数据补全方面,现存一些利用矩阵分解技术、线性动态系统的相关工作,然而它们都不能很好的应对数据连续一段整列丢失的情况,尤其是在数据丢失横跨较长一段时间时,这些相关工作的补全效果并不佳,造成这个问题的主要原因有两点:
1)过于依赖初始化过程。基于线性动态系统进行数据补全的相关工作,通常的做法是首先利用一些简单的方法(如:线性插值法)来初始化缺失数据,之后再利用卡尔曼滤波和平滑来调整填充的缺失值。然而这种方式在数据稀疏的情况下效果并不好,因为最初利用简单方法填充的值可能会对之后的最优化过程产生误导。除此之外,对于基于矩阵分解的相关工作,由于原始数据存在整列丢失的情况,这将导致分解出来的矩阵在相应列无法学习。
2)不能表达外界因素对于时间序列的影响。具体而言,现有工作对于数据补全任务的处理思想大都是基于数据驱动的,即探索时间序列数据的时间平滑性和空间关联性,其中时间平滑性表达的是时间序列数据前后时间片的数据相似,空间关联性表达的是同一时刻不同维度的值之间的依赖关系。在这样一种思路下,一旦计算模型建立好,数据补全的过程就完全基于时间序列本身的数据特性了。然而在真实场景中,由于外界因素的影响,时间序列数据往往是具有不确定性的,因此在处理数据连续一段整列丢失,尤其是在数据丢失横跨较长一段时间时,相关工作都不能计算出贴合实际的值。
时间序列数据连续一段整列丢失的情况在现实场景中很常见,然而现有相关方法在应对该问题时并不能取得较好的效果。
在对现有时间序列数据集展开了深入的分析与研究后,发现了有助于解决该问题的以下两点特性:
(1)高阶时间关联关系:在时间序列数据中不仅包含时间平滑性这种简单的性质,还存在着更为复杂的高阶时间关联关系,即数据在某些时间跨度上呈现出诸如相似性之类的关联关系;
(2)标签信息和时间序列数据间具有较强的关联关系:现有时间序列数据集中很大一部分是包含标签信息的,例如一份统计纽约市每日发生车祸数量的数据集中就包含了当日天气、路况等额外信息,我们把这些额外信息定义为标签信息。标签信息和时间序列数据间具有较强的关联关系,例如下雪天对应发生的车祸数量往往较多,可以说标签信息一定程度上描述了外界因素,倘若合理的利用该信息,对于数据补全将提供较大的帮助。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811255098.X/2.html,转载请声明来源钻瓜专利网。