[发明专利]一种针对带标签时间序列数据的补全方法有效
申请号: | 201811255098.X | 申请日: | 2018-10-25 |
公开(公告)号: | CN109299170B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 吴思萌;汪亮;陶先平;吕建 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/248 | 分类号: | G06F16/248;G06F16/22 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 标签 时间 序列 数据 方法 | ||
1.一种带标签时间序列数据补全方法,其特征在于:采用一个或多个传感器节点获取空气质量检测数据,运用Hankel矩阵化技术将空气质量检测数据的低维时间序列组织成高维形式,引入高阶时间依赖关系;在算法整体框架中建模温度、气压和风向标签信息,利用标签信息支持数据补全过程,使补全的数据更符合真实场景;
具体包括以下步骤:
1)将原始r,r≥1,维时间序列数据以及可能存在的标签信息组织成向量形式,数据序列表示为X=x1,x2,…,xT,xt对应t时刻的数据,t=1,2,…,T,xt∈Rd,T为数据序列的长度,d为数据的维度,其最长的连续丢失的时长为p;与X对应存在一个可选的标签序列,表示为TAG=l1,l2,…,lT,任意t时刻的标签lt,形式为一个类别符号;
2)在获取数据序列X后,针对X中连续丢失的长度为p的子序列进行补全时,先将X序列进行p阶的Hankel矩阵化,记为Hp(X);
所述获得Hp(X)的过程可以描述为X*=Hp(X)=[1,Lag,Lag2,…,Lagp]TX,其中上标T表示向量或矩阵转置,Lag为时间延迟算子,定义为Lag·xt=xt-1,Lagn·xt=xt-n;
所述获取的X*矩阵为一个p+1行T列的实数矩阵;
若数据序列X对应的标签序列TAG存在,则随机初始化行向量L∈R1*T,针对任意时刻t,行向量L的第t列元素L:,t表示t时刻标签对时间序列数据带来的影响;
对于TAG序列中出现的每种标签l,从L中提取出相应的列组成子矩阵Ll;
再运用p阶Hankel矩阵化技术将L分别组织成p+1行T列的矩阵L*=Hp(L);若数据序列X对应的标签序列TAG不存在,则L*为全0;
3)随机初始化两个矩阵U和V,其中U为一个p+1行r列的实数矩阵,V为一个r行T列的实数矩阵;
针对以下目标函数求解矩阵变量U、V、L*:
所述||·||2为矩阵的Frobenius范数的平方,UV项建模时间序列所包含的平滑趋势成分,L*项刻画的是由标签信息带来的外部影响,项表达的是同一种标签在不同时刻对时间序列产生的影响是相近的,项强调了数据内在平滑趋势的平滑性;||U||2+||V||2+||L||2为额外的正则化项,起到防过拟合的效果;α、β、γ是三个正实数,对应各分项的权值;基于该目标函数,运用随机梯度下降方法求解U、V、L*;
4)基于步骤3)中求解的U、V、L*,补全原始时间序列X中对应的缺失数据;
所述步骤1)具体包括以下步骤:
1.1)从数据集中分别导入时间序列数据以及标签信息,标签统一使用正整数替代字符串,不同时刻的同种标签对应于同一正整数,数据序列存储于d*T的向量X中,向量X中包含部分缺失值,标签序列存储于1*T的向量TAG中;
1.2)从向量X的第一个元素开始扫描,确定在X中出现的最长段数据连续丢失对应长度p;
所述步骤4)具体包括以下步骤:
4.1)确定原始时间序列X中缺失数据的位置,存储于向量W=[t1,t2,…,tn]中;
4.2)基于步骤3.2)中求解的U、V、L*补全X中缺失数据,具体公式如下:
X*矩阵中第i行,i∈[l,p+l],第tj-i+1 列元素都是与Xtj相对应的值,对以上元素求平均得到的结果用于最终补全Xtj。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811255098.X/1.html,转载请声明来源钻瓜专利网。