[发明专利]一种基于分段形态表示的工业序列数据缺失的填补方法有效

申请号：	201310113824.5	申请日：	2013-04-02
公开（公告）号：	CN103246702A	公开（公告）日：	2013-08-14
发明（设计）人：	刘颖;赵珺;盛春阳;徐世坤;王伟	申请（专利权）人：	大连理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	大连理工大学专利中心 21200	代理人：	梅洪玉
地址：	116024***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分段形态表示工业序列数据缺失填补方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于信息技术领域，涉及到序列非等间距分割、序列形态表示、寻找相似序列和回声状态网络建模理论，是一种基于分段状态表示的工业序列数据缺失的填补方法。本发明利用工业现场已有的历史数据，首先对待填补的目标序列进行非等间距分割，然后通过幅值水平，变化趋势以及波动大小三个特征量对分割后序列进行形态表示，进一步计算序列形态表示相似系数，利用计算的相似系数来寻找相似序列，最后利用机器学习的方法建立数据缺失填补模型，实现对缺失数据序列的填补。从而有效地保障现场调度人员所需数据的完整性和可靠性。此方法在不同工业领域中均可有广泛的应用。

背景技术

随着信息技术的发展，尤其是大数据时代的到来，数据逐步成为了解决很多工业问题的关键，如近些年发展的基于数据的优化、控制、调度、决策和故障诊断等。基于数据的相关研究前提是有完整的数据，然而由于生产过程工艺的复杂性、采集过程故障、系统传输偏差、数据存储异常等原因，现场采集到的数据经常出现不同程度的缺失情况，这样很容易导致相关工作人员在制定优化、控制和调度时的误判，做出错误的决策，影响正常的生产运行。因此，工业现场急需一种对缺失数据进行填补的科学方法。

常见的数据填补问题通常分为两类：一是对多变量问题中的某个变量的值的缺失的填补，目前对该类数据填补的研究很多，主要是借助于其它几个变量的值来估计某一变量的缺失值，如对日常降水量数据缺失的填补（C.Simolo,M.Brunetti,M.Maugeri,et al.(2010).Improving estimation of missing values in daily precipitation series by a probability density function-preserving approach.International Journal of Climatology,30,1564–1576），对基因表达序列数据缺失的填补（X.B.Zhang,H.N.Wang,X.F.Song,H.P.Zhang.(2007).A non-parametric imputation method for microarray missing values.Computers and Applied Chemistry,24(12),1611-1616），对微阵列矩阵中的数据缺失的填补（T.Aittokallio.(2010).Dealing with missing values in large-scale studies:microarray data imputation and beyond.Brief Bioinformatics,11(2),253-264）；二是对序列数据缺失的填补，对该类序列数据缺失进行填补目前是非常少见的。

工业数据中存在着大量的序列数据，如典型的与时间相关的序列数据，在数据填补领域属于序列数据缺失填补，其填补难点在于：1）序列形态的表示；2）样本序列与目标序列的相似度计算；3）建立有效的数据填补模型。目前还缺少一种有效的方法能够同时解决上述所示的三个问题。

发明内容

本发明要解决的技术问题是工业序列数据缺失的填补问题。为解决上述这一问题，对某工业现场提供的数据进行分析，首先对待填补的目标序列以及样本序列进行非等间距分割；然后通过幅值水平、变化趋势以及波动大小三个特征量对分割后序列进行形态表示，进一步计算序列形态表示相似系数，利用计算的相似系数寻找相似序列；最后利用机器学习的方法建立数据缺失填补模型，实现对缺失序列数据的填补。利用该发明可以准确地对不同程度缺失的工业序列数据进行有效填补，从而为现场工作人员进行优化、控制和调度等工作提供决策支持。

本发明技术方案的整体实现流程如附图1所示，具体步骤如下：

1.建立历史数据库：从现场实时数据库中读取能源数据，将数据序列划分为与目标序列等长的样本序列；

2.序列非等间距分割：对目标序列和样本序列进行非等间距分割；

3.筛选训练样本：对分割好的序列进行形态表示，计算目标序列与样本序列的相似度，筛选相似度较高的样本作为训练样本；

4.建立基于机器学习方法的数据填补模型：训练样本中已知索引数据点为网络输入，缺失索引数据为网络输出，训练缺失数据模型；

5.进行数据填补：目标序列作为填补模型输入，获取填补序列。

本发明的效果和益处是：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310113824.5/2.html，转载请声明来源钻瓜专利网。