[发明专利]基于窗口的流式数据缺失处理方法有效
申请号: | 201810215615.4 | 申请日: | 2018-03-15 |
公开(公告)号: | CN108650065B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 沈中;秦超;杨清海 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | H04L1/18 | 分类号: | H04L1/18;H04L12/807;G06K9/62 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 窗口 数据 缺失 处理 方法 | ||
本发明属于信息检索及其数据库结构技术领域,公开了一种基于窗口的流式数据缺失处理方法,包括:输入需要处理的含有缺失数据的数据流;判断流式数据是否缺失;动态滑动窗口评估;窗口锁定;不完备信息处理;输出处理后的完备数据流结果。通过对流式数据提供滑动窗口,根据数据流的大小动态调整窗口大小;利用数据内部的时间和空间特性对缺失数据进行填补,对流式数据的缺失填补。本发明具有分类精度较高,运行时间复杂度低,计算资源利用率高等特点,有效的克服了现有处理方法存在的方式单一,时空复杂度高等问题。
技术领域
本发明属于无线通信、信息检索及其数据库结构技术及领域,尤其涉及一种基于窗口的流式数据缺失处理方法。
背景技术
现有技术一提出采用三阶段法进行填充,第一阶段特征挑选阶段即挑选具有缺失数据的特征和完备数据特征,然后利用K最近邻方法填充,最后利用贝叶斯定理进行后验校正。但是利用K最近邻方法本身具有一定缺陷,参数的选取对结果的影响很大,可能由于K值的选取不合适而造成结果误差较大,而且K最近邻方法计算复杂度高在流式数据处理过程中会造成很大时延,同时因为使用贝叶斯定理需要数据的统计特性,而在流式数据的情况下,无法精确获得数据的统计结果,因此该方法不适用于具有流式数据的缺失处理。现有技术二利用分类器方法来对数据进行分类,然后基于同类数据中的相关性,对同一类中的缺失数据利用该类数据集数据均值进行填充,从而提高缺失数据处理精度。但该方法利用的分类器方法是基于不相关数据来进行,即具有不相关属性的一些数据才可以进行分类,如果数据集内部数据的关联性很大,即每种数据之间都是关联的,那么该方法就无法将它们分开,因此就无法进行填充。传感器网络中的数据本身就存在时间和空间相关性,对同一环境数据进行感知时,各个传感器获得的数据内部具有相关,利用该方法无法将它们分类开,因此在此场景之下该方法不适用,而且分类器方法本身存在一个分类的过程,该过程耗时计算量大,在面对流失数据时同样会存在处理延时较大的问题,因此该方法不适用于流式数据处理。
(1)采用三阶段法进行填充形式单一,无法解决多重缺失填补问题,同时无法满足流式数据处理需要的低时延的条件。
(2)利用分类器来分类并利用分类后的数据进行缺失数据填充,该方法无法解决具有内部数据属性之间具有较关联大关系的数据的分类问题
(3)现有技术主要针对静态数据集的数据填充,在面对流式数据的缺失处理问题时,其方法在计算时时间复杂度和空间复杂度高,同时没有解决数据流的流量控制问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810215615.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置