[发明专利]一种时序数据清洗方法及系统有效
申请号: | 201510064730.2 | 申请日: | 2015-02-06 |
公开(公告)号: | CN104679834B | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 金学波;窦超 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时序 数据 清洗 方法 系统 | ||
技术领域
本发明涉及一种时序数据清洗方法及系统,属于数据处理技术领域。
背景技术
数据分析是目前人工智能和数据库领域研究的热点问题,数据分析过程中的第一个步骤就是数据预处理,数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。
据统计,在整个时序数据分析的过程中,数据预处理占到了整个工作量的60%,其重要性可见一斑。其原因在于,原始时序数据往往带有一定的野点和高频噪声,因为现实世界的数据往往是不完整的、含噪声的和不一致的,真实的数据趋势湮没于野点及噪声之中,若无法有效地去除噪声及野点,对后端的分析,如预测、控制、建模等都将产生重大的影响,因此,实际时序数据分析前的数据预处理显得尤为重要。
目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。这些数据处理技术在数据挖掘之前使用,大大提高了数据分析模式的质量,降低实际分析所需要的时间。数据清理是处理数据中的遗漏、野点及高频噪声,目前有以下几种方法:
①忽略缺少数据或野点;
②人工填写空值或去除野点,该方法很费时,并且当数据集很大、缺少很多值时或存在很多野点时,该方法可能性不大;
③使用一个全局常量填充空缺值或野点;
④使用数据平均值填充空缺值或野点;
⑤使用与给定数据同一类的所有样本的平均值;
⑥使用最多可能的值填充空缺数据,可以用回归分析、判定树等方法来预测具有同一属性的空缺值,由于使用现有数据的多数信息推测空缺值,更大机会地保持了数据间的联系;
⑦使用分箱的方法将存储的值分布到一些箱中,用箱中的数据值来局部平滑存储数据的值,具体可以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑;
⑧找到恰当的回归函数来平滑数据;
⑨使用聚类的方法将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为孤立点,孤立点模式可能是垃圾数据,也可能是提供信息的重要数据,垃圾模式将从数据库中予以清除。
发明内容
本发明所要解决的技术问题是,针对目前方法只能分步处理,分别处理缺省值、野点及噪声数据的缺点,提供一种用于去除原始数据中的野点和高频噪声以供下一步的数据分析的,基于Kalman滤波器和统计平均的时序数据清洗方法及系统。
本发明解决上述技术问题的技术方案如下:一种时序数据清洗方法,具体包括以下步骤:
步骤1:采集一条原始数据,所述原始数据中包括多个原始时序数据;
步骤2:对原始时序数据进行随机采样和估计得到多条估计数据,对随机采样产生的空缺点补齐,获得多条补齐估计数据;
步骤3:按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;
步骤4:对每组排序数组进行处理获得一个对应的平均值数据,多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;
步骤5:输出均值序列,所述均值序列即为清除野点和高频噪声的数据。
本发明的有益效果是:本发明所述的时序数据清洗方法的主要工作集中一体式数据清理上,处理空缺值(丢失数据),去除野点并平滑噪声数据;并且处理结果中提供了数据的变化率,揭示了数据的变化特征,为很多利用数据变化率的数据分析方法提供了必要的数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述4具体包括以下步骤:
步骤4.1:取一组排序数组作为当前排序数组;
步骤4.2:计算当前排序数组中所有补齐估计数据的平均值获得平均值数据,并将当前排序数组中的最大值数据和最小值数据均替换为平均值数据,对当前排序数组重新排序,得到新最大值数据和新最小值数据;
步骤4.3:判断当前排序数组中的新最大值数据和新最小值数据是否均接近平均值数据;如果是,执行步骤4.4;否则,执行步骤4.2;
步骤4.4:采用平均值数据替换当前排序数组;
步骤4.5:判断是否还存在未替换的排序数组,如果是,执行步骤4.1;否则,执行步骤4.6;
步骤4.6:多组排序数组对应多个平均值数据,多个平均值数据构成均值序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510064730.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效资讯采集的方法
- 下一篇:对车牌号进行快速搜索的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置