[发明专利]一种时序数据集的预处理方法及其应用在审
申请号: | 202111048055.6 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113947112A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 王晓玲;王若楠;李松敏;佟大威;乔天诚;郑雅致;陈一天 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 潘俊达 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时序 数据 预处理 方法 及其 应用 | ||
本发明提供了一种时序数据集的预处理方法及其应用,包括以下步骤:S1、获取时序变化的原始数据集;S2、对步骤S1中得到的原始数据集进行小波分解,得到低频数组和高频数组;S3:采用K‑means算法对步骤S2中得到的高频数组中的异常数值进行识别及处理,得到处理后的数据集;完成对时序数据集的预处理。相比于现有技术,本预处理方法可有效提高原始数据集的准确度,降低异常数据对后续分析的影响,解决了目前时序监测过程中数据存在连续异常和缺失而降低监测数据准确度的问题。
技术领域
本发明涉及环境工程气体污染研究领域,具体涉及一种时序数据集的预处理方法及其应用。
背景技术
气态污染物随时间动态变化,没有特定的规律性和稳定性,气体监测站在数据采集过程中常常受到环境变化和仪器性能等因素的影响,导致监测数据出现异常,使监测结果呈现出非平稳、非线性随时间变化的特征。在后续的数据分析中,异常数据易对模型的精度造成严重影响,对气体污染特征分析与研究带来了新的挑战。
对于异常数据,常见的处理方式是基于统计、距离、密度或聚类等方法识别离散点,如其中一种方法为在水质预测中使用线性插值法对异常值进行替换,使用Savitzky-Golay滤波器法进行降噪处理,经处理的数据集成为连续且平滑的时间序列;其中另一种方法为通过随机森林和完全集合经验模态分解法对感应传输温盐深测量仪数据进行预处理,将复杂的时间序列根据其变化特征细化为高低频基函数,进而对高频异常部分识别与去除,处理后信噪比提升约9dB,仪器测量准确性提升1.3倍。可见加强监测数据特征辨识和异常值处理,是气体污染研究的基础和前提,然而传统的数据预处理方法普遍将各个数据作为独立的对象看待,缺乏对数据时序关联性的分析和学习,即选用简单的线性插值或聚类法,直接对缺失数据进行补全或对异常数据进行替换,使得数据集预处理效果较差。并且,传统数据预处理方法具有较强的针对性,对后续分析任务的类型限制较多。
因此,一种尽可能准确地补全或还原序列中的缺失或异常数据的、更加通用的数据预处理方法成为当前建立气体监测数据库的关键问题。有鉴于此,本发明提供一种解决上述问题的技术方案。
发明内容
本发明的一目的在于:提供一种时序数据集的预处理方法,以解决目前时序监测过程中数据存在连续异常和缺失而降低监测数据准确度的问题,通过本发明的预处理方法,极大可能的补全或还原了序列中的缺失或异常数据,为具有波动性、时序性和复杂性的气体监测数据提供方法指导。
为了实现上述目的,本发明采用以下技术方案:
一种时序数据集的预处理方法,包括以下步骤:
S1、获取时序变化的原始数据集;
S2、对步骤S1中得到的原始数据集进行小波分解,得到低频数组和高频数组;
S3:采用K-means算法对步骤S2中得到的高频数组中的异常数值进行识别及处理,得到处理后的数据集;完成对时序数据集的预处理。
优选的,步骤S1中,所述原始数据集中至少包括2个因素变量。
优选的,步骤S2中,所述小波分解的函数包括haar小波、dbN小波、symN小波、coifN小波、biorN小波中的至少一种,N为分解的层数,N≥2。
优选的,dbN小波的函数公式为:
其中:a>0,为伸缩因子;v为平移因子;R为实数积分域;f(t)为分析信号函数;Ψa,v(t)称为基本小波。
优选的,所述高频数组至少有3组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111048055.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置