[发明专利]一种用于管网建模的时序数据清洗方法在审
申请号: | 201611011961.8 | 申请日: | 2016-11-17 |
公开(公告)号: | CN106649579A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 卢文宝;王飞;杨冉;虞国平;李志刚;刘佳 | 申请(专利权)人: | 苏州航天系统工程有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海申新律师事务所31272 | 代理人: | 闵东 |
地址: | 215000 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于管网建模的时序数据清洗方法,其步骤包括重复值查找去除、数据离散程度分析、异常值判定、曲线平滑去噪点和对缺失数据插值补齐。本发明引入变异系数以实现不同量纲的压力数据和流量数据标准化处理,可同时进行判定数组的离散程度并筛选。本发明先用三倍标准差法对于异常值数据查找处理再用最小二乘法拟合,极大减小了异常值对拟合结果的影响;同时用拟合函数对噪点数据平滑处理进一步的减少异常数据的存在,最小二乘法拟合能够满足不符合正态分布的数据处理;最后采用三次样条插值较线性插值能够使插入的数值更加平滑。本发明能够在将数据导入到模型计算之前对其进行预处理,以达到数据清洗的效果,为模型的计算提供保证。 | ||
搜索关键词: | 一种 用于 管网 建模 时序 数据 清洗 方法 | ||
【主权项】:
一种用于管网建模的时序数据清洗方法,其特征在于,包括以下步骤:步骤1)重复值筛出;利用结构化查询语言选取所需时间段的数据,同一监测点位的数据作为一组,进行重复值查找,并删除相同时间点的重复值;步骤2)离散程度分析;批量分别计算不同组数据最大值Xmax、最小值Xmin、平均值μ、标准差σ和变异系数CV,其中CV=σ/μ,通过标准差σ和变异系数CV来分析数据的离散程度,通过变异系数CV的处理可将不同量纲的流量和压力数据同一批次处理;并对变异系数CV设定阈值,当变异系数大于所设定的阈值时,则判定该监测点位的数据为无效数据,并进行删除,不参与模型计算;步骤3)异常值判定;通过三倍标准差法确定上下限值,即正常值X为,确定上限值为,确定下限值为,对于不符合此范围的值均为异常值进行剔除;步骤4)平滑曲线去噪点;对于已去除异常值的各组监测点数据采用最小二乘法拟合平滑曲线,首先确定一个函数逼近原函数;设近似函数为,函数值与观测值之差称为残差,用残差来衡量近似函数的好坏,具体方法为:根据已知数据点,先利用MATLAB解方程组,得到待定系数和拟合函数;再利用拟合函数值代替曲线噪点值,达到曲线平滑的效果;进一步的,可将替换噪点值后拟合函数值再次进行拟合,重复上述步骤直至残差满足精度要求;步骤5)对缺失值进行插值处理;采用三次样条函数对缺失值进行插值,通过上述步骤描述处理监测的时序数据重复值、缺失值、异常值以及离散度较大的序列数据;在实际建模过程中进行数据处理时,先通过最小二乘法拟合出最逼近观测值的函数,总体把握数据的趋势走向,同时甄别步骤3)中未能通过三倍标准差发去除的异常值并剔除,减小误差的存在;在实际导入模型数据时,再利用局部分段的数据,采用三次样条曲线插值法将缺失值及异常值剔除的部分进行补齐,以防止拟合曲线数据的失真,同时保留了原合理的观测值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州航天系统工程有限公司,未经苏州航天系统工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611011961.8/,转载请声明来源钻瓜专利网。