[发明专利]数据清洗方法、装置及服务器有效
申请号: | 201910046106.8 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109783486B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 胡阳;奚芸华;潘晨阳 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 邓超 |
地址: | 102206*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 清洗 方法 装置 服务器 | ||
本发明提供了一种数据清洗方法、装置及服务器,涉及风电场数据处理的技术领域,该方法包括:获取实测数据样本;在Copula空间中建立风速和功率的联合概率分布;将联合概率分布的取值范围均匀划分成多个概率区间;分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。本发明提供的数据清洗方法、装置及服务器,能够基于概率空间对实测样本数据进行清洗,得到较为精细的数据清洗结果,同时,也有助于保证剩余数据的有效性及数据量,为后续数据分析奠定了坚实基础。
技术领域
本发明涉及风电场数据处理的技术领域,尤其是涉及一种数据清洗方法、装置及服务器。
背景技术
对于风电场的SCADA(Supervisory Control And Data Acquisition,数据采集与监视控制系统)系统运行数据而言,异常数据广泛存在。从异常数据的形成原因及规模上来看,主要分为堆积型异常数据和稀疏型异常数据。前者通常是由长时间的异常运行产生,如长期限功率运行、突发或缓变故障、性能劣化等。后者通常是由环境干扰、测量噪声和运行控制等原因产生,如传输信号干扰、风机机械振动、风机控制器切换等。此外,SCADA系统数据记录失真同样会形成部分异常数据。因而,从异常数据规模上来看,堆积型异常数据量通常较大,较易识别,但识别精度通常不高;稀疏型异常数量通常较小,易与有效数据混淆故识别难度大,需要高精度的识别算法。
异常数据对所有数据驱动的应用场景,如风功率曲线建模、风电理论功率计算、风机或风电场运行性能评价、风机或风电场运行状态监测及故障诊断等均有较大影响。因而,一般情况下,在根据聚类算法、先验知识等剔除较易识别的堆积型异常数据后,要视应用场景的需求,进一步精细化剔除稀疏型异常数据。而目前,风电异常数据的识别大多针对堆积型异常数据进行,对稀疏型异常数据的识别算法却很少,导致难以对稀疏型异常数据进行处理。
发明内容
有鉴于此,本发明的目的在于提供一种数据清洗方法、装置及服务器,以缓解对于稀疏型异常数据难以处理的技术问题。
第一方面,本发明实施例提供了一种数据清洗方法,包括:获取实测数据样本,其中,实测数据样本为风电场中风机的风速和功率的实测运行数据;在Copula空间中建立风速和功率的联合概率分布,其中,联合概率分布的取值范围为[0,1]区间;将联合概率分布的取值范围均匀划分成多个概率区间;分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述在Copula空间中建立风速和功率的联合概率分布的步骤包括:采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据边缘概率分布建立风速和功率的经验Copula分布,以得到风速数据和功率数据在Copula空间的概率散点分布。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述方法还包括:在Copula空间中,计算概率散点分布对应的评价系数,以对概率散点分布包括的多个概率散点的集中程度进行评价。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述数据清洗的算法为四分位法;上述分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗的步骤包括:对于每一个概率区间,分别定义概率区间内的分位点Q1、Q2和Q3,其中Q2为中分位点;其中,基于分位点,四分位法的四分位距表示为:LIQ=Q3-Q1;基于四分位距计算数据清洗的清洗区间,根据清洗区间在每个概率区间内对实测数据样本进行四分位法数据清洗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910046106.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置