[发明专利]一种面向智能电网的缺失数据填充方法在审
申请号: | 201410344391.9 | 申请日: | 2014-07-18 |
公开(公告)号: | CN104133866A | 公开(公告)日: | 2014-11-05 |
发明(设计)人: | 祁建;周红林;王青国 | 申请(专利权)人: | 国家电网公司;江苏省电力公司;江苏电力信息技术有限公司;江苏省电力公司信息通信分公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/06 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 陈扬 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 智能 电网 缺失 数据 填充 方法 | ||
技术领域
本发明属于智能电网术领域,涉及一种缺失值填充方法,特别是一种面向智能电网的缺失数据填充方法。
背景技术
由于电力行业数字化技术的广泛应用,电力系统中各种数据正以前所未有的速度剧增,数据类型也越来越复杂。海量多源异构数据的深度分析和利用,对于电力企业盈利与控制水平的提升有很高的价值。有电网专家分析称,每当数据利用率调高10%,便可使电网提高20%~49%的利润。而数据质量的高低对数据分析的准确性和实时性有直接的影响。这是因为由于信息、技术、流程等种种因素,电力系统中数据存在着种种质量问题,如数据不完整、不一致、冗余,程序逻辑错误等,其中至关重要的就是数据缺失问题。
数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘与分析来说,数据缺失可能造成以下影响:(1)系统可能丢失大量的有用信息;(2)系统中所表现出的不确定性可能更加显著;(3)系统产生不可靠的输出。因此在电网数据分析和利用中,为了能够更加充分地利用已经搜集到的数据,对缺失数据进行处理是非常必要的。
针对电网系统中存在的数据缺失问题,综观已有缺失数据填充方法,K-means填补算法是一种比较常用的方法,该方法的主要思想是:首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇,并使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异;然后计算缺失数据集中各缺失数据与各聚类簇的聚类,并将该缺失数据分到对应的聚类簇中;最后采用不同核函数对缺失数据进行填充。但是该算法针对电网系统缺失数据填充的准确性不甚理想,尤其是对于噪声点和离群点的处理方面,仍待进一步提高。
发明内容
针对电网系统缺失数据填充数据准确性不甚理想的问题,本发明的目的是提供一种面向智能电网的缺失数据填充方法,该方法首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D,D由完整数据子集Dc和缺失数据子集Di构成;然后对D进行聚类,形成N个紧密耦合的簇;最后根据聚类结果对缺失数据子集Di进行填充,得到填充结果Di’。
本发明的目的通过以下技术方案实现:
一种面向智能电网的缺失数据填充方法,其特征在于:该方法首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D,D由完整数据子集Dc和缺失数据子集Di构成;然后对D进行聚类,形成N个紧密耦合的簇;最后根据聚类结果对缺失数据子集进行填充,得到填充结果。具体步骤如下:
1)将源系统数据集中的部分不完整数据打回让源系统重新生成,这些数据包含有较多缺失值的记录和较少完整值的属性;通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录;如果某个属性的完整属性值占全部记录的比例低于50%,也需要打回该属性;
2)对重新生成的数据集D将重新生成的数据集分成完整数据子集Dc和缺失数据子集Di,并对D进行K-Means聚类,从而产生紧密耦合的K个小簇,这些小簇能够将噪声和离群点与其他点有效地分离开来,然后通过动态合并的方式不断地合并这些小簇,在D上产生N个紧密耦合的簇;
3)根据聚类后的结果对缺失数据子集进行填充,在填充过程中,如果簇中含有完整属性的数据,利用该簇相应的属性均值来填充该记录的缺失值。如果簇中没有完整属性的数据,则根据完整数据子集Dc的平均值和方差,基于正态分布数据分发器来对这些缺失值进行填充。
本发明在对数据集进行聚类时,采用基于动态建模的K-means聚类算法,该算法采用K-means算法来划分数据集,并基于自相似性概念合并簇。
对完全数据集D进行聚类的具体步骤如下:
步骤一:选择K个点作为初始质心;
步骤二:根据欧几里得距离(Euclidean Distance)将每个点指派到最近的质心,形成K个小簇,K值一般选取为数据集中总记录条数的10%-20%,欧几里得距离的计算公式如公式(1)所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;江苏省电力公司;江苏电力信息技术有限公司;江苏省电力公司信息通信分公司,未经国家电网公司;江苏省电力公司;江苏电力信息技术有限公司;江苏省电力公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410344391.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:软件标签的生成方法和装置
- 下一篇:一种广告过滤方法以及装置