[发明专利]一种面向智能电网的缺失数据填充方法在审
申请号: | 201410344391.9 | 申请日: | 2014-07-18 |
公开(公告)号: | CN104133866A | 公开(公告)日: | 2014-11-05 |
发明(设计)人: | 祁建;周红林;王青国 | 申请(专利权)人: | 国家电网公司;江苏省电力公司;江苏电力信息技术有限公司;江苏省电力公司信息通信分公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/06 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 陈扬 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 智能 电网 缺失 数据 填充 方法 | ||
1.一种面向智能电网的缺失数据填充方法,其特征在于:首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D,D由完整数据子集Dc和缺失数据子集Di构成;然后对D进行聚类,形成N个紧密耦合的簇;最后根据聚类结果对缺失数据子集Di进行填充,得到填充结果Di’,具体步骤如下:
1)将源系统数据集中的部分不完整数据打回让源系统重新生成,这些数据包含有较多缺失值的记录和较少完整值的属性;通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录;如果某个属性的完整属性值占全部记录的比例低于50%,也需要打回该属性;
2)对重新生成的数据集D将重新生成的数据集分成完整数据子集Dc和缺失数据子集Di,并对D进行K-Means聚类,从而产生紧密耦合的K个小簇,这些小簇能够将噪声和离群点与其他点有效地分离开来,然后通过动态合并的方式不断地合并这些小簇,在D上产生N个紧密耦合的簇;
3)根据聚类后的结果对缺失数据子集进行填充,在填充过程中,如果簇中含有完整属性的数据,利用该簇相应的属性均值来填充该记录的缺失值;如果簇中没有完整属性的数据,则根据完整数据子集Dc的平均值和方差,基于正态分布数据分发器来对这些缺失值进行填充。
2.根据权利要求1所述的面向智能电网的缺失数据填充方法,其特征在于:步骤(2)中,对完整数据子集进行聚类时,采用基于动态建模的K-means聚类算法,该算法采用K-means算法来划分数据集,并基于自相似性概念合并簇。
3.根据权利要求2所述的面向智能电网的缺失数据填充方法,其特征在于:对完全数据集D进行聚类的具体步骤如下:
步骤一:选择K个点作为初始质心;
步骤二:根据欧几里得距离(Euclidean Distance)将每个点指派到最近的质心,形成K个小簇,K值一般选取为数据集中总记录条数的10%-20%,欧几里得距离的计算公式如公式(1)所示:
其中:X=(x1,x2,...,xn),Y=(y1,y2,...,yn);
步骤三:根据指派到簇的点,重新计算每个簇的质心;
步骤四:重复步骤二和步骤三,直到簇不发生变化;
步骤五:采用相近邻近度量,合并各个小簇对,并设置一个阈值,如果RC(Ci,Cj)值小于阈值,则不断地合并小簇,如果合并过程中某个类簇对之间的距离大于阈值,则停止类簇合并,并以此阶段得到类簇作为最总的类簇结果,合并后产生N个类簇;相对接近度的计算公式如公式(2)所示:
其中,ki,kj分别是簇Ci和Cj的大小;是连接簇Ci和Cj的边的平均权值;是二分簇Ci的边的平均权值;是二分簇Cj的边的平均权值;EC表示割边;
基于自相似性概念,两个簇合并,仅当结果簇中的点之间的接近程度与原来的每个簇一样,能够有效聚类空间数据,即便存在噪声和离群点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;江苏省电力公司;江苏电力信息技术有限公司;江苏省电力公司信息通信分公司,未经国家电网公司;江苏省电力公司;江苏电力信息技术有限公司;江苏省电力公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410344391.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:软件标签的生成方法和装置
- 下一篇:一种广告过滤方法以及装置