[发明专利]基于云平台的分布式能源数据监控清洗方法有效
申请号: | 201810011720.6 | 申请日: | 2018-01-05 |
公开(公告)号: | CN108170825B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 曹超;马玉鑫;常悦 | 申请(专利权)人: | 上海电气分布式能源科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 上海容慧专利代理事务所(普通合伙) 31287 | 代理人: | 于晓菁 |
地址: | 200233 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 平台 分布式 能源 数据 监控 清洗 方法 | ||
1.一种基于云平台的分布式能源数据监控清洗方法,其特征在于包括:
第一步骤:在远程运维报文数据解析结束后执行数据质量监控,其中在利用python读取数据后判别报文数据全为0的情况以及报文数据中出现连续预定条数据卡死的情况;在判别出现报文数据全为0的情况时,发送相应的第一警告信息;在判别出现报文数据中出现连续预定条数据卡死的情况时,发送相应的第二警告信息;第一警告信息和第二警告信息以邮件的形式发送给用户;
其中具体步骤为:利用Kafka消息队列对远程运维下发的报文数据进行解析,报文数据的格式:时间-项目号-表头-数据2016-12-1100:00:52{T:V2,N:SE13-J01,c10:68,c11:73,c12:67,c13:0},其中c1表示1号通讯管理机;一共有4个通讯管理机,python分别读取4个通讯管理机的数据并将数据进行分类汇总,数据作为kafka的生产者发送给impala中间件,对数据解析后通过hive传入Hbase数据库;随后,分类汇总的4个通讯管理机的报文数据进行判断,如果通过程序报文解析后发现任一出现的数据全为0的情况,将时间和全为0的情况存储的log.txt中进行记录;同时,启动邮件提醒功能,向运维人员或者负责人的邮箱发送邮件,告知几号通讯管理机出现数据全为0的情况,提醒运维人员查看;
第二步骤:针对每天存储的发电功率和负荷功率数据,利用python执行每日运行数据清洗;其中,每日运行数据清洗包括对数据采用python的LOF算法的局部离群点检测算法进行离群点错误点查询,其中将测试数据和局部离群点检测算法中的预设数据库数据放入测试算法中进行计算以找出离群点,并且对离群点进行修正后重新入库;
每日运行数据清洗还包括下述处理中的一种或多种:对数据进行完整度查询测试以判断数据的完整性,对数据进行一致性查询测试以判断数据是否出现卡死的情况,对数据进行错误查询修正处理,对数据进行缺失数据补全处理。
2.如权利要求1所述的基于云平台的分布式能源数据监控清洗方法,其特征在于,在对数据进行完整度查询测试以判断数据的完整性时,查看数据中空数据占整个一天数据的比例,如果该比例超过预定阈值,则删除该天数据。
3.如权利要求1所述的基于云平台的分布式能源数据监控清洗方法,其特征在于,在对数据进行一致性查询测试时,如果出现连续预定条数据相同的情况,则判定数据出现卡死。
4.如权利要求1所述的基于云平台的分布式能源数据监控清洗方法,其特征在于,对数据进行错误查询修正处理包括:将超过最大发电功率的数据值修正为额定功率值。
5.如权利要求1所述的基于云平台的分布式能源数据监控清洗方法,其特征在于,对数据进行缺失数据补全处理包括:通过插值法将空数据进行补全。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电气分布式能源科技有限公司,未经上海电气分布式能源科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810011720.6/1.html,转载请声明来源钻瓜专利网。