[发明专利]一种基于分布存储和并行计算的电网数据质量检测方法在审
申请号: | 201410647792.1 | 申请日: | 2014-11-14 |
公开(公告)号: | CN104391903A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 陈承志;龙庆麟;梁国辉;黄宜华;顾荣;杨滨诚 | 申请(专利权)人: | 广州科腾信息技术有限公司;南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 510405 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布 存储 并行 计算 电网 数据 质量 检测 方法 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于分布存储和并行计算的电网数据质量检测方法,该方法高效可扩展。
背景技术
传统的关系数据管理系统追求高度的一致性和正确性,在面向海量数据的分析需求时,采用纵向扩展(scale up)的方法,即通过升级硬件(CPU、内存、硬盘等)提升单个节点的能力,使其可扩展性和性能受到了很大的限制。
随着电网业务数据规模和数据质量监控规则复杂度的不断增大,目前现有的基于传统数据管理和计算平台的数据质量监控系统的处理能力出现严重的瓶颈,难以快速完成数据质量的监控和校验,越来越难以满足日常的生产管理和经营决策的需求。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种基于分布存储和并行处理的电网数据质量检测方法,解决了现有的基于关系数据库系统方法的计算延时大,难于扩展,系统性价比低的问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于分布存储和并行处理的电网数据质量检测方法,包括以下步骤:
(1)采用一种分布存储方法对所有原始数据记录进行存储;
(2)采用基于非主键的索引方法对校验字段进行索引,校验时根据校验规则涉及的校验字段查找索引表,获取对应的原始数据记录主键,再根据获取到的原始数据记录表主键查找原始数据记录表获取原始数据记录,然后提取比对字段进行比对;
(3)采用HBase对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度的数据质量校验时,根据时间戳范围查询原始数据记录表,确定需校验的数据范围后进行校验;
(4)采用HDFS存储数据记录的辅助索引文件和操作日志文件,以便全量原始数据质量校验时能够快速加载校验数据,提升校验性能,在全量原始数据质量校验时,将辅助索引文件读入内存,读取操作日志应用到内存索引上,然后基于内存索引进行校验;
(5)采用基于MapReduce的并行化方式完成校验规则的快速执行。
进一步地,所述分布存储方法为基于HBase的分布存储方法,可支持海量校验数据的存储,并能根据需求方便扩展。进一步地,所述校验规则为基于MapReduce的并行化校验规则。可以根据校验数据量和校验规则数量方便扩展,响应性能可控,性价比高。进一步地,所述步骤(2)中,采用基于非主键索引的方法对校验字段进行索引,以便实现基于非主键字段的校验规则查询处理。
进一步地,所述步骤(2)中,校验字段是原始数据记录主键或者任意属性列;比对字段是与所述校验字段对应的某一字段,可以是校验字段本身或者其它字段。
进一步地,所述步骤(3)中,对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度数据质量校验时,根据时间戳索引查询时间戳索引表以获取原始数据记录主键,再查询原始数据记录表以获取原始数据记录进行校验。
进一步地,所述步骤(4)中,为全量原始数据建立HDFS辅助索引文件,为增量数据建立操作日志,在全量历史数据校验时,读取HDFS辅助索引文件到内存,将操作日志应用到内存索引上,然后基于内存索引进行校验。
进一步地,所述步骤(5)中,对所有的校验规则建立指示文件,指示文件内容包含所有执行校验规则需要的参数,包括规则名称,规则执行逻辑标识,输入数据表,输出数据表等参数,Map任务读取相应的指示文件,获取执行相应校验规则需要的参数,调用相应的处理逻辑进行校验。
更进一步地,所述步骤(5)中,每个指示文件对应一条或者多条校验规则,校验规则的执行参数写在指示文件中,所述执行参数包括校验规则名称,规则执行逻辑表示,输入数据表,输出数据表等参数。
更进一步地,所述步骤(5)中,每个指示文件由一个Map任务处理,
有益效果:
本发明能够高效可扩展地进行电网数据质量的检测:第一,将电网数据进行分布存储,使系统具有良好的可扩展性;第二,通过为校验规则涉及的字段建立辅助查询索引,以支持校验规则执行时进行高效查询处理;第三,设计了一个基于MapReduce的校验规则并行处理方法,使得每条校验规则都可以并行化处理,有效提升了系统响应性能。
附图说明
图1为本发明的方法总体示意图;
图2为本发明中增量数据存储与索引示意图;
图3为本发明中批量历史数据存储与索引示意图;
图4为本发明中规则并行化处理示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州科腾信息技术有限公司;南京大学,未经广州科腾信息技术有限公司;南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410647792.1/2.html,转载请声明来源钻瓜专利网。