[发明专利]一种基于分布存储和并行计算的电网数据质量检测方法在审
申请号: | 201410647792.1 | 申请日: | 2014-11-14 |
公开(公告)号: | CN104391903A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 陈承志;龙庆麟;梁国辉;黄宜华;顾荣;杨滨诚 | 申请(专利权)人: | 广州科腾信息技术有限公司;南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 510405 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布 存储 并行 计算 电网 数据 质量 检测 方法 | ||
1.一种基于分布存储和并行计算的电网数据质量检测方法,包括以下步骤:
(1)采用一种分布存储方法对所有原始数据记录进行存储;
(2)采用基于非主键的索引方法对校验字段进行索引,校验时根据校验规则涉及的校验字段查找索引表,获取对应的原始数据记录主键,再根据获取到的原始数据记录主键查找原始数据记录表获取原始数据记录,然后提取比对字段进行比对;
(3)采用HBase对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度的数据质量校验时,根据时间戳范围查询原始数据记录表,确定需校验的数据范围后进行校验;
(4)采用HDFS存储数据记录的辅助索引文件和操作日志文件,在全量原始数据质量校验时,将辅助索引文件读入内存,读取操作日志应用到内存索引上,然后基于内存索引进行校验;
(5)采用基于MapReduce的并行化方式完成校验规则的快速执行。
2.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述分布存储方法为基于HBase的分布存储方法。
3.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述校验规则为基于MapReduce的并行化校验规则。
4.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(2)中,采用基于非主键索引的方法对校验字段进行索引。
5.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(2)中,校验字段是原始数据记录主键或者任意属性列;比对字段是与所述校验字段对应的某一字段。
6.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(3)中,对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度数据质量校验时,根据时间戳索引查询时间戳索引表以获取原始数据记录主键,再查询原始数据记录表以获取原始数据记录进行校验。
7.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(4)中,为全量原始数据建立HDFS辅助索引文件,为增量数据建立操作日志,在全量历史数据校验时,读取HDFS辅助索引文件到内存,将操作日志应用到内存索引上,然后基于内存索引进行校验。
8.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(5)中,对所有的校验规则建立指示文件,Map任务读取相应的指示文件,获取执行相应校验规则需要的参数,调用相应的处理逻辑进行校验。
9.根据权利要求8所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(5)中,每个指示文件对应一条或者多条校验规则,校验规则的执行参数写在指示文件中。
10.根据权利要求8所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(5)中,每个指示文件由一个Map任务处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州科腾信息技术有限公司;南京大学,未经广州科腾信息技术有限公司;南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410647792.1/1.html,转载请声明来源钻瓜专利网。