[发明专利]一种基于分布存储和并行计算的电网数据质量检测方法在审
申请号: | 201410647792.1 | 申请日: | 2014-11-14 |
公开(公告)号: | CN104391903A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 陈承志;龙庆麟;梁国辉;黄宜华;顾荣;杨滨诚 | 申请(专利权)人: | 广州科腾信息技术有限公司;南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 510405 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布存储和并行计算的电网数据质量检测方法,包括以下步骤:采用HBase存储原始数据记录;采用HBase对校验规则涉及到的字段建立查询索引;采用HBase对原始数据记录建立时间戳索引,以便支持增量数据质量校验和细时间粒度的数据质量校验;采用HDFS存储数据记录的辅助索引文件和操作日志文件,以便全量历史数据质量校验时能够快速加载校验数据,提升校验性能;采用基于MapReduce的校验规则并行化处理,通过规则并行化处理提升校验性能。本发明解决了现有的基于关系数据库系统的电网数据质量检测方法可扩展性差,校验延时大,系统性价比低的问题。 | ||
搜索关键词: | 一种 基于 分布 存储 并行 计算 电网 数据 质量 检测 方法 | ||
【主权项】:
一种基于分布存储和并行计算的电网数据质量检测方法,包括以下步骤:(1)采用一种分布存储方法对所有原始数据记录进行存储;(2)采用基于非主键的索引方法对校验字段进行索引,校验时根据校验规则涉及的校验字段查找索引表,获取对应的原始数据记录主键,再根据获取到的原始数据记录主键查找原始数据记录表获取原始数据记录,然后提取比对字段进行比对;(3)采用HBase对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度的数据质量校验时,根据时间戳范围查询原始数据记录表,确定需校验的数据范围后进行校验;(4)采用HDFS存储数据记录的辅助索引文件和操作日志文件,在全量原始数据质量校验时,将辅助索引文件读入内存,读取操作日志应用到内存索引上,然后基于内存索引进行校验;(5)采用基于MapReduce的并行化方式完成校验规则的快速执行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州科腾信息技术有限公司;南京大学,未经广州科腾信息技术有限公司;南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410647792.1/,转载请声明来源钻瓜专利网。