[发明专利]一种用于电力大数据快速组合查询的动态索引方法有效

专利信息
申请号: 201410654100.6 申请日: 2014-11-18
公开(公告)号: CN104317966B 公开(公告)日: 2017-08-08
发明(设计)人: 郑海雁;金农;顾国栋;丁晓;吴钢;王红星;徐金玲;金璐;熊政;丁陈;方超;仲春林;李昆明;李新家;尹飞;孟嘉;季聪 申请(专利权)人: 国家电网公司;江苏省电力公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司;上海晟淘大数据科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京纵横知识产权代理有限公司32224 代理人: 董建林
地址: 100761 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 电力 数据 快速 组合 查询 动态 索引 方法
【说明书】:

技术领域

本实用新型涉及一种用于电力大数据快速组合查询的动态索引方法,属于电力信息化技术领域。

背景技术

随着电力系统数字化进程的推进,电力系统积累了大量的发、输、用电数据。目前仅江苏省用电信息系统历年保存下来的全省用电信息数据已达到几十TB,如何利用现有的大数据分析技术,挖掘电力大数据的潜在价值,使电力企业为客户提供更好的服务,是一个值得研究的课题。而2013年《中国电力大数据发展白皮书》的发布,将中国的电力大数据研究推向了一个新的起点,对中国电力大数据的研究与应用有着划时代的意义。

电力大数据其特征可概括为3“V”和3“E”,3“V”代表体量大(Volume),类型多(Variety)和速度快(Velocity),3“E”代表数据即能量(Energy)、数据即交互(Exchange)、数据即共情(Empathy)。在用电大数据中,这样的概括同样适用。

大数据基础之上创建高效索引虽然非常之难,但显而易见的是,大数据对索引的需求相比传统数据库更加迫切:传统数据库在几十万、几百万数据量的情况下需要使用索引才能提供满足要求的查询性能,那么专注于处理动辄几百亿、几千亿数据量的大数据技术如果不提供索引又如何能满足性能需求呢?传统数据库的索引其实都是一种单索引结构,虽然很多基于Hadoop的大数据产品可以支持复合索引,然而这种复合索引其本质依然是单索引,即一次查询只能用一个索引,所谓复合索引也只是将多个字段简单拼接。单索引的效率可以满足用户单条件的查询,而传统的复合索引由于其拼接的技术过于简单,因此也只能支持单一的查询,如果用户的查询条件更复杂、条件组合更灵活时,它就完全不能满足用户的需求了。

目前比较常见的大数据解决方案为Hadoop + HBase,该解决方案通过搭建分布式处理软件框架和分布式存储系统,实现大数据的分布式存储和查询。HBase是按Rowkey进行排序和存储的,在进行数据查询时需要对数据块按行检索,但是查询速度远无法满足实时的需求。

发明内容

为克服现有技术存在的缺陷,解决上述技术问题,本发明一种用于电力大数据快速组合查询的动态索引方法。

本发明采用如下技术方案:一种用于电力大数据快速组合查询的动态索引方法,其特征在于,所述方法具体包括如下步骤:

SS1利用动态索引图技术,为电力大数据建立一套立体的索引系统;

SS2利用多条件组合查询方法创建索引;

SS3建立电力大数据快速组合查询方案。

优选地,步骤SS1包括:首先利用第一个域进行排序,建立若干索引起始点,然后使用hash技术将索引分段,构建一个多级立体式的索引分段系统。

优选地,步骤SS2包括:当用户使用条件组合进行数据查询时,数据库引擎会依据自身的独有机制动态使用这些原本独立创建索引提供任意组合的多条件的数据查询;

优选地,步骤SS2还包括:若使用没有创建索引的字段与其它已经创建了索引的字段进行组合查询,系统首先智能地去判断,发现其中的几个字段已有索引,将优先使用这几个字段初步判断与过滤,得到一组中间查询结果;对于并未建立索引的其它字段,需要再对中间结果数据进行逐条扫描。

优选地,步骤SS3具体包括如下步骤:

1)用户从客户端输入SQL命令;

2)通过JDBC和HBase连接到索引数据库;

3)解析SQL命令,从索引数据库找到对应的索引文件;

4)对索引文件进行修剪,形成针对具体查询命令的动态索引图;

5)通过动态索引图,得到需要查询的HFile的RowKey;

6)HBase根据RowKey从HDFS取数据;

7)将查询结果返回给用户。

优选地,步骤SS3中的步骤2)包括:当HBase读入新增数据时,所有数据同步被送到指定的查询加速服务器,按指定关键字和日期对某个字段进行数值的统计,并建立查询索引;当用户向HBase发出查询请求时,该请求被即时送到特制的查询引擎,根据查询条件返回对应的索引地址,通过索引地址找到原始数据,并返回结果。

上述术语的含义:DIG(dynamic index graph)即动态索引图技术。

Hash,一般翻译做“散列”,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;江苏省电力公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司;上海晟淘大数据科技有限公司,未经国家电网公司;江苏省电力公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司;上海晟淘大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410654100.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top