[发明专利]一种海量数据查询方法在审

专利信息
申请号: 201410336964.3 申请日: 2014-07-15
公开(公告)号: CN104102710A 公开(公告)日: 2014-10-15
发明(设计)人: 赵仁明;辛国茂;亓开元;房体盈 申请(专利权)人: 浪潮(北京)电子信息产业有限公司
主分类号: G06F17/30 分类号: G06F17/30;H04L29/06
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 吴梓菲;李丹
地址: 100085 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 海量 数据 查询 方法
【说明书】:

技术领域

发明涉及大数据领域,具体涉及一种基于SolrCloud和HBase的海量数据查询方法。

背景技术

大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce、HBase一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML或json格式的返回结果。SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。

HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase–Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase在提供高并发读写操作支持的同时,也存在着一些显著的缺陷:由于HBase只对rowkey(行键值)进行排序,所以HBase无法实现对于rowkey以外字段的快速查找和检索。同时HBase也无法实现基于查询的分页显示和逐页查询。因此,设计一种基于SolrCloud和HBase的海量数据查询方法,可以有效的解决这些问题。

发明内容

为了解决上述技术问题,本发明提供了一种海量数据查询方法及装置,实现了灵活的海量数据的多条件查询,模糊查询及查询结果的分页。

一种海量数据查询方法,包括:

建立HBase非行键值rowkey查询字段与rowkey的索引映射;

查询时,根据所述索引映射关系,在SolrCloud中查询到查询字段对应的rowkey;

使用所述rowkey在HBase中进行查找,并将查询结果分页显示。

优选地,在HBase中的数据发生变化时,定期的更新SolrCloud中的索引映射。

优选地,所述索引映射是分布式存储的,

当主服务器接收索引映射的更新时,将更新的索引映射发送到同一分片的其他副本服务器上;

当副本服务器接收索引映射的更新时,将更新的索引映射发送到所属的主服务器上。

优选地,使用Mapreduce模型加速索引映射的建立。

一种海量数据查询装置,包括:

映射模块,对HBase非rowkey查询字段建立与rowkey的索引映射;

查询模块,根据索引映射关系,先在SolrCloud中查询到该查询字段所对应的HBase rowkey,再使用该rowkey在HBase中查询所需的数据;

显示模块,将查询结果向用户分页显示。

优选地,更新模块,当HBase中的数据变更时,定期的更新SolrCloud中的索引映射。

优选地,同步模块,在该装置作为主服务器时,将更新的索引映射发送到同一分片的其他副本服务器上。

优选地,同步模块,在该装置作为副本服务器时,当更新模块对索引映射更新后,同步模块将更新的索引映射发送到所属的主服务器上。

本申请的技术方案使用SolrCloud存储和维护HBase中的需要查询的非rowkey字段到rowkey的索引映射,根据查询条件查找到对应的rowkey,再使用rowkey在HBase中进行数据的查找,从而实现了灵活的海量数据的多条件查询,模糊查询及查询结果的分页;同时,SolrCloud采用分布式方式部署,可以实现集中式的信息存储,自动容错,近实时搜索和自动的负载均衡。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410336964.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top