[发明专利]一种海量数据查询方法在审
申请号: | 201410336964.3 | 申请日: | 2014-07-15 |
公开(公告)号: | CN104102710A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 赵仁明;辛国茂;亓开元;房体盈 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 吴梓菲;李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 查询 方法 | ||
技术领域
本发明涉及大数据领域,具体涉及一种基于SolrCloud和HBase的海量数据查询方法。
背景技术
大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce、HBase一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML或json格式的返回结果。SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。
HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase–Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase在提供高并发读写操作支持的同时,也存在着一些显著的缺陷:由于HBase只对rowkey(行键值)进行排序,所以HBase无法实现对于rowkey以外字段的快速查找和检索。同时HBase也无法实现基于查询的分页显示和逐页查询。因此,设计一种基于SolrCloud和HBase的海量数据查询方法,可以有效的解决这些问题。
发明内容
为了解决上述技术问题,本发明提供了一种海量数据查询方法及装置,实现了灵活的海量数据的多条件查询,模糊查询及查询结果的分页。
一种海量数据查询方法,包括:
建立HBase非行键值rowkey查询字段与rowkey的索引映射;
查询时,根据所述索引映射关系,在SolrCloud中查询到查询字段对应的rowkey;
使用所述rowkey在HBase中进行查找,并将查询结果分页显示。
优选地,在HBase中的数据发生变化时,定期的更新SolrCloud中的索引映射。
优选地,所述索引映射是分布式存储的,
当主服务器接收索引映射的更新时,将更新的索引映射发送到同一分片的其他副本服务器上;
当副本服务器接收索引映射的更新时,将更新的索引映射发送到所属的主服务器上。
优选地,使用Mapreduce模型加速索引映射的建立。
一种海量数据查询装置,包括:
映射模块,对HBase非rowkey查询字段建立与rowkey的索引映射;
查询模块,根据索引映射关系,先在SolrCloud中查询到该查询字段所对应的HBase rowkey,再使用该rowkey在HBase中查询所需的数据;
显示模块,将查询结果向用户分页显示。
优选地,更新模块,当HBase中的数据变更时,定期的更新SolrCloud中的索引映射。
优选地,同步模块,在该装置作为主服务器时,将更新的索引映射发送到同一分片的其他副本服务器上。
优选地,同步模块,在该装置作为副本服务器时,当更新模块对索引映射更新后,同步模块将更新的索引映射发送到所属的主服务器上。
本申请的技术方案使用SolrCloud存储和维护HBase中的需要查询的非rowkey字段到rowkey的索引映射,根据查询条件查找到对应的rowkey,再使用rowkey在HBase中进行数据的查找,从而实现了灵活的海量数据的多条件查询,模糊查询及查询结果的分页;同时,SolrCloud采用分布式方式部署,可以实现集中式的信息存储,自动容错,近实时搜索和自动的负载均衡。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410336964.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置