[发明专利]一种基于HBase的数据检索装置有效
申请号: | 202010363122.2 | 申请日: | 2020-04-30 |
公开(公告)号: | CN111563095B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 程永新;孙玉颖;章传军 | 申请(专利权)人: | 上海新炬网络信息技术股份有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/22;G06F16/248;G06F16/27 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 袁亚军 |
地址: | 201707 上海市青浦区外青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hbase 数据 检索 装置 | ||
1.一种基于HBase的数据检索装置,其特征在于,包括前端交互模块、检索处理模块和数据库同步模块,所述数据库同步模块对HBase数据库中的数据进行数据同步,同时在ElastieSearch搜索引擎中建立索引,并将同步后的数据保存ElastieSearch索引中;所述前端交互模块在接收到检索请求后,将检索信息和筛选信息发送到检索处理模块;所述检索处理模块使用检索信息和筛选信息在ElastieSearch索引中进行检索,并经由前端交互模块返回检索结果;
所述HBase数据库包含协处理器Observer,所述数据库同步模块通过重载RegionObserver提供的表数据操作钩子函数,利用Region server完成对ElasticSearch 索引的同步更新;具体包括:当消息队列的Consumer产生新的Put操作对HBase 数据库进行数据插入时,利用Observer 将Put数据转化为Json格式,同步到 ElasticSearch索引中,并把行键设置为索引属性用于后续查询;当有新的Delete 操作,删除HBase数据库中的数据时,通过Observer获取指定删除数据的行键,然后同步删除ElasticSearch索引中的对应数据;
所述数据库同步模块通过ElasticSearch搜索引擎的Bulk API实现ElasticSearch索引同步更新的缓冲,当HBase数据库的逐条插入或删除操作达到设定的数据阈值或时间阈值时,进行批量操作触发ElasticSearch索引同步更新;
所述检索处理模块包括分词子模块和检索子模块,所述检索子模块包括逻辑检索子模块、关键词检索子模块和语义检索子模块,所述检索子模块通过分词子模块传来的分词结果和前端交互模块传来的筛选信息对ElastieSearch索引分别进行逻辑检索、关键词检索和语义检索,并对检索结果按照相关性进行排序,返回到前端交互模块;所述关键词检索子模块将匹配完整关键词的检索结果优先排序,将匹配到分词结果词语较少的检索结果推后排序;去掉检索结果中相关性低于设定相关度的检索结果。
2.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述HBase数据库的表由多个column构成,每个column有一个rowkey,将组成rowkey的字段,分别以column的形式存放于表中,所述数据库同步模块进行数据同步具体包括:
S1:在ElastieSearch搜索引擎中建立索引;
S2:将HBase数据库中的rowkey对应于ElastieSearch中document的ID;
S3:将HBase数据库中的column对应于ElasticSearch的field;
S4:将HBases数据库中的表名对应于ElasticSearch中的type;
S5:根据步骤S2-S4的对应关系,将HBase数据库中的数据存储到ElastieSearch 索引中。
3.如权利要求1所述的基于HBase的数据检索装置,其特征在于,在ElasticSearch索引中对数据进行分类,并建立对应的index和type;在创建索引type表时根据每个字段的类型、实际含义和业务逻辑并结合检索方式以及分词器的选择进行分类。
4.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述分词子模块进行分词处理,所述分词子模块调用ElastieSearch的应用程序接口连接ElastieSearch的中的MMSeg4j分词器和IKAnalyzer分词器进行分词处理,并分词结果传入检索子模块和前段交互模块。
5.如权利要求3所述的基于HBase的数据检索装置,其特征在于,所述前端交互模块接收分词子模块返回的分词结果,所述前端交互模块将返回的分词结果作为检索的推荐关键词呈现;所述前端交互模块接收检索子模块返回的检索结果,并按照相关性由高到低进行排序,点击相应的检索结果则返回该检索结果的全文信息。
6.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述前端交互模块设有检索信息输入的检索框和筛选信息的选择标签。
7.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述检索处理模块部署在Elasticsearch集群上,所述数据库同步模块部署在HBase集群的服务器上,所述前端交互模块部署于可同时访问Elasticsearch集群和 HBase集群的服务器上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新炬网络信息技术股份有限公司,未经上海新炬网络信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010363122.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置