[发明专利]一种基于HBase的数据检索装置有效

专利信息
申请号: 202010363122.2 申请日: 2020-04-30
公开(公告)号: CN111563095B 公开(公告)日: 2023-05-26
发明(设计)人: 程永新;孙玉颖;章传军 申请(专利权)人: 上海新炬网络信息技术股份有限公司
主分类号: G06F16/242 分类号: G06F16/242;G06F16/22;G06F16/248;G06F16/27
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 袁亚军
地址: 201707 上海市青浦区外青*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hbase 数据 检索 装置
【权利要求书】:

1.一种基于HBase的数据检索装置,其特征在于,包括前端交互模块、检索处理模块和数据库同步模块,所述数据库同步模块对HBase数据库中的数据进行数据同步,同时在ElastieSearch搜索引擎中建立索引,并将同步后的数据保存ElastieSearch索引中;所述前端交互模块在接收到检索请求后,将检索信息和筛选信息发送到检索处理模块;所述检索处理模块使用检索信息和筛选信息在ElastieSearch索引中进行检索,并经由前端交互模块返回检索结果;

所述HBase数据库包含协处理器Observer,所述数据库同步模块通过重载RegionObserver提供的表数据操作钩子函数,利用Region server完成对ElasticSearch 索引的同步更新;具体包括:当消息队列的Consumer产生新的Put操作对HBase 数据库进行数据插入时,利用Observer 将Put数据转化为Json格式,同步到 ElasticSearch索引中,并把行键设置为索引属性用于后续查询;当有新的Delete 操作,删除HBase数据库中的数据时,通过Observer获取指定删除数据的行键,然后同步删除ElasticSearch索引中的对应数据;

所述数据库同步模块通过ElasticSearch搜索引擎的Bulk API实现ElasticSearch索引同步更新的缓冲,当HBase数据库的逐条插入或删除操作达到设定的数据阈值或时间阈值时,进行批量操作触发ElasticSearch索引同步更新;

所述检索处理模块包括分词子模块和检索子模块,所述检索子模块包括逻辑检索子模块、关键词检索子模块和语义检索子模块,所述检索子模块通过分词子模块传来的分词结果和前端交互模块传来的筛选信息对ElastieSearch索引分别进行逻辑检索、关键词检索和语义检索,并对检索结果按照相关性进行排序,返回到前端交互模块;所述关键词检索子模块将匹配完整关键词的检索结果优先排序,将匹配到分词结果词语较少的检索结果推后排序;去掉检索结果中相关性低于设定相关度的检索结果。

2.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述HBase数据库的表由多个column构成,每个column有一个rowkey,将组成rowkey的字段,分别以column的形式存放于表中,所述数据库同步模块进行数据同步具体包括:

S1:在ElastieSearch搜索引擎中建立索引;

S2:将HBase数据库中的rowkey对应于ElastieSearch中document的ID;

S3:将HBase数据库中的column对应于ElasticSearch的field;

S4:将HBases数据库中的表名对应于ElasticSearch中的type;

S5:根据步骤S2-S4的对应关系,将HBase数据库中的数据存储到ElastieSearch 索引中。

3.如权利要求1所述的基于HBase的数据检索装置,其特征在于,在ElasticSearch索引中对数据进行分类,并建立对应的index和type;在创建索引type表时根据每个字段的类型、实际含义和业务逻辑并结合检索方式以及分词器的选择进行分类。

4.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述分词子模块进行分词处理,所述分词子模块调用ElastieSearch的应用程序接口连接ElastieSearch的中的MMSeg4j分词器和IKAnalyzer分词器进行分词处理,并分词结果传入检索子模块和前段交互模块。

5.如权利要求3所述的基于HBase的数据检索装置,其特征在于,所述前端交互模块接收分词子模块返回的分词结果,所述前端交互模块将返回的分词结果作为检索的推荐关键词呈现;所述前端交互模块接收检索子模块返回的检索结果,并按照相关性由高到低进行排序,点击相应的检索结果则返回该检索结果的全文信息。

6.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述前端交互模块设有检索信息输入的检索框和筛选信息的选择标签。

7.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述检索处理模块部署在Elasticsearch集群上,所述数据库同步模块部署在HBase集群的服务器上,所述前端交互模块部署于可同时访问Elasticsearch集群和 HBase集群的服务器上。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新炬网络信息技术股份有限公司,未经上海新炬网络信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010363122.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top