[发明专利]一种基于Elasticsearch的异构多数据源的高效搜索引擎方法在审
申请号: | 202110176379.1 | 申请日: | 2021-02-09 |
公开(公告)号: | CN112988863A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 刘小春;张亚军;姚亮;李坡 | 申请(专利权)人: | 苏州中科蓝迪软件技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/951;G06F16/9538 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 胡文强 |
地址: | 215000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 elasticsearch 多数 高效 搜索引擎 方法 | ||
1.一种基于Elasticsearch的异构多数据源的高效搜索引擎方法,其特征在于,包括索引数据库、索引文档、数据采集器和搜索接口四部分组成,数据采集器的采集系统中需要搜索的内容数据,并将内容数据组织构建为对应的索引文档,然后,将构建的索引文档存储到索引数据库中,最后,用户通过搜索接口进行搜索查询;
所述索引数据库Elasticsearch与关系型数据库或非关系型数据库配合使用,利用Elasticsearch的实时搜索和分析功能,使用Elasticsearch-Hadoop(ES-Hadoop)连接器,处理Hadoop数据库中的大量数据;
所述索引文档结构采用Elasticsearch支持的索引文档类型JSON,通过Elasticsearch可以将时空对象创建索引文档,JSON数据文档格式,搜索引擎支持索引的文档内容类型包括多粒度时空对象和集成开发框架资源服务中包含的资源,通过对这两种数据内容创建JSON对象,构建文档索引,每一个对象作为一个JSON文档,并建立索引;
所述数据采集器采集系统需要搜索的内容数据,并将内容数据组织构建为对应的索引文档,通过定时任务,主动定时抓取多粒度时空对象、集成开发框架资源服务中的数据进行文档存储;
所述搜索接口用于接收用户通过用户终端发起的搜索请求,并根据所述搜索请求从所述索引数据库获取相应的搜索结果以返回给所述用户终端,用户通过引擎接口,进行搜索、查询等操作,提供的引擎接口主要是根据关键字搜索,支持将搜索结果按照用户指定的次序排序显示,并提供搜索相关性反馈机制;
具体步骤如下:
第一步,数据采集器采集系统中需要搜索的内容数据,通过定时任务,主动定时抓取多粒度时空对象数据库、分布式文件系统、资源管理信息系统中的数据,其中,定时任务通过内部时间戳记录每次抓取时间,判断当前抓取的数据是否进行解析处理。若各数据源中的数据更新时间早于上次抓取时间,则不做处理;若各数据源中的数据更新时间晚于上次抓取时间,则抓取相关内容,进入第二步,抓取的方法是,针对不同的数据源,构建不同的微服务,先与数据源建立连接,分别采用与数据源匹配的访问接口,抓取数据源中的数据;
第二步,对抓取的数据进行解析处理,将内容数据组织构建为对应的索引文档,从不同数据源中抓取的数据,按照数据源所对应的索引,生成相应索引下的索引文档,一般一条数据库记录生成一个索引文档;
第三步,将构建的索引文档存储到索引数据库Elasticsearch集群中。为满足高并发的访问,集群数目大于一个,Elasticsearch会对所有的字段建立索引,经过处理后写入一个反向索引。查找数据时,直接查找该索引;
最后,用户通过搜索接口进行搜索查询,将查询条件转换成Elasticsearch查询请求,下发到Elasticsearch中进行查询。搜索接口支持按关键字搜索,支持多个搜索关键字,以及多个关键字的逻辑运算,将搜索匹配到的结果按一定的顺序输出,用户可选择排序的规则,并提供搜索相关性反馈机制。
2.根据权利要求1所述的一种基于Elasticsearch的异构多数据源的高效搜索引擎方法,其特征在于,所述索引数据库和索引文档采用Elasticsearch搜索引擎。
3.根据权利要求1所述的一种基于Elasticsearch的异构多数据源的高效搜索引擎方法,其特征在于,所述Elasticsearch基于数据内容实现复杂的搜索查询,只需要将数据添加/更新到Elasticsearch中。
4.根据权利要求1所述的一种基于Elasticsearch的异构多数据源的高效搜索引擎方法,其特征在于,索引数据库中还包括Spark,所述Spark通过ES-Hadoop从Elasticsearch中读取数据,数据库作为持久化存储组件,能够提供约束限制、准确性保证、鲁棒性条件。
5.根据权利要求1所述的一种基于Elasticsearch的异构多数据源的高效搜索引擎方法,其特征在于,所述定时任务通过内部时间戳记录每次抓取时间,判断当前抓取的数据是否进行索引存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州中科蓝迪软件技术有限公司,未经苏州中科蓝迪软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110176379.1/1.html,转载请声明来源钻瓜专利网。