[发明专利]实现搜索系统中索引数据同步的方法及系统有效
申请号: | 201910751293.X | 申请日: | 2019-08-15 |
公开(公告)号: | CN110471925A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 李翀;王腾飞;曾依灵;吴岗 | 申请(专利权)人: | 浙江执御信息技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/27 |
代理公司: | 33293 杭州快知知识产权代理事务所(特殊普通合伙) | 代理人: | 张超;杨冬玲<国际申请>=<国际公布>= |
地址: | 310011 浙江省杭州市拱*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据变更 索引数据 搜索系统 同步的 变更 日志 存储原始数据 关系数据库 同步数据量 查询性能 更新数据 实时同步 同步操作 同步数据 扩展性 实时性 数据量 可控 解析 记录 保证 | ||
本发明公开一种实现搜索系统中索引数据同步的方法及系统,所述方法中存储原始数据的关系数据库中数据变更后,生成记录所述数据变更情况的变更日志;对所述变更日志进行解析以确定数据变更的部分;根据确定的数据变更的部分对搜索系统的索引数据中对应部分进行同步。由于仅是针对数据变更的部分对搜索系统的索引数据中对应部分进行同步,因此,同步数据量小,大大减少索引数据同步的时间,且实时同步更新数据变更的部分,保证了数据的实时性;另外,由于仅是针对数据变更的部分对搜索系统的索引数据中对应部分进行同步,短时间内同步数据变化较小,少量的同步操作基本不影响查询性能,且需要同步的数据量可控,扩展性更好。
技术领域
本发明涉及搜索技术领域,更具体的说,本发明涉及一种实现搜索系统中索引数据同步的方法及系统。
背景技术
搜索系统是指根据一定的策略、运用特定的计算机程序收集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统,而Solr搜索系统是一种独立的企业级搜索系统,它对外提供类似于Web-service的应用程序编程接口API接口,用户可以通过超文本传输协议http请求,向搜索引擎服务器提交一定格式的可扩展标记语言文件,生成索引;也可以通过Http Get操作提出查找请求,并得到可扩展标记语言格式的返回结果。
上述solr搜索系统中采用的索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,在solr搜索系统中采用的索引数据同步技术,目的是将solr搜索系统中的索引数据进行更新,从而使用户能够搜索出最新的数据,可用于电商商品搜索、图书馆图书搜索、搜索网站新闻搜索等,现有solr搜索系统中,索引数据同步采用的是全量同步方案,即将最新的数据全部写入solr搜索系统中一个新的索引,批量同步完后交换索引,新数据生效,但该索引同步方案存在如下缺陷:
由于数据量较大,并且各个服务资源有限,因此每次全量同步需要长达半天时间,同步时间长;另外,由于数据同步时占用了大量服务资源,包括网络、磁盘IO等,用户查询QPS降低,同步时影响查询性能;而且由于全量同步更新时间长,并且同步时影响查询性能,只能每天更新一次,因此不能保证用户搜索出的数据一直是最新的,时效性差,而且搜索系统中大部分数据可能是长时间不变的,每次重复同步,增加了大量不必要同步工作量。
发明内容
本发明要解决的技术问题是提供一种实现搜索系统中索引数据同步的方法及系统,以减少索引数据同步的时间,提高索引数据同步的时效性,降低同步对查询性能的影响。
为解决上述技术问题,本发明采用如下技术方案:
一种实现solr搜索系统中索引数据同步的方法,包括如下步骤:
企业资源计划系统对关系数据库中的原始数据进行数据变更处理;
存储原始数据的关系数据库中根据所述变更处理对数据变更后,生成记录所述数据变更情况的变更日志;
通过Maxwell组件实时获取所述变更日志数据,并且Maxwell组件将获取的变更日志数据批量发送给Kafka组件,Kafka组件接收变更日志数据后存储起来;
通过Spark引擎上运行的Spark Streaming作业读取Kafka组件存储的变更日志数据,解析读取的变更日志数据找到原始数据发生变化的部分以确定数据变更的部分;
根据确定的数据变更的部分对搜索系统的索引数据中对应部分进行同步。
其中,根据确定的数据变更的部分对搜索系统的索引数据中对应部分进行同步包括:
根据确定的数据变更的部分,通过Spark引擎上运行的Spark Streaming作业获取最新的数据;根据所述获取的最新数据对搜索系统的索引数据中对应部分进行同步。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江执御信息技术有限公司,未经浙江执御信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910751293.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置、计算机设备及存储介质
- 下一篇:一种档案建立方法及装置