[发明专利]一种基于数据库的文档搜索方法和装置在审
申请号: | 202010292856.6 | 申请日: | 2020-04-15 |
公开(公告)号: | CN111522905A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 吴祥;樊国鹏;朱留锋 | 申请(专利权)人: | 武汉灯塔之光科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/284 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 430000 湖北省武汉市东湖新技术开发*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据库 文档 搜索 方法 装置 | ||
1.一种基于数据库的文档搜索方法,其特征在于:
对数据库中待搜索的文档进行采集;
对采集到的每个待搜索的文档进行分词,并对每个待搜索的文档建立搜索关键词与文档之间的倒排索引;
根据至少一个搜索关键词,通过倒排索引对包含搜索关键词的待搜索的文档进行查找;
获取每个文档和搜索关键词的关联度,根据关联度对查找到的包含有搜索关键词的文档进行排序;
将查找到的文档根据排序后的顺序进行发布。
2.根据权利要求1所述的基于数据库的文档搜索的方法,其特征在于,所述获取每个文档和搜索关键词的关联度,具体为:根据搜索关键词在查找到的文档中出现的频率获得每个查找到的文档与搜索关联词的关联度。
3.根据权利要求2所述的基于数据库的文档搜索的方法,具体为:通过词频-逆向文件频率获得每个查找到的文档与搜索关联词的关联度。
4.根据权利要求3所述的基于数据库的文档搜索方法,其特征在于,若搜索关键词多于一个,还包括:对每个搜索关键字设定权重,根据查找到的文档中所有搜索关键字的加权关联度之和对查找到的文档进行排序。
5.根据权利要求1所述的基于数据库的文档搜索方法,其特征在于,所述对每个待搜索的文档建立搜索关键词与文档之间的倒排索引,还包括:为倒排索引增加词索引,词索引以树的形式进行存储,以便于快速查找关键词对应的倒排索引。
6.根据权利要求1所述的基于数据库的文档搜索方法,其特征在于,所述对数据库中的待搜索的文档进行采集,还包括:
在数据库更新时对待搜索的文档进行增量采集;
或,对数据库中的待搜索的文档进行定时增量采集。
7.根据权利要求6所述的基于数据库的文档搜索方法,其特征在于,所述对数据库中的待搜索的文档进行采集,具体为:基于logstash对数据库中的数据进行分页批量采集。
8.根据权利要求1所述的基于数据库的文档搜索方法,其特征在于,所述将采集到的待搜索的文档放入搜索服务器进行汇总,具体为:将采集到的待搜索的文档汇总至elasticsearch服务器中进行数据存储。
9.根据权利要求1所述的基于数据库的文档搜索方法,其特征在于,所述对汇总后的每个待搜索的文档进行分词,具体为:使用elasticsearch-analysis-ik分词器对每个待搜索的文档进行分词。
10.一种基于数据库的文档搜索的装置,其特征在于:
包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9任一所述的基于数据库的文档搜索的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉灯塔之光科技有限公司,未经武汉灯塔之光科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010292856.6/1.html,转载请声明来源钻瓜专利网。