[发明专利]一种文档检索方法、装置、电子设备及存储介质有效
申请号: | 202010346071.2 | 申请日: | 2020-04-27 |
公开(公告)号: | CN111625621B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 赵正阳;吴艳华;程智博;徐温雅;李忠华 | 申请(专利权)人: | 中国铁道科学研究院集团有限公司电子计算技术研究所;北京经纬信息技术有限公司;中国铁道科学研究院集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
地址: | 100081*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 检索 方法 装置 电子设备 存储 介质 | ||
1.一种文档检索方法,其特征在于,包括:
当接收到检索关键词时,通过预设词向量检索模型基于所述检索关键词得出目标相关词,其中,所述目标相关词为与所述检索关键词的相似度达到预设相似度的词,所述目标相关词为一个、两个或多个;
检索与所述目标相关词对应的目标检索文档,并输出所述目标检索文档;
所述文档检索方法,还包括:
通过与当前非结构化文档对应的文本提取方法,基于所述当前非结构化文档中的信息生成所述当前非结构化文档对应的文本字符;
将所述当前非结构化文档的文档信息存储至预设数据库中,基于所有非结构化文档对应的文本字符构建预设词向量检索模型,其中,所述文档信息包括文档名称、文档内容、文档存放路径;
所述基于所有非结构化文档对应的文本字符构建预设词向量检索模型,包括:
对所述所有非结构化文档对应的文本字符进行文本整合及分词处理,得到检索语料库;
统计所述语料库中的所有词汇生成所述语料库中的每个词汇对应的词向量,通过Skip-Gram模型确定任意两个词向量之间的相似度,并为所述Skip-Gram模型设定目标函数,得到预设词向量检索模型;
所述目标函数的计算公式如下:
其中,wc为目标词所对应的词向量,目标函数则是将目标词前后m个相邻单词出现概率取负对数并最小化。
2.根据权利要求1所述的文档检索方法,其特征在于,所述当前非结构化文档为PDF文档、Word文档、文本文档中的一种;
所述与当前非结构化文档对应的文本提取方法,包括:
若所述当前非结构化文档为PDF文档,则与当前非结构化文档对应的文本提取方法为光学字符识别ORC;
若所述当前非结构化文档为Word文档,则与当前非结构化文档对应的文本提取方法为Word解析;
若所述当前非结构化文档为文本文档,则与当前非结构化文档对应的文本提取方法为文本读取。
3.根据权利要求1所述的文档检索方法,其特征在于,所述检索与所述检索关键词及所述目标相关词对应的目标检索文档,并输出所述目标检索文档,包括:
通过ElasticSearch检索所述目标相关词相关的所有目标检索文档;
按照检索关键词及所述目标相关词的相似度升序/降序,对所述所有目标检索文档进行排序得到目标检索文档序列并输出。
4.根据权利要求1所述的文档检索方法,其特征在于,所述将所述当前非结构化文档的文档信息存储至预设数据库中,包括:
为所述当前非结构化文档建立检索索引,并根据所述检索索引将所述当前非结构化文档的文档信息存储至预设数据库中,以使ElasticSearch根据所述当前非结构化文档对应的检索索引从所述预设数据库中获取所述当前非结构化文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国铁道科学研究院集团有限公司电子计算技术研究所;北京经纬信息技术有限公司;中国铁道科学研究院集团有限公司,未经中国铁道科学研究院集团有限公司电子计算技术研究所;北京经纬信息技术有限公司;中国铁道科学研究院集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010346071.2/1.html,转载请声明来源钻瓜专利网。