[发明专利]文档查询方法、装置、存储介质及电子设备在审
申请号: | 202011570077.4 | 申请日: | 2020-12-26 |
公开(公告)号: | CN112597277A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 俞宣伊;黄荣;刘俊峰;谭文静;孙丽黎;初娜;熊浩 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张建 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 查询 方法 装置 存储 介质 电子设备 | ||
本发明实施例提供了一种文档查询方法、装置、存储介质及电子设备,可以获得用户输入的目标词组;获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;将获得的至少一个文件节点对应的文档确定为查询结果。本发明无需进行全文查询,查询速度较快。
技术领域
本发明涉及文档查询技术领域,特别是涉及文档查询方法、装置、存储介质及电子设备。
背景技术
随着电子化办公的普及,各种文档越来越多。用户常需要查询某些文档。
当前对文档的查询一般直接根据用户输入的检索词在文档中进行全文查询,当某个文档中包括有检索词时,则将该文档作为查询结果输出。
但是,全文查询的查询速度较慢。
发明内容
本发明实施例的目的在于提供一种文档查询方法、装置、存储介质及电子设备,以提高查询速度。具体技术方案如下:
一种文档查询方法,包括:
获得用户输入的目标词组;
获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;
在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;
将获得的至少一个文件节点对应的文档确定为查询结果。
可选的,所述获得所述目标词组的相似词组,包括:
获得所述目标词组的词向量;
在所述目标词组对应的领域的预设词向量字典中,获得与所述目标词组的词向量的相似度满足预设相似度要求的词组,将所述预设相似度要求的词组确定为所述目标词组的相似词组。
可选的,所述预先构建的知识图谱为所述目标词组对应的领域的知识图谱,和/或,所述关键词节点位于与所述关键词节点具有直接连接关系的文档节点对应的文档中。
可选的,所述在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点,包括:
使用所述待查询词组构建知识图谱查询语句,执行所述知识图谱查询语句,其中,所述知识图谱查询语句用于:
在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,并在查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点。
可选的,所述预先构建的知识图谱的构建过程包括:
获得多个文档;
对所述文档进行分词处理,获得多个词组;
将所述多个词组中的停用词去除;
通过预设关键词抽取算法,从去除所述停用词后的所述多个词组中抽取关键词;
根据所述多个文档与所述关键词的包含关系,建立三元组;
根据所述三元组在知识图谱中建立所述关键词节点、所述文档节点以及所述直接连接关系。
一种文档查询装置,包括:目标词组获得单元、相似词组获得单元、节点查询单元和结果确定单元,
所述目标词组获得单元,用于获得用户输入的目标词组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011570077.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于集群架构的容量确定方法及装置
- 下一篇:一种文件处理方法及系统