[发明专利]一种基于知识图谱的文件搜索方法与系统在审
申请号: | 202211493075.9 | 申请日: | 2022-11-25 |
公开(公告)号: | CN115757738A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 陈丞;谢赟;吴新野;韩欣 | 申请(专利权)人: | 上海德拓信息技术股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36 |
代理公司: | 上海中外企专利代理事务所(特殊普通合伙) 31387 | 代理人: | 牛怡 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 文件 搜索 方法 系统 | ||
本发明公开了一种基于知识图谱的文件搜索方法与系统,方法包含:获取知识图谱中实体和关系数据并进行分类后保存为分类数据;获取待检索的短语,并通过分类数据进行处理得到短语中的关键词及其类型数据;根据关键词及其类型数据处理生成查询语句,将查询语句在图数据库中进行查询得到查询结果,根据查询结果按照规则处理生成搜索词集列表和条件词集列表;对搜索词集列表中的词汇在ElasticSearch中进行文件搜索得到搜索结果数据,根据搜索结果数据中每个词汇的分数进行计算得到词汇得分,根据条件词集列表对词汇得分进行计算得到文件得分;将文件得分进行倒序排列,得到前K个与短语最相关的文件。
技术领域
本发明涉及知识图谱领域,具体涉及一种基于知识图谱的文件搜索方法与系统。
背景技术
知识图谱是一种基于图数据库的数据存储方式,通过节点-关系-节点的模式构建知识网络。随着人工智能技术的发展,利用知识图谱搜索来解答或者解决问题成为一种趋势;在实际工作中,文件往往是承载内容的重要方式,因此利用知识图谱来快速检索文件是一种非常重要的应用;目前文件检索还是以检索关键词为主,系统不能智能的识别用户的意图,因此需要一种更贴近用户意图的文件检索方法来解决。
发明内容
本发明要解决的技术问题是系统无法识别用户输入的检索短语的意思和意图,检索结果不满足用户的需求,不匹配用户的意图,本发明提供一种基于知识图谱的文件搜索方法,本发明还提供一种基于知识图谱的文件搜索系统,采用了数据分类的方式,再通过逻辑推理来识别用户的意图,并通过对图数据库查询的进一步处理来获得更精准的搜索关键词;采用了条件得分机制,通过逻辑推理来生成条件关键词列表生成规则,并通过对图数据库的查询来进一步确定条件关键词;通过以上方法提高了用户意图的识别能力和文件得分的合理性,从而使得检索结果更符合用户的需求和意图,用以解决现有技术导致的缺陷。
为解决上述技术问题本发明提供以下的技术方案:
第一方面,一种基于知识图谱的文件搜索方法,其中,包含以下步骤:
步骤1:获取知识图谱中实体和关系数据并进行分类后保存为分类数据;
步骤2:获取待检索的短语,并通过所述分类数据进行处理得到所述短语中的关键词及其类型数据;
步骤3:根据所述关键词及其类型数据处理生成查询语句,将所述查询语句在图数据库中进行查询得到查询结果,根据所述查询结果按照规则处理生成搜索词集列表和条件词集列表;
步骤4:对所述搜索词集列表中的词汇在ElasticSearch中进行文件搜索得到搜索结果数据,根据所述搜索结果数据中每个所述词汇的分数进行计算得到词汇得分,根据所述条件词集列表对所述词汇得分进行计算得到文件得分;
步骤5:将所述文件得分进行倒序排列,得到前K个与所述短语最相关的文件。
上述的一种基于知识图谱的文件搜索方法,其中,步骤1中所述知识图谱通过将文本数据导入使用neo4j创建的图数据库中进行建立;
所述知识图谱中的所述实体和关系数据按照label数据类型、concept数据类型、instance数据类型、relationship数据类型、attributekey数据类型、attributevalue数据类型进行分类后保存为所述分类数据;
所述分类数据为jieba外部字典文件;
步骤2中获取待检索的所述短语后载入所述jieba外部字典文件,并通过jieba分词工具包对待所述短语进行分词、过滤得到所述关键词及其类型数据。
上述的一种基于知识图谱的文件搜索方法,其中,所述文本数据包含实体和关系数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211493075.9/2.html,转载请声明来源钻瓜专利网。