[发明专利]一种基于知识图谱的文件搜索方法与系统在审
申请号: | 202211493075.9 | 申请日: | 2022-11-25 |
公开(公告)号: | CN115757738A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 陈丞;谢赟;吴新野;韩欣 | 申请(专利权)人: | 上海德拓信息技术股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36 |
代理公司: | 上海中外企专利代理事务所(特殊普通合伙) 31387 | 代理人: | 牛怡 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 文件 搜索 方法 系统 | ||
1.一种基于知识图谱的文件搜索方法,其特征在于,包含以下步骤:
步骤1:获取知识图谱中实体和关系数据并进行分类后保存为分类数据;
步骤2:获取待检索的短语,并通过所述分类数据进行处理得到所述短语中的关键词及其类型数据;
步骤3:根据所述关键词及其类型数据处理生成查询语句,将所述查询语句在图数据库中进行查询得到查询结果,根据所述查询结果按照规则处理生成搜索词集列表和条件词集列表;
步骤4:对所述搜索词集列表中的词汇在ElasticSearch中进行文件搜索得到搜索结果数据,根据所述搜索结果数据中每个所述词汇的分数进行计算得到词汇得分,根据所述条件词集列表对所述词汇得分进行计算得到文件得分;
步骤5:将所述文件得分进行倒序排列,得到前K个与所述短语最相关的文件。
2.如权利要求1所述的一种基于知识图谱的文件搜索方法,其特征在于,步骤1中所述知识图谱通过将文本数据导入使用neo4j创建的图数据库中进行建立;
所述知识图谱中的所述实体和关系数据按照label数据类型、concept数据类型、instance数据类型、relationship数据类型、attributekey数据类型、attributevalue数据类型进行分类后保存为所述分类数据;
所述分类数据为jieba外部字典文件;
步骤2中获取待检索的所述短语后载入所述jieba外部字典文件,并通过jieba分词工具包对待所述短语进行分词、过滤得到所述关键词及其类型数据。
3.如权利要求2所述的一种基于知识图谱的文件搜索方法,其特征在于,所述文本数据包含实体和关系数据。
4.如权利要求3所述的一种基于知识图谱的文件搜索方法,其特征在于,步骤1中若所述实体和关系数据的数据类型为attributevalue数据类型,则通过在其尾部添加字母来区分该attributevalue数据类型所对应的attributekey数据类型。
5.如权利要求4所述的一种基于知识图谱的文件搜索方法,其特征在于,步骤2中得到所述关键词的数据类型包含在所述label数据类型、所述concept数据类型、所述instance数据类型、所述relationship数据类型、所述attributekey数据类型、所述attributevalue数据类型中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211493075.9/1.html,转载请声明来源钻瓜专利网。