[发明专利]一种基于知识图谱模型的信息检索方法有效
申请号: | 202211388526.2 | 申请日: | 2022-11-08 |
公开(公告)号: | CN115438141B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 刘伟华;严宇 | 申请(专利权)人: | 智慧眼科技股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06N3/04;G06N3/08;G06F16/332;G06F16/33;G06F16/335;G06F16/36;G06F40/284 |
代理公司: | 深圳众鼎汇成知识产权代理有限公司 44566 | 代理人: | 朱业刚 |
地址: | 410205 湖南省长沙市高新*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 模型 信息 检索 方法 | ||
1.一种基于知识图谱模型的信息检索方法,其特征在于,包括以下步骤:
获取文本知识资料,并基于所述文本知识资料构建语料库;
采用分词方法对所述语料库中的每个句子进行分词处理,根据得到的分词结果进行实体词抽取、关系词抽取和停用词抽取;
根据抽取的实体词、关系词和停用词数据处理构建四元组子图数据,并将所述四元组子图数据存储至图数据库,完成知识图谱的构建,所述四元组子图数据结构类型为“实体词—关系词—实体词—停用词”;
在接收到用户输入的查询请求时,对所述查询请求中的自然语言问句进行分析,得到所述自然语言问句对应的实体词,根据所述自然语言问句对应的实体词和所述知识图谱中的四元组子图数据检索出问题的答案;
所述根据抽取的实体词、关系词和停用词数据处理构建四元组子图数据之前,所述方法还包括:
构建一个修饰关系预测模型,所述修饰关系预测模型用于确定第一实体词和第二实体词之间的修饰关系;
所述修饰关系预测模型的构建步骤如下:
构建训练样本集,所述训练样本集包括不同的文本知识资料样本语句及其语句标注信息,所述文本知识资料样本语句为与用户可能会问到的自然语言问句相关的文本信息,所述语句标注信息包括文本中的实体词以及实体词之间的修饰关系标签,若文本中两个实体词之间没有关系词,则用“缺失”进行填充;
将训练样本集中的样本语句进行向量化处理,得到对应的样本语句特征向量,将所述样本语句特征向量转化为可以被并行操作的数据集RDD,基于所述数据集RDD,利用朴素贝叶斯分类算法训练得到朴素贝叶斯分类器;
获取待处理文本知识资料中的分词结果,并将分词后的待处理文本知识资料中的语句转换为语句向量;
将转换后的语句向量输入训练好的朴素贝叶斯分类器,输出与待处理文本知识资料中的语句相对应的标签,根据标签得到第一实体词和第二实体词信息。
2.如权利要求1所述的基于知识图谱模型的信息检索方法,其特征在于,所述基于所述文本知识资料构建语料库包括:
对所述文本知识资料进行篇章划分和句子划分;
为每个句子分配一个id,采用每个句子构建一个子图数据;
记录每个子图数据对应的id的前一个子图数据对应的id和后一个子图数据对应的id,并将记录的id信息和每个句子的内容进行关联存储得到语料库。
3.如权利要求2所述的基于知识图谱模型的信息检索方法,其特征在于,根据抽取的实体词、关系词和停用词数据处理构建四元组子图数据包括:
根据抽取的实体词、关系词和停用词数据,将没有修饰关系的第一实体词、关系词和停用词数据构建成序列,若两个第一实体词之间没有关系词,则用“缺失”进行填充;
将第二实体词按照修饰关系,连接到所述序列中的第一实体词上,完成一个子图的构建。
4.如权利要求3所述的基于知识图谱模型的信息检索方法,其特征在于,所述根据抽取的实体词、关系词和停用词数据处理构建四元组子图数据还包括:
构建主实体词预测模型,所述主实体词预测模型用于确定每个句子所有第一实体词中的主实体词,所述主实体词为每个句子针对的实体词,所述主实体词预测模型为一关键词抽取模型。
5.如权利要求4所述的基于知识图谱模型的信息检索方法,其特征在于,将所述主实体词预测模型抽取得到的主实体词与所有含有所述主实体词的句子的id进行关联记录,则得到所述主实体词对应的所有子图的id,并将记录数据存储至图数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧眼科技股份有限公司,未经智慧眼科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211388526.2/1.html,转载请声明来源钻瓜专利网。