[发明专利]构建知识图谱方法、装置、介质及电子设备有效
申请号: | 201910883151.9 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110674312B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 杨铭;李渊;刘设伟 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 石海霞;章侃铱 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 知识 图谱 方法 装置 介质 电子设备 | ||
1.一种构建知识图谱方法,其特征在于,包括:
获取包含非结构化文本的非结构化文本库;
根据包含实体词汇的实体词汇库和包含关系词汇的关系词汇库对所述非结构化文本库中的非结构化文本进行自然语言处理,得到所述非结构化文本的词汇,所述关系词汇库中的每个关系词汇为实体词汇之间的词汇;
利用实体识别模型和关系识别模型分别对所述非结构化文本的词汇进行识别处理,得到所述非结构化文本的实体词汇和关系词汇以及所述实体词汇的置信度和所述关系词汇的置信度;
根据所述实体词汇的置信度和所述关系词汇的置信度,将非结构化文本的实体词汇和关系词汇分别存储到所述实体词汇库和所述关系词汇库,以更新所述实体词汇库和所述关系词汇库;
基于更新后的实体词汇库和关系词汇库构建知识图谱。
2.根据权利要求1所述的方法,在获取包含非结构化文本的非结构化文本库之前,该方法还包括:
获取包含实体词汇的实体词汇库和包含关系词汇的关系词汇库,所述实体词汇库中的每个实体词汇具有分类标识,所述关系词汇库中的每个关系词汇具有分类标识;
利用神经网络分别对所述实体词汇库中的实体词汇和所述关系词汇库中的关系词汇进行训练,并生成所述实体识别模型和所述关系识别模型。
3.根据权利要求1所述的方法,其特征在于,根据包含实体词汇的实体词汇库和包含关系词汇的关系词汇库对所述非结构化文本库中的非结构化文本进行自然语言处理包括:
根据所述实体词汇库和所述关系词汇库对非结构化文本库中的非结构化文本进行分词处理,得到所述非结构化文本的词汇;
去除所述非结构化文本中的停用词;以及
对去除停用词后的所述非结构化文本的词汇进行词性标注。
4.根据权利要求1所述的方法,其特征在于,该方法还包括:
如果所述关系识别模型在处理所述非结构化文本的一个关系词汇时得到多个置信度,对所述多个置信度进行排序,并根据排序结果,将最高的置信度作为该关系词汇的置信度;和/或
如果所述实体识别模型在处理所述非结构化文本的一个实体词汇时得到多个置信度,对所述多个置信度进行排序,并根据排序结果,将最高的置信度作为该实体词汇的置信度。
5.根据权利要求1所述的方法,其特征在于,根据所述实体词汇的置信度和所述关系词汇的置信度,将非结构化文本的实体词汇和关系词汇分别存储到所述实体词汇库和所述关系词汇库包括:
判断所述实体词汇的置信度是否大于或等于第一阈值,如果所述实体词汇的置信度大于或等于所述第一阈值,将所述实体词汇和所述实体词汇的分类标识存储到所述实体词汇库;以及
判断所述关系词汇的置信度是否大于或等于第二阈值,如果所述关系词汇的置信度大于或等于所述第二阈值,将所述关系词汇的三元组和所述关系词汇的分类标识存储到所述关系词汇库,所述关系词汇的三元组包括基于所述关系词汇和其相关联的实体词汇生成的三元组。
6.根据权利要求5所述的方法,其特征在于,基于更新后的实体词汇库和关系词汇库构建所述知识图谱,包括:
基于更新后的实体词汇库中的实体词汇及该实体词汇的分类标签和更新后的关系词汇库中的关系词汇的三元组及该关系词汇的分类标识构建所述知识图谱。
7.根据权利要求1所述的方法,其特征在于,在基于更新后的实体词汇库和关系词汇库构建所述知识图谱之后,该方法还包括:
接收用户输入的检索词;
基于所述检索词从所述知识图谱中检索出与所述检索词对应的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910883151.9/1.html,转载请声明来源钻瓜专利网。