[发明专利]一种基于多指标的知识图谱生成方法有效
申请号: | 202010126582.3 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111400503B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 何宇轩;牟昊;徐亚波;李旭日 | 申请(专利权)人: | 广州数说故事信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/33 |
代理公司: | 广州恒华智信知识产权代理事务所(普通合伙) 44299 | 代理人: | 张培祥 |
地址: | 510000 广东省广州市天河区黄埔大道西100号之一*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 指标 知识 图谱 生成 方法 | ||
1.一种基于多指标的知识图谱生成方法,其特征在于,包括以下步骤:
S001,定义数据库数据结构,定义的数据结构包括实体、关系、实体属性和关系属性四种类型;所述实体最少包含名称、别称、文档ID三个属性;所述关系为两个实体之间的有向链接,链接从起始实体出发,指向结束实体,并最少包含名称属性;所述实体属性对应到具体的实体,为该对应实体中的键值对信息;关系属性对应到具体的关系,为该对应关系中的键值对信息;
S002,输入信息;所述信息为实体、关系、实体属性和关系属性中的一种或多种;
S003,对输入的信息分别逐一进行匹配,匹配成功直接执行步骤S007,匹配失败执行步骤S004;
S004,信息匹配:根据匹配失败信息的数据结构类型,相应生成处理方案;包含实体、关系、实体属性和关系属性四种匹配处理流程,其中:
实体匹配处理流程包括实体匹配和实体处理方案生成;
关系匹配处理流程包括关系匹配和关系处理方案生成;
实体属性匹配处理流程包括实体属性匹配和实体属性处理方案生成;
关系属性匹配处理流程包括关系属性匹配和关系属性处理方案生成;
S005,以多指标参数计算各个处理方案的置信度;
S006,根据所述置信度选择该匹配失败信息的处理方案;包括人工选择和机器自动执行选择两种方式,并且按照实体、关系、实体属性、关系属性的顺序进行选择;若选择人工处理,根据方案的置信度和个人经验对各个输入的方案进行选择;若选择机器自动执行置信度最高的方案,则输入一个置信度阈值,若所有类别的处理方案中,置信度最大的方案大于置信度阈值时,自动执行置信度最大的处理方案,否则选择废弃;
S007,以匹配成功的输入信息或者选择的处理方案更新所述数据库的数据,即更新知识图谱,后续再次进行信息输入更新知识图谱时从步骤S002开始。
2.根据权利要求1所述的基于多指标的知识图谱生成方法,其特征在于:所述步骤S002中输入为实体、关系、实体属性和关系属性信息由人工标注或者数据模型预测得到。
3.根据权利要求1所述的基于多指标的知识图谱生成方法,其特征在于:所述步骤S002到步骤S003之间还包括信息过滤步骤,通过输入信息的声量参数和设定声量阈值进行过滤,将声量小于所述声量阈值的输入信息过滤掉。
4.根据权利要求1所述的基于多指标的知识图谱生成方法,其特征在于:所述步骤S003的信息匹配中,根据所述输入信息类型相应生成的处理方案不同,后续步骤S005计算相应处理方案置信度的方法也不相同。
5.根据权利要求4所述的基于多指标的知识图谱生成方法,其特征在于:所述输入信息类型为实体且信息匹配失败时,相应生成的处理方案包括融合到某个数据库实体中、融合到某个新实体中、新增实体和废弃四种;所述融合到某个数据库实体中和融合到某个新实体中两种处理方案的置信度由编辑距离、文本句向量和声量三个指标计算,计算公式为:置信度=(声量指标+编辑距离指标+句向量指标)/3。
6.根据权利要求4所述的基于多指标的知识图谱生成方法,其特征在于:所述输入信息类型为关系且信息匹配失败时,相应生成的处理方案包括新增关系和废弃两种;所述新增关系处理方式的置信度由起始实体和结束实体的共现声量和关系声量两个指标计算,计算公式为:置信度=(共现声量指标+声量指标)/2。
7.根据权利要求4所述的基于多指标的知识图谱生成方法,其特征在于:所述输入信息类型为实体属性且信息匹配失败时,相应生成的处理方案包括修正或新增属性和废弃两种;所述修正或新增属性处理方式的置信度由实体属性的编辑距离、声量两个指标计算,计算公式为:置信度=(编辑距离指标+声量指标)/2。
8.根据权利要求4所述的基于多指标的知识图谱生成方法,其特征在于:所述输入信息类型为关系属性且信息匹配失败时,相应生成的处理方案包括修正或新增属性和废弃两种;所述修正或新增属性处理方式的置信度由实体属性的编辑距离、声量两个指标计算,计算公式为:置信度=(编辑距离指标+声量指标)/2。
9.根据权利要求1所述的基于多指标的知识图谱生成方法,其特征在于:所述机器自动执行选择包括输入一个置信度阈值,所有类别的处理方案中,置信度最大的方案大于所述置信度阈值时,自动执行置信度最大的处理方案,否则选择废弃。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州数说故事信息科技有限公司,未经广州数说故事信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010126582.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于环境艺术设计的模拟沙盘
- 下一篇:一种印刷生产运营管理平台系统