[发明专利]知识图谱链接错误的查修方法、装置及存储介质有效
申请号: | 201910842958.8 | 申请日: | 2019-09-06 |
公开(公告)号: | CN110704634B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 刘利 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F18/214;G06F18/22;G06F18/30;G06N3/042;G06N3/08 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 链接 错误 方法 装置 存储 介质 | ||
本发明涉及知识图谱技术领域,提出一种知识图谱链接错误的查修方法、装置及存储介质,其中的方法应用于电子装置,包括:定义知识图谱,并基于所述知识图谱构造训练数据集;基于所述训练数据集训练形成检测模型;将待检测的知识图谱输入所述检测模型进行错误检测,获取与所述待检测的知识图谱对应的错误链接;对所述错误链接进行修正,并提供与所述错误连接对应的潜在的实体间的匹配关系。本发明通过将知识图谱链接和实体类型相结合,构造局部关系分类器,从而检测图谱链接是否错误的方法,并对检测出的错误进行修正,能够自动识别和检测大型知识图谱中的链接关系,挖掘潜在的实体匹配关系,修正错误的链接,提升知识图谱整体的数据质量。
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种知识图谱链接错误的查修方法、装置及计算机可读存储介质。
背景技术
目前,知识图谱的构建方式通常包括两种:手动构建和自动构建。目前的机器智能大规模的依赖于这两种方式构建的知识图谱。其中手动构建的知识图谱精度高,但是规模有限;自动构建的知识图谱覆盖率高,但是准确度相对较低。知识图谱的构建很大程度上来源于半结构化或非结构化的数据源。一方面,通过对半结构/非结构数据的解析,从而生成图谱中的实体之间的链接关系,这个过程是很难保证是准确无误的;另一方面,半结构/非结构数据源本身也有可能是带有错误信息的。因此如何能通过一种手段使得知识图谱中的错误链接能够被自动检测和识别,是提高图谱质量的重要保证。
目前,对于知识图谱中错误链接关系(IsA关系)的诊断方法大致包括以下几种情况:
1)、通过使用频率判断:高频率的使用正确性更高,低频率的使用表明关系存在错误。这种方法只适用于频率差距很大的情况,如果知识图谱中的大部分关系都为低频关系,其诊断性能将变得很差,因此无法处理频率较为集中的知识图谱关系
2)、使用其他外源知识进行判断,包括引入新的知识图谱或者网络查询等。该方法在使用中,由于每个知识图谱都有自己的独特概念,不同知识图谱之间的概念重合度并不是很高,因此引入新的知识图谱会造成错误诊断的效率极低。
3)、使用统计学回归方法计算:统计学回归方法是一种数学方法,它使用统计技术进行数据整合,主要用于判断知识图谱当中的线性关系是否正确,而对于非线性关系效果不佳。
4)、基于知识图谱的图结构分析中点与边之间的关系进行判断:该方法将知识图谱中存在的关系视为一种有向图关系,使用相关算法在该有向图上查找圈关系,若存在圈关系,则判断为错误关系。发方法对不存在于圈结构中的错误关系无法查找,因此不具有通用性。
发明内容
本发明提供一种知识图谱链接错误的查修方法、电子装置及计算机可读存储介质。
为实现上述目的,本发明提供一种知识图谱链接错误的查修方法,应用于电子装置,所述方法包括:
定义知识图谱,并基于所述知识图谱构造训练数据集;
基于所述训练数据集训练形成检测模型;
将待检测的知识图谱输入所述检测模型进行错误检测,获取与所述待检测的知识图谱对应的错误链接;
对所述错误链接进行修正,并提供与所述错误链接对应的潜在的实体间的匹配关系。
优选地,定义所述知识图谱K=(T,A),其中,T表示Tbox,A表示Abox,A进一步包括关系声明AR和类型声明AC,参数T和A共同分为类型的集合NC、关系的集合NR和实体的集合NI;
AR={r(s,o)|r∈NR∧(s,o)∈NI}
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910842958.8/2.html,转载请声明来源钻瓜专利网。