[发明专利]一种基于路径置信度的知识图谱噪声检测方法有效
申请号: | 202111393836.9 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114077676B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 马江涛;周辰宇;王艳军;李端阳;贾泽臣;马宇科;李霆;卢威光;张蓓蕾;李清扬;赵一帆 | 申请(专利权)人: | 郑州轻工业大学;河南图谱信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/16;G06N3/04;G06N3/08 |
代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 栗改 |
地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 路径 置信 知识 图谱 噪声 检测 方法 | ||
本发明提出了一种基于路径置信度的知识图谱噪声检测方法,其步骤为:首先,初始化三元组并找到所有三元组的所有路径,利用翻译模型TransE算法对每一条路径的每一个三元组进行嵌入化表示,将三元组的全部路径表示为路径嵌入序列;其中,路径嵌入序列中相邻的三元组之间形成一个节点;其次,将节点依次输入至CPLL中计算每条路径中每个节点的置信度得分;并分别将每个路Bi‑GRU中,获得每个路径的得分矩阵;最后,将每个路径的得分矩阵的L2范数作为路径置信度,并将路径置信度最高时对应的得分矩阵作为三元组的最优嵌入矩阵。本发明结合基于路径的方法和基于规则的方法,提高检测知识图谱中噪声的效率,从而提高知识图谱质量。
技术领域
本发明涉及知识图谱技术领域,特别是指一种基于路径置信度的知识图谱噪声检测方法。
背景技术
现如今,知识图谱在解决人工智能任务方面起着重要作用。然而,手动或自动构建的知识图谱有很多质量问题,通常会包含一些错误或缺失的三元组。知识图谱中的噪声可能是由人的失误或数据中的错误引起的,大多数噪声表现为三元组中的错误实体或关系。目前,越来越多的学者开始关注知识图谱噪声问题,并提出了很多解决方案。
知识图谱中的噪声检测方法可以大致分为基于路径的方法和基于规则的方法。基于路径的方法始于TransE、TransH、TransR等翻译模型,尽管它们多用于知识图谱嵌入表示和补全,但这些翻译模型也能用于检测知识图谱中的噪声。Melo等人提出PaTyBRED模型,将类型和路径特征融入到局部关系分类器中,为每个关系保留特定的路径,以指示三元组是否是错误。Xie等人提出CKRL模型,利用三元组的局部和全局信息来表示三元组出错的概率。然而,基于路径的方法在发现噪声的能力上较弱,不适合处理含有复杂关系的知识图谱。与基于路径的方法相比,基于规则的方法通常具有较强的噪声检测能力。Brocheler等人提出PSL模型,使用一阶谓词逻辑和加权规则,从不确定的三元组中提取最有可能正确的三元组。Abedini等人提出Correction Tower,分三个步骤识别三元组中的离散、不一致和错误关系。然而,基于规则的方法缺失知识表示的能力,即当基于规则的方法检测并排除知识图谱中的噪声后,还需要将知识图谱映射到连续的向量空间,以便让下游任务中更方便地操作知识图谱。
如果能将基于路径的方法和基于规则的方法相结合,不仅可以发现噪声,还能构建无噪声的知识图谱表示。具体地来说,首先在三元组的路径中,制定规则筛选出有效特征。要求这些特征能够明显区分噪声信息和正确信息,并且正确信息中要包含全局三元组信息和局部三元组信息。然后利用这些特征来完成噪声检测和三元组表示工作,提高知识图谱质量,从而提高用户体验。
发明内容
针对现有基于路径的方法在发现噪声的能力上较弱,不适合处理含有复杂关系的知识图谱以及基于规则的方法缺失知识表示的能力的技术问题,本发明提出了一种基于路径置信度的知识图谱噪声检测方法,结合基于路径的方法和基于规则的方法,提高检测知识图谱中噪声的效率,从而提高知识图谱质量。
本发明的技术方案是这样实现的:
一种基于路径置信度的知识图谱噪声检测方法,其步骤如下:
步骤一:初始化三元组的数量,找到所有三元组的所有路径,利用翻译模型TransE算法对每一条路径的每一个三元组进行嵌入化表示,将三元组的全部路径表示为路径嵌入序列;其中,路径嵌入序列中相邻的三元组之间形成一个节点,节点数量为n;
步骤二:将节点依次输入至基于置信度的基于相关度的概率逻辑层(CPLL),计算每条路径中每个节点的置信度得分矩阵;
步骤三:分别将每个路径中的所有节点的置信度得分矩阵输入到Bi-GRU中,获得每个路径的得分矩阵;
步骤四:将每个路径的得分矩阵的L2范数作为路径置信度,并将路径置信度最高时对应的得分矩阵作为三元组的最优嵌入矩阵。
优选地,在步骤二中,具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学;河南图谱信息科技有限公司,未经郑州轻工业大学;河南图谱信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111393836.9/2.html,转载请声明来源钻瓜专利网。