[发明专利]一种知识图谱三元组的质检方法在审
申请号: | 202110142051.8 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112819162A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 王斌;李雨繁;赵元;杨晓春 | 申请(专利权)人: | 东北大学 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N3/04;G06N3/08 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 三元 质检 方法 | ||
本发明公开一种知识图谱三元组的质检方法,属于知识图谱技术领域。获取知识图谱三元组数据集并进行预处理;从预处理知识图谱三元组数据集中提取噪声三元组和正确三元组进行标注后构成训练数据集;构建有向图以及有向子图;利用TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,得到每一三元组的知识表示向量;根据知识表示向量和有向子图求解数据集中每一三元组的实体级特征和训练数据集中每一三元组的全局特征、路径级特征及语义级特征;利用训练数据集中每一三元组的实体级特征、全局特征、路径级特征及语义级特征对二分类器进行训练;应用训练好的二分类器得到每一给定三元组的置信度,合理和准确地评估三元组置信度。
技术领域
本发明属于知识图谱技术领域,具体涉及一种知识图谱三元组的质检方法。
背景技术
知识图谱对于各个领域的作用已经不言而喻,越来越多的软件和应用基于知识图谱搭建。但这些领域在使用知识图谱的时候都是默认知识图谱是完全正确的,然而若图谱本身的内容存在问题,会严重影响上层应用的效果,因此保证知识图谱数据本身的准确性至关重要。在知识图谱刚发展阶段,互联网上各个公司对知识图谱的规模要求相对较低,可以采用人工提取的方式提取三元组和人工辨别知识图谱内的三元组是否正确。但如今,小规模知识库已经无法满足快速迭代的业务需求,而且获取三元组的方式变成使用各类信息抽取算法进行大规模挖掘。虽然抽取三元组的算法正在日益完善,但是由于是机器进行抽取因此在数据量大量扩充的时候,噪声数据依然随着算法被一同引入到所构建的知识图谱里面。
随着机器学习和神经网络的快速兴起,为发现现有的知识图谱中可能存在的错误提供了可能,帮助进一步提高知识图谱的质量,因此知识图谱的质量检测成为越来越重要的研究方向。研究人员引入了三元组置信度的概念,表示三元组表达的知识真实的确定性程度。置信度的值所在范围为[0,1],值越接近0表明该三元组是错误的概率越大,反之,值越接近1则表明该三元组是真实的概率越大。然而在现有的知识图谱三元组的质检方法中只考虑了知识图谱的结构信息,利用知识表示模型(TransE)将每个节点和关系表示成一个向量,利用三元组对应的三个向量来判断该三元组是否正确。该种方法只考虑到了三元组的结构信息,而三元组之间的路径信息以及三元组表示的语义信息没有考虑完全,因此并不能准确地评估三元组置信度。
发明内容
针对现有技术存在的不足,本发明提出了一种利用知识图谱的结构信息、路径信息和语义信息的知识图谱三元组的质检方法,旨在更加合理和准确的对三元组的置信度进行评估。
为了解决上面的问题,本发明的技术方案是:
一种知识图谱三元组的质检方法,包括如下步骤:
步骤1:获取现有知识图谱三元组数据集;
步骤2:对步骤1获取的知识图谱三元组数据集进行预处理,将该数据集中的部分三元组处理成噪声三元组,得到由正确三元组和噪声三元组组成的预处理知识图谱三元组数据集;
步骤3:从预处理知识图谱三元组数据集中提取部分噪声三元组和正确三元组进行标注区分后构成训练数据集;根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图;利用知识表示模型TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,从而得到每一三元组的知识表示向量;
步骤4:根据有向子图求解数据集中每一三元组的实体级特征;根据知识表示向量求解出训练数据集中每一三元组的全局特征;根据有向子图和知识表示向量求解训练数据集里每一三元组的路径级特征;利用Bert编码器求解训练数据集中每一三元组的语义级特征;
步骤5:将训练数据集中每一三元组的实体级特征Rh(m)、全局特征P(E(h,r,t))、路径级特征PATH以及语义级特征SEM均输入二分类器,对二分类器进行训练,得到训练好的二分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110142051.8/2.html,转载请声明来源钻瓜专利网。