[发明专利]基于置信度的知识表示学习方法在审
申请号: | 201810146689.7 | 申请日: | 2018-02-12 |
公开(公告)号: | CN110309310A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 刘知远;谢若冰;林芬;林乐宇 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识表示 三元组 置信度 图谱 能量方程 评价函数 构建 向量 学习 平移 关系向量 相似度 最小化 噪声 冲突 发现 | ||
本发明提供基于置信度的知识表示学习方法,本方法获取知识图谱中的三元组;基于平移假设下的三元组不相似度公式和三元组置信度公式,构建能量方程;根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量和关系向量的表示。本发明具有在带有噪声或冲突的知识图谱中,学习到更好的知识表示向量,同时能够发现已有知识图谱中可能存在的错误的有益效果。
技术领域
本发明涉及自然语言处理以及知识表示学习技术领域,更具体地,涉及基于置信度的知识表示学习方法。
背景技术
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题。于是,知识图谱应运而生。
知识图谱旨在构建一个结构化信息的数据库,将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体,将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图,其中实体是图中的节点,而关系则作为图中的边。在典型的知识图谱中,世界的海量知识被表示为实体之间利用关系作为连接的三元关系组。例如,针对中国是处于亚洲的国家这一知识,知识图谱使用三元组关系(中国,处于……洲,亚洲)来进行表示。传统的自然语言处理存在歧义性的问题,而在知识图谱的构建中,一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元组记录了实体之间的内在联系以及实体自身的属性,被广泛运用于信息检索、问答系统和数据挖掘等多个领域。
知识图谱描述世界上的实体和实体之间的关系,蕴含的知识数量巨大且时常更新。人工标注已经不能满足知识图谱更新和增长的速度,而自动化构建知识图谱的过程中又往往容易引入一些噪声和冲突。
综上所述,现有技术中亟待提供一种在带有噪声或冲突的知识图谱中,学习到更好的知识表示向量,同时能够发现已有知识图谱中可能存在的错误的知识表示学习方法。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的知识表示学习方法。
根据本发明实施例的第一方面,提供了一种知识表示学习方法,包括:
获取知识图谱中的三元组;
基于平移假设下的三元组不相似度公式和三元组置信度公式,构建能量方程;
根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量和关系向量的表示。
进一步,所述基于平移假设下的三元组不相似度公式和三元组置信度公式,构建能量方程,之前还包括:
确定平移假设下的三元组不相似度公式,确定三元组置信度公式。
进一步,所述基于平移假设下的三元组不相似度的公式为:
E(h,r,t)=||h+r-t||
其中(h,r,t)为三元组的向量表达;E(h,r,t)为基于平移假设下的三元组不相似度;向量h为头实体,向量t为尾实体,向量r为两实体的关系。
进一步,所述三元组置信度的公式为:
C(h,r,t)=λ1·LT(h,r,t)+λ2·PP(h,r,t)+λ3·AP(h,r,t)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810146689.7/2.html,转载请声明来源钻瓜专利网。