[发明专利]基于知识库内头尾实体分布的关系相似度度量方法及系统有效
申请号: | 201910639564.2 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110472233B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 刘知远;陈暐泽;朱昊;韩旭;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06K9/62 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 马英迪 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 库内 头尾 实体 分布 关系 相似 度量 方法 系统 | ||
本发明实施例提供一种基于知识库内头尾实体分布的关系相似度度量方法及系统,所述方法包括:获取待比较的两个关系;获取所述两个关系各自对应的头尾实体分布;计算两个关系各自对应的头尾实体分布之间的KL散度,基于计算得到的KL散度确定所述两个关系间的相似度。基于知识库内头尾实体分布的关系相似度度量方式,能够利用知识库中头尾实体的信息来确定两个关系之间的相似度。同时由于本发明实施例关注于两个关系头尾实体的分布,增强了对于两个关系相似度的可解释性。
技术领域
本发明涉及自然语言处理以及知识表示学技术领域,尤其涉及一种基于知识库内头尾实体分布的关系相似度度量方法及系统。
背景技术
为了结构化地对现实世界的知识进行存储和处理,同时便于计算机模型能够在知识的辅助下取得更好的表现效果,人们建立了很多大规模的知识图谱,例如Wikidata、Dbpedia和YAGO等。知识图谱将人物、地名、机构名等专有名词与事物作为实体,将实体之间的联系作为关系,最终以“(头实体,关系,尾实体)”的三元关系组形式储存知识。例如,“姚明在上海出生”这一知识,在知识图谱中则利用三元组关系(姚明,在…出生,上海)进行表示。
基于现有的知识库,人们在许多任务上进行了探究,例如知识库自动补全、关系抽取等。我们发现在这些任务中,现有的模型往往难以对相似的关系进行区分。如果能够对关系之间的相似度进行度量,我们就能够在模型的训练过程中有针对性地强化模型区分相似关系的能力,从而增强模型的能力。
发明内容
本发明实施例提供一种基于知识库内头尾实体分布的关系相似度度量方法及系统,用以解决现有技术中度量实体关系之间的相似度效果不尽人意的问题,实现更好地量化知识库中关系之间的相似度,并保证该度量方式确定出的相似度与人对相似度的认知存在高度的相似性。
本发明实施例提供一种基于知识库内头尾实体分布的关系相似度度量方法,包括:
获取待比较的两个关系;
获取所述两个关系各自对应的头尾实体分布;
计算两个关系各自对应的头尾实体分布之间的KL散度,基于计算得到的KL散度确定所述两个关系间的相似度。
进一步地,所述计算两个关系各自对应的头尾实体分布之间的KL散度的步骤,进一步包括:
基于蒙特卡罗模拟,计算两个关系各自对应的头尾实体分布之间的KL散度。
进一步地,所述获取待比较的两个关系的步骤,之前还包括:
定义三元关系组的分布,定义三元关系组分布的计算方式。
进一步地,所述定义三元关系组的分布,定义三元关系组分布的计算方式的步骤,之后还包括:
计算优化模型参数,基于所述优化模型参数对三元关系组的分布进行优化。
进一步地,所述基于蒙特卡罗模拟,计算两个关系各自对应的头尾实体分布之间的KL散度的步骤,进一步包括:
基于下式计算两个关系各自对应的头尾实体分布之间的KL散度:
其中DKL(·||·)代表KL散度;代表关系r1对应的头尾实体分布,代表关系r2对应的头尾实体分布;h和t分别为关系对应三元关系组内的头实体和尾实体;θ*为模型参数;是从中采样出来的头尾实体对集合。
进一步地,所述θ*满足如下条件:
其中是一个关系三元组的集合,ε为实体的集合,为关系的集合;θ为优化前的参数模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910639564.2/2.html,转载请声明来源钻瓜专利网。