[发明专利]一种迭代的实体对齐模型有效
申请号: | 201710565742.2 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107480191B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 刘知远;朱昊;谢若冰;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙;曹杰 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 对齐 模型 | ||
本发明提供实体对齐方法和设备用于解决传统的知识对齐方式往往需要笨重的人力劳动或者精心手动构造的问题。其中分别获得第一知识图谱KG1中实体的向量表示和第二知识图谱KG2中实体的向量表示;根据输入的对齐种子实体对集合,绑定第一知识图谱KG1和第二知识图谱KG2中表示相同含义的实体向量表示,获得第三知识图谱;根据第三知识图谱、第一知识图谱KG1中实体的向量表示和第二知识图谱中实体的向量表示,迭代计算实体向量表示之间的相似度;在迭代计算过程中,若某一对实体向量表示的距离小于阈值,则将该对实体向量表示对应的实体对加入第三知识图谱,直至第三知识图谱的实体个数不再增,本发明具有良好的实用性。
技术领域
本发明涉及计算机技术,具体涉及一种迭代的实体对齐模型。
背景技术
人们将互联网上的大量信息进行抽取,并加入不同的单一领域或开领域的知识库中。这些知识库往往有着不尽相同的结构,但是也有一些共有的性质。
知识库往往由一些实体集合E、关系集合R和三元组集合T组成,即KG=(E,R,T)。其中实体集合往往包含有客观世界上的一些有可区别性且独立存在的事物,比如“地球”、“中国”、“珠穆朗玛峰”等等。而关系集合则是描述实体之间的内在联系,比如“是……的公民”、“出生于……”等。三元组描述的是实体和实体直接的关系,也即这个集合中的元素应当是客观世界中真实的知识,比如(“巴拉克·奥巴马”,“是……的公民”,“美国”)。
虽然已有的知识图谱包含了上亿个事实,相比于无尽的现实世界,它们仍然远远没有完善。为了对知识图谱进行完善,现在有很多工作在研究如何自动的对知识图谱进行完善。大多数现存的知识图谱都是独立创建的,这些知识图谱不可避免地是异构的,所以其中的知识往往是互补的。因此融合知识图谱对于可以产生大量的知识。值得注意的是,在绝大多数知识图谱中关系的个数远小于实体的个数,所以实体的对齐是知识图谱融合的关键。
传统的知识对齐方式往往需要笨重的人力劳动或者精心手动构造的特征。虽然依靠人力的知识对齐工作往往的效果都比较好,但是,人参与的方法一般比较耗时,成本高,而且也有一些拓展的不灵活性。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的实体对齐方法和设备。
为此目的,第一方面,本发明提出一种实体对齐方法,包括步骤:分别获得第一知识图谱KG1中实体的向量表示和第二知识图谱KG2中实体的向量表示;
根据输入的对齐种子实体对集合,绑定第一知识图谱KG1和第二知识图谱KG2中表示相同含义的实体向量表示,获得第三知识图谱KG;
根据第三知识图谱KG、第一知识图谱KG1中实体的向量表示和第二知识图谱中实体的向量表示,迭代计算实体向量表示之间的相似度;在迭代计算过程中,若某一对实体向量表示的距离小于阈值,则将该对实体向量表示对应的实体对加入第三知识图谱KG,直至第三知识图谱KG的实体个数不再增加。
可选的,所述迭代计算实体向量表示之间的相似度,包括:
训练第一知识图谱KG1与第二知识图谱KG2之间的映射关系,直到评价函数L最小;其中:
L=K+I;
KT=∑(h,r,t)∈TL(h,r,t);
L(h,r,t)=∑(h′,r′,t′)∈T-[γ+E(h,r,t)-E(h′,r′,t′)]+;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710565742.2/2.html,转载请声明来源钻瓜专利网。