[发明专利]知识库实体对齐方法和装置在审

专利信息
申请号: 202010104948.7 申请日: 2020-02-20
公开(公告)号: CN113282676A 公开(公告)日: 2021-08-20
发明(设计)人: 李涓子;李成江;史佳欣;侯磊;张鹏;唐杰;许斌 申请(专利权)人: 清华大学
主分类号: G06F16/28 分类号: G06F16/28;G06N3/04
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 马瑞
地址: 100084 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识库 实体 对齐 方法 装置
【说明书】:

发明实施例提供一种知识库实体对齐方法和装置,所述方法包括使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。本发明实施例提供的知识库实体对齐方法和装置,能充分地利用有限的预先对齐的实体对,很好地处理异构知识库之间的差异,提升实体对齐的效果。

技术领域

本发明涉及知识库处理技术领域,更具体地,涉及一种知识库实体对齐方法和装置。

背景技术

知识库可以为不同的应用提供各种结构化知识,由于这些知识库具有不尽相同的构造目的,知识之间存在很大的异构性,同时也会包含一些互补知识。为了更好的支持上层的跨语言问答系统、跨语言推荐系统等任务,融合不同的知识库成为一个重要的研究方向。其中,实体对齐就是知识库融合的一项关键技术。

知识库实体对齐方法的第一种方法,主要利用实体文本信息、实体属性信息、实体网络结构信息等,计算一系列相似度,然后通过人为设定的阈值,或是机器学习中的分类算法,来实现对给定实体对是否为等价实体的判定。这种对齐方法依赖于大量的人工特征设计来得到相似度计算方法,在知识库规模较大时,耗时耗力。另外,不同知识库的知识结构往往差异较大,难以针对所有实体对齐任务设计出一套统一且高效的特征抽取方法。

知识库实体对齐方法的第二种方法,采用基于表示学习的方法来对知识库中的实体进行对齐。主要的步骤是,使用知识库表示学习的方法,分别对需要对齐的两个知识库进行表示学习,得到实体的向量表示,然后依赖少量预先对齐的实体对(即等价实体对),最小化等价实体对之间实体的距离,达到将两个知识库的实体表示到同一个向量空间的目的,从而完成实体对齐,得到实体对齐的知识库。这种知识库实体对齐方法虽不依赖于人工特征设计,但效果受限于预先对齐的实体对数量,当预先对齐的等价实体对规模较小时,效果很难让人满意。其次,这类方法同样未能很好地处理异构知识库之间的差异,当两个知识库结构存在差异时,实体对齐的效果也会受到影响。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的知识库实体对齐方法、装置、电子设备和可读存储介质。

第一方面,本发明实施例提供一种知识库实体对齐方法,包括:使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。

在一些实施例中,所述使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示包括:对于任一知识库,获取所述任一知识库的实体及所有实体的邻居集合;将包括一个实体的向量表示矩阵和所述邻居集合输入至所述图注意力神经模型,得到所述图注意力神经模型输出的所述实体向量表示;其中为有理数,n为所述任一知识库的实体数量,d为向量表示的维度。

在一些实施例中,所述知识库实体对齐方法还包括:所述图注意力神经模型包括L层卷积层,每一层应用公式H(l+1)=σ(A(l)H(l)W(l))确定,其中,为第l层的隐状态,为第l层的参数,H(0)=X,σ(·)为非线性激活函数ReLU(·)=max(0,·),为所述任一知识库在自注意力机制作用下的连接性矩阵,A(l)的每一个元素表示所述任一知识库中实体ei到ej的权重,A(l)应用公式

确定。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010104948.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top