[发明专利]一种基于子图嵌入的跨语言实体对齐方法在审
申请号: | 202010823162.0 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111931505A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 张春霞;薛惠民;汪安平;道捷;彭成;牛振东 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入 语言 实体 对齐 方法 | ||
本发明公开了一种基于子图嵌入的跨语言实体对齐方法,属于知识图谱构建和大数据挖掘技术领域。包括:步骤1:构建实体信息、属性信息、训练集和测试集;步骤2:构建训练集的实体嵌入矩阵初始值,跨语言知识图谱KG1和KG2的邻接矩阵;步骤3:基于训练集,训练图卷积网络模型,生成实体的嵌入表示;步骤4:在利用训练集完成图卷积网络模型的参数训练后,将测试集输入至图卷积网络模型,基于图卷积网络和子图嵌入,生成测试集中实体的嵌入表示;步骤5:判别测试集中的实体对齐关系。所述方法通过图卷积网络模型和带有注意力机制的子图嵌入生成实体结点的嵌入表示,提高了跨语言实体对齐的识别性能,在多语言信息检索及问答系统等领域具有广阔的应用前景。
技术领域
本发明涉及一种基于子图嵌入的跨语言实体对齐方法,属于知识图谱构建和大数据挖掘技术领域。
背景技术
跨语言实体对齐是知识图谱构建、知识融合领域的重要研究课题。跨语言实体对齐是指,对于来自不同自然语言知识图谱的实体,判断一种自然语言表示的实体是否与另一种自然语言表示的实体存在映射关系,其中映射关系是指这两个实体的内涵和外延相同。因此,通过跨语言实体对齐技术能够融合不同自然语言的知识图谱,实现知识共享和重用,为智能搜索、自动问答和自动文摘等应用提供知识支撑。
实体对齐方法主要包括基于相似度的方法、基于机器学习的方法、基于深度学习的方法等。基于相似度的方法是指通过计算实体词汇的相似度、实体的邻居结点结构的相似度等来判断两个实体词汇是否表示同一实体。基于机器学习的方法是指根据实体的属性和结构信息等,采用支持向量机、决策树等分类或聚类方法来判断两个实体是否对齐。基于深度学习的方法主要包括基于循环神经网络方法、基于图匹配神经网络的方法,以及基于多通道图神经网络的方法等。
图卷积神经网络(Graph Convolutional Network,简称GCN)是通过图数据进行深度学习的神经网络,能够学习图中结点信息和结点之间的关联边信息。其目标是为图中的每个结点生成嵌入表示,也就是通过信息在神经网络层和结点之间的传播来生成每个结点的低维向量表示。图卷积神经网络的卷积方法可以分为两类,即顶点域卷积方法和频域卷积方法。顶点域或空间域的卷积方法是指利用结点自身的特征信息,以及结点之间的关联关系边来传播结点特征信息。频域卷积方法是指利用图的拉普拉斯矩阵、傅里叶变换来学习每个图节点的特征信息。
实体对齐是本体对齐的重要研究内容,目前采用图卷积神经网络技术来解决跨语言实体对齐任务的研究工作较少。
发明内容
本发明的目的在于针对现有基于机器学习和深度学习的跨语言实体对齐方法存在准确率较低的技术缺陷,提出了一种基于子图嵌入的跨语言实体对齐方法。利用子图嵌入和图卷积神经网络生成知识图谱中实体的嵌入表示,再根据实体的嵌入表示的相似度,判断两个实体是否具有对齐关系;所述跨语言实体对齐是指对于两种自然语言表示的知识图谱KG1和KG2,判断KG1和KG2中的实体词汇是否描述真实世界同一实体。
本发明的目的是通过以下技术方案实现的。
所述基于子图嵌入的跨语言实体对齐方法,包括以下步骤:
步骤1:构建实体信息、属性信息、训练集和测试集;
其中,实体信息包括实体列表、实体编号列表,以及关系三元组;属性信息包括属性列表、属性编号列表,以及属性三元组的编号列表;
实体信息和属性信息从两种自然语言表示的知识图谱KG1和KG2中提取;
知识图谱以三元组知识形式存储,包括关系三元组知识和属性三元组知识;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010823162.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种饮料生产用灌装设备
- 下一篇:一种基于图信息增强的实体关系抽取方法