[发明专利]基于近似本体匹配的知识图谱融合方法有效
申请号: | 202110581624.7 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113032516B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 陶建华;马秉政;张大伟;刘通;杨国花 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/36;G06F40/289;G06F40/295;G06K9/62 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;李雪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 近似 本体 匹配 知识 图谱 融合 方法 | ||
本发明提供基于近似本体匹配的知识图谱融合方法,包括:对待融合的知识图谱的集合进行初始化,构建倒排索引,依据所述倒排索引获取本体的共现情况,获取近似匹配本体,根据近似匹配本体提取候选实体对,在名称候选实体对集合和近似匹配本体集合中计算候选实体对在属性上的相似度,根据相似度向量的分量对候选实体初步判别,利用实体的文本特征对所述歧义实体和近义实体进行二次筛选;通过对于知识图谱的本体层进行粗筛,依据筛选结果对计算过程分块,达到缩减计算规模的目的。在各块内利用属性、名称、文本等特征计算实体相似度。
技术领域
本申请涉及人工智能知识融合领域,尤其涉及基于近似本体匹配的知识图谱融合方法。
背景技术
知识图谱是由一系列实体与关系组成的,蕴含大量结构化信息的图。它将互联网中的知识以更符合人类基本认知的形式展现出来,在现如今已被广泛应用于人工智能领域的相关应用当中。然而,不同的组织机构在构建知识图谱时,往往有不同的需求与理念,所以这些知识图谱通常拥有不同的模式结构,同一个现实事物在不同的图谱当中有不同的表现形式。在单一的知识图谱当中,所蕴含的知识往往是片面,或是有侧重的,通常情况下,我们希望使用的知识图谱所蕴含的信息尽可能全面,需要在图谱当中查漏补缺,融合不同的知识图谱从而增强下游应用。
现有的知识融合技术主要关注知识图谱的名称、关系、属性特征,将特征通过嵌入等方法变换,从而可以计算向量的距离来表示相应特征的相似程度,从而匹配异构知识图谱中的实体。
申请公布号CN112507122A提供了一种基于知识图谱的高分多源遥感数据融合方法,主要流程包括知识图谱信息抽取、知识图谱信息融合、新图谱生成、新数据融合。本技术通过对不同数据源高分影像抽取知识图谱,并对其进行深度挖掘,分析关联信息,建立两个知识图谱之间的映射关系,从而将新的知识图谱与不同数据源的影像融合成新的遥感影像。这种基于知识图谱的数据融合方式,能够直观有效的表达出不同数据源影像之间错综复杂的关系,充分利用不对称的非结构化信息,更大程度上提高了多源数据融合的可能性。
申请公布号CN111522968A提供了一种知识图谱融合方法及装置,获取目标知识图谱和多个其他知识图谱,对其他知识图谱中包含的实体进行数据预处理,并将数据预处理后的实体组成实体集,从实体集中删除与所有高价值实体之间的距离均大于第一距离阈值的低价值实体,得到目标实体集,对目标实体集进行聚类得到多个目标子集,计算目标子集中的包含的每个实体的属性信息,计算每个实体与目标知识图谱中包含的每个实体之间的相似度,基于相似度确定为目标实体,获取各个目标实体之间的实体关系,将各个目标实体、以及各个实体关系写入目标知识图谱中。本技术方案,将多个知识图谱进行融合,构建统一的知识图谱,从而提高数据获取的效率,实现业务办理的快速实现。
申请公布号CN111159423A公开了一种实体关联方法、装置及计算机可读存储介质,包括:获取待处理文本的特征向量;根据待处理文本中实体之间的关系构造实体对;针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体对与待处理文本的第一相似度;针对待处理文本中每一个实体在知识图谱中获取关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体与待处理文本的第二相似度;根据包含待处理文本中实体的实体对对应的第一相似度和实体对应的第二相似度获取实体与知识图谱的关联得分;当关联得分超过预设阈值,将实体关联到第二相似度对应的知识图谱节点上。由于利用了多实体之间的关系,因此提高了实体的关联成功率。
现有技术中采用的融合方法存在的主要问题是:
1. 计算量大。首先,大规模知识图谱的实体进行两两判断带来庞大的计算量,其次,对于各项特征训练嵌入模型所采用的深度学习方法,不仅耗时,还对计算资源有相当的要求;
2. 标注数据。为了将不同知识图谱统一到相同的向量空间中,往往需要一定的标注数据,这些数据需要耗费大量人力;
3. 泛化性差。不同知识图谱的嵌入模型仅适用其本身,难以泛化。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110581624.7/2.html,转载请声明来源钻瓜专利网。