[发明专利]基于近似本体匹配的知识图谱融合方法有效
申请号: | 202110581624.7 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113032516B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 陶建华;马秉政;张大伟;刘通;杨国花 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/36;G06F40/289;G06F40/295;G06K9/62 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;李雪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 近似 本体 匹配 知识 图谱 融合 方法 | ||
1.基于近似本体匹配的知识图谱融合方法,其特征在于,包括:
S1:对待融合的知识图谱的集合进行初始化,构建倒排索引;所述初始化的方法为:对实体名称的字段和属性值字段进行分词,得到名称分词和属性值分词;
S2:依据所述倒排索引获取本体的共现情况,获取近似匹配本体,具体方法为:
S21:在倒排索引中统计名称分词在本体类型上的共现情况,将共现程度高的本体类型划分为近似匹配类型;
S22:在倒排索引中统计属性值分词在本体属性上的共现情况,将共现程度高的本体属性划分为近似匹配属性;
S23:结合所述近似匹配类型与所述近似匹配属性,获得所述近似匹配本体;
S24:在对待融合的知识图谱的集合中重复步骤S21-S23,得到近似匹配本体集合;
S3:根据所述近似匹配本体提取候选实体对,具体方法为:
S31:在所述近似匹配本体集合中统计名称分词在不同实体上的共现情况,共现程度高的实体划分为名称候选实体对;
S32:计算每两个实体的邻域在所述近似匹配本体集合中的相似程度,得到所述名称候选实体对;
S33:结合步骤S31- S32中结算的所述名称候选实体对,得到名称候选实体对集合;
S34:统计属性值分词在所述近似匹配本体集合中的共现情况,获得属性候选实体对,得到属性候选实体对集合;
S4:在所述名称候选实体对集合和近似匹配本体集合中计算候选实体对在属性上的相似度,得到由数值属性相似度、类别属性相似度和字符串属性相似度构成的相似度向量;实体的属性主要分为:数值型属性、类别型属性和字符串属性;
S5:根据所述相似度向量的分量对候选实体初步判别,具体判别方法为:
S51:在所述候选实体对集合中将所述相似度向量的所有分量一致数大于等于三分之二的实体对标记为匹配实体;
S52:在所述候选实体对集合中将所述相似度向量的所有分量一致数小于等于三分之一的实体对标记为不匹配实体;
S53:将在所述候选实体对集合中将所述相似度向量的所有分量一致数处于三分之二到三分之一之间的实体对标记为歧义实体;
S6:利用实体的文本特征对所述歧义实体和近义实体进行二次筛选,将文本特征相似度满足设定范围的实体对标记为匹配实体,所述文本特征为:一段用于详细描述实体的非结构化文本。
2.根据权利要求1所述的基于近似本体匹配的知识图谱融合方法,其特征在于,所述构建倒排索引的方法为:
以所述名称分词和属性值分词作为键,来源本体、来源实体作为值,构建倒排索引表;
所述来源实体为:所述名称分词和属性值分词所属的实体;
所述来源本体为:所述名称分词和属性值分词所属的实体对应的本体。
3.根据权利要求1所述的基于近似本体匹配的知识图谱融合方法,其特征在于,所述结合所述近似匹配类型与所述近似匹配属性,获得所述近似匹配本体的具体方法为:
所述近似匹配属性属于所述近似匹配类型所属的本体,则认为所述本体为所述近似匹配本体。
4.根据权利要求1所述的基于近似本体匹配的知识图谱融合方法,其特征在于,所述计算每两个实体的邻域在所述近似匹配本体集合中的相似程度采用Jaccard相似度,
,
其中,
Neighbor(A)代表实体A的邻域实体对应的本体集;
Neighbor(B)代表实体B的邻域实体对应的本体集。
5.根据权利要求4所述的基于近似本体匹配的知识图谱融合方法,其特征在于,将名称分词共现次数超过实体名称总名称分词数一半的实体加入名称候选实体对;每两个实体的邻域在所述近似匹配本体集合中的相似程度大于0.6的实体加入名称候选实体对。
6.根据权利要求1所述的基于近似本体匹配的知识图谱融合方法,其特征在于,所述数值属性相似度的计算方法为:名称候选实体对的所述数值属性差小于设定阈值认为一致,设置为1,不一致设置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110581624.7/1.html,转载请声明来源钻瓜专利网。