[发明专利]基于AGROVOC的大规模农业语义本体匹配方法有效
申请号: | 201710959270.9 | 申请日: | 2017-10-16 |
公开(公告)号: | CN107704602B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 王艺 | 申请(专利权)人: | 西南大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F40/30;G06F16/903;G06K9/62 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 agrovoc 大规模 农业 语义 本体 匹配 方法 | ||
1.基于AGROVOC的大规模农业语义本体匹配方法,其特征在于:包括以下步骤:
首先,将目标本体AOs和AOx分别进行预处理;
然后,基于AGROVOC词汇集,将目标本体进行顶层类的对齐;在目标本体AOs和AOx的顶层类对齐结果基础上,将目标本体分别进行分割,得到匹配顶层类集合和未匹配顶层类集合;
匹配顶层类集合间的元素按本体块进行术语及语义学算法匹配;未匹配顶层类集合间的元素无法进行分块匹配,直接进行术语及语义学算法匹配;
将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐;
利用AGROVOC作为参考本体,对目标本体的顶层类进行对齐,目标本体顶层类对齐具体步骤如下:
(1)提取出AOs和AOx的顶层类集合,分别记为:UCs={cs1,…,csm},UCx={cx1,..,cxn};
(2)提取AGROVOC的顶层概念;
(3)将AOs和AOx的顶层类分别与AGROVOC的标准概念对齐;
(4)对齐目标本体AOs和AOx的顶层类;
顶层类对齐具体为:
对于任意的顶层类csi∈UCs,若存在某个顶层类使得下面3种情况之一成立,则csi与匹配,记为其中i=1,2,…,m,j=1,2,…,n;
(a)csi与都匹配于同一个AGROVOC概念;
(b)csi与匹配于同一个AGROVOC的顶层概念下的不同子概念;
(c)csi与其中一个匹配于某个AGROVOC的顶层概念,另一个匹配于该AGROVOC的顶层概念的子概念;
目标本体匹配顶层类集合的对齐方法为;
(1)基于匹配顶层类集合UCs1和UCx1的匹配结果,对目标本体各自进行分块:
对任意的顶层类csi∈UCs1,提取与顶层类csi关联的本体元素作为一个本体块,与顶层类csi关联的元素包括它的子类SCs(csi)、实例INSs(csi)以及相关属性PRs(csi);对任意的顶层类提取与顶层类关联的本体元素作为一个本体块,与顶层类关联的元素包括它的子类实例以及相关属性
将与顶层类csi和顶层类对应的本体块分别记为Block(csi)和则Block(csi)=SCs(csi)∪INSs(csi)∪PRs(csi),
(2)对给定的Block(csi)和采用综合的术语匹配2个块的相应元素;
具体步骤和算法如下:
(i)采用字符串近似匹配算法n-gram和edit distance对Block(csi)和Block(cxj)中的元素进行匹配,得到相似度sdng和相似度sded;
(ii)采用语言学算法比较两个本体元素的名字并计算相似度sdling;
(iii)综合字符串近似匹配算法和语言学算法的方法取相应的权重对相似度sdng、sded、sdling进行叠加,获取所比较的本体元素的最终相似度sd;sd=sdng·wng+sded·wed+sdling·wling,wng,wed和wling表示权重;
(iv)对于相关属性PRs(csi)和相关属性中元素,使用如下2个匹配策略:
(a)对于任意的ps∈PRs(csi),若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;
(b)若ps有定义域类:Ds和Dx且Ds≡Dx,px有定义域类:Rs和Rx且Rs≡Rx,则认为ps≡px;
目标本体未匹配顶层类集合的对齐方法为;
(1)对未匹配顶层类集合UCs2和UCx2,采用字符串近似匹配算法n-gram和edit distance对UCs2和UCx2中的所有类和实例分别进行匹配,得到元素相似度sdng和相似度sded;
(2)采用语言学算法对UCs2和UCx2中的所有类和实例分别进行匹配,并计算相似度sdling;
(3)综合字符串近似匹配算法和语言学算法的方法,取相应的权重对相似度sdng、sded、sdling进行叠加,获取所比较的类和实例的最终相似度sd;sd=sdng·wng+sded·wed+sdling·wling,wng,wed和wling表示权重;
(4)设PRs(cs)和PRx(cx)中元素为关联cs和cx的属性,其中cs和cx是UCs2和UCx2中已配对的两个类,使用下述策略匹配属性:
(i)对于任意的ps∈PRs(cs),px∈PRx(cx),若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;
(ii)若ps与px有定义域类:Ds和Dx且Ds≡Dx,Rs和Rx且Rs≡R,则认为ps≡px。
2.根据权利要求1所述的基于AGROVOC的大规模农业语义本体匹配方法,其特征在于:对语义本体进行预处理,具体包括以下步骤:
(1)本体格式检查:对目标本体进行格式检查,确保其格式为下面3种类型:ResourceDescription Framework、Resource Description Framework Schema及OntologyModeling Language;
(2)本体元素名称检查:本体元素包括本体的类、实例和属性;确保元素的名称是有意义的、英文名称拼写完全和正确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710959270.9/1.html,转载请声明来源钻瓜专利网。