[发明专利]一种面向中文语言的大规模本体映射方法有效
申请号: | 201510082840.1 | 申请日: | 2015-02-15 |
公开(公告)号: | CN104699767B | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 王汀;刘经纬;蔡万江 | 申请(专利权)人: | 首都经济贸易大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 刘萍 |
地址: | 100070 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种面向大规模中文本体的映射方法。该方法包括基于同义词词林和编辑距离相似度算法相融合的概念初始关联度计算方法;基于初始关联度改进的融合概念相似度和相异度的拟核力场势函数,以此势函数对大规模本体映射规模进行压缩;通过引入全局序列比对算法对中文本体中的复杂概念进行相似度的度量。由于中文词语存在一词多义和语序敏感现象,并且大规模本体映射的计算开销非常大,而本发明首先改进现有的拟核力场势函数使得对于概念之间相似性的度量和待映射本体的规模压缩更具合理性。其次,采用全局序列比对技术对复杂中文概念进行映射,进而改进现有中文本体映射系统的缺陷,最终提高了系统的映射效率以及查准率和查全率。 | ||
搜索关键词: | 一种 面向 中文 语言 大规模 本体 映射 方法 | ||
【主权项】:
一种面向中文语言的大规模本体映射方法,其特征在于:由三大步骤组成,分别是:基于编辑距离和同义词词林相融合的概念初始关联度计算、本体压缩和确定性映射;(1)基于编辑距离和同义词词林相融合的概念初始关联度计算a)编辑距离相似度两个待映射本体Osource、Otarget,对于源本体Osource中的某个概念需要在目标本体Otarget中寻找与其语义相同或接近的对应概念两个概念和的编辑距离值以及相似度值由公式(1)和公式(2)来刻画:EditDistance(Cssource,Cttarget)=|Do(Cssource,Cttarget)|max(L(Cssource),L(Cttarget))---(1)]]>其中,为待映射概念和的编辑操作次数,即:把字符串最少经过多少步操作完全变成字符串操作有三种:添加、删除或者修改一个字符;和为待映射概念的字符长度;SIME(Cssource,Cttarget)=1(1+EditDistance(Cssource,Cttarget))---(2)]]>其中,为待映射概念和的相似度;b)同义词词林相似度基于同义词词林的相似度计算公式:SIMT(Cssource,Cttarget)=α×Fi|F|×cos(nsubTree×π180)×(nsubTree-D+1nsubTree)---(3)]]>对于Fi为词元和在第i层出现子编码不同所代表的层次数,|F|表示集合F中的元素个数,且恒等于5;概念相似度权重系数为α×(Fi/|F|);nsubTree为词元和在出现子编码不同的第Fi层相应分支下所包含的节点总数,D为词元和的编码距离;α∈[0.4,0.5]之间的某个随机数均可满足要求;c)多策略融合关联度算法首先通过比较两种基本算法的相似度结果,取两种算法结果的最大值;同时,综合考虑两个概念和之间的相似度和相异度,并将其叠加进入每个概念的最终关联度;定义两种相似度算法得到的最大值为ρ,相应地,相异度指标为1‑ρ;显然ρ∈(0,1],则有公式(4):ρst=max(SIME(Cssource,Cttarget),SIMT(Cssource,Cttarget))---(4)]]>称概念和之间的语义相关系数为λst,最终得到源本体概念与目标本体Otarget的初始关联度用公式(6)来表达;mssource=λs1+λs2+λs3+...+λsntarget=Σt=1ntargetλst---(6)]]>由于关联度计算具有对称性,因此目标本体中的概念的初始关联度mtarget同理可得;于某个概念最终的初始关联度值为零的情况,将初始关联度因子取msource,mtarget∈[0.01,0.05]之间的某个随机数均满足要求;这样就得到待映射本体O中全部概念的初始关联度集合Map_Osource和Map_Otarget;将初始关联度集合统一采用键值对的形式来表述:Map_O<C,m>;(2)本体压缩算法对于源本体Osource的概念集合与目标本体Otarget的概念集合用每个概念的初始关联度值来刻画该概念对于其他概念的影响程度,已由公式(6)给出;经过修正的场强函数如公式(8)所示:取δ=1,R=2;得到待映射本体Osource中每个概念的势值函数表达式,如公式(9)所示:目标本体中的概念的势值同理可得;最终得到待映射本体O中全部概念的势值集合potentialMap_Osource和potentialMap_Otarget;势值集合统一定义为键值对:potentialMap_O<C,将O中的概念集合划分为两部分,称为:候选区和淘汰区;具体地,对于执行多策略融合关联度算法后得到的输出键值对集合Map_Osource和Map_Otarget,根据每个概念元素的关联度值分别统计出Map_Osource和Map_Otarget中关联度值大于0.05的概念总数分别称为Range_Candidate_Osource和Range_Candidate_Otarget,该变量定义为待映射本体Osource和Otarget的候选区区间上界;对于势值集合potentialMap_Osource和potentialMap_Otarget中的概念元素,根据键值进行降序排序,对于其排名用变量标识;若则概念将被作为候选概念得到保留;相应地,如果则概念将被淘汰;由源本体和目标本体之间存在的对称性,对于目标本体Otarget的候选概念抽取规则同理可得;(3)确定性映射对于待映射的源本体Osource和目标本体Otarget中的任意两个概念和在进行概念的语义相似度计算时,会出现如下三种情况:①和均为原子概念,即:且②和的其中之一为原子概念,而另一个为组合概念,即:或③和均为组合概念,即:且对于情况①,采用公式(3)来计算两个概念的语义相似度;对于情况②和情况③,首先将待比对的两个词串序列以打分矩阵(scoringmatrix)的形式表示,两条序列分别作为动态规划矩阵的两维;对于待映射本体Osource和Otarget中的概念和打分矩阵M的第i行对应词串序列CCsource中的原子概念第j列对应词串序列CCtarget中的原子概念其中i≤m,j≤n;动态规划矩阵M中第i行第j列元素称为Mij;首先,给出序列比对算法的惩罚因子p=‑0.05,并分别对矩阵的第m+1行与第n+1列进行初始化;其次,基于同义词词林相似度计算函数SIMT,对矩阵中其余m×n个元素进行递归求解;先给出记分函数f的定义,如公式(11)所示:递归规则如公式(12)所示:Mij=maxM(i+1)(j+1)+f(ACisource,ACjtarget)M(i)(j+1)+pM(i+1)(j)+p---(12)]]>从矩阵中的Mmn元素开始,回溯至矩阵中的M11元素结束,得到最优比对路径;如果得到的最优比对路径不止一条,则任选其一;最后插入空位符“‑”,得到正确的全局序列比对结果;将插入空位符“‑”后的两个待映射组合概念词条序列称为CCsource’和CCtarget’;这时两条序列中所包含的元素总数相等,统称为Lcc’;根据比对结果和基于记分函数f,得到组合概念之间的相似度计算公式(13):SIMNW(CCsource′,CCtarget′)=Σi=1Lcc′f(ACisource′,ACitarget′)Lcc′---(13).]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都经济贸易大学,未经首都经济贸易大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510082840.1/,转载请声明来源钻瓜专利网。