[发明专利]一种基于本体匹配的语义查询方法有效
申请号: | 201410004084.6 | 申请日: | 2014-01-04 |
公开(公告)号: | CN103744955B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 黄河燕;史树敏;苏超;冯冲;李侃 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于本体匹配的语义查询方法,属于计算机应用技术领域。本方法先计算本体资源的名称、注释与用户输入字符串的语义相似度,然后分别将本体类、本体个体、本体属性与用户输入字符串的语义相似度按从大到小排序,选出最符合用户查询要求的不超过λ*3个本体资源。本方法能够在语义层面进行检索,捕捉设计人员检索意图,提高系统检索效率。 | ||
搜索关键词: | 一种 基于 本体 匹配 语义 查询 方法 | ||
【主权项】:
一种基于本体匹配的语义查询方法,其特征在于:步骤一、设置一个阈值λ,最终返回的本体类、本体个体、本体属性个数都不超过λ;步骤二、设置一个相似度阈值σ,最终返回的本体类、本体个体、本体属性与用户输入的字符串的相似度都不低于σ;步骤三、设定一个相近词对阈值θ,提取含有x个词语的句子S1与含有y个词语的句子S2的相近词对时,先依次计算句子S1中每个词语与句子S2中每个词语的语义相似度,构成x*y的相似度矩阵s[x*y],再将相似度从大到小并且相似度不小于阈值θ的词对设置为相近词对,每提取一个相近词对,则将相似度矩阵中其所对应的行和列的值都置为0;步骤四、获取本体类列表{OntClass1,OntClass2,...,OntClassl},其中OntClassi代表一个本体类,1≤i≤l,l为正整数,表示含有l个本体类;classList是一个链表,其结点是一个这样的二元组:<OntClassi,simi>,其中OntClassi是一个本体类,simi是这个本体类与用户输入的字符串string的相似度,classList的初始大小为0;对每一个OntClassi,1≤i≤l执行以下步骤:(1)计算关键词与本体类名称的相似度simNamei:其中,n是string所含词语的个数,n>1(2)计算第j个词对中wja和wjb两个词语的权重,句子中词语的权重是词语代表句子概念的程度,与词性、句子长度、句子结构有关,在计算时不考虑虚词,首先给出词性权重,设名词权重为γ1,动词权重为γ2,形容词权重为γ3,数词权重为γ4,其它实词权重为γ5,词语权重的计算公式如下:w=γini×Σj=1kγj]]>其中,γi表示词语的词性对应的权重,k表示句子中出现的词性数,ni表示句中i类词性词的个数;(3)计算关键词与本体类注释的相似度simCommenti:其中,q为关键词与本体类注释相似词对的个数,为从q个词对中取出p个词对的组合数,wja和wjb为第j个词对中两个词语的权重,sj和sk分别是第j个词对和第k个词对中两个词语的相似度(4)取simNamei与simCommenti两者较大的为simi的值;(5)若simi>σ且classList的大小小于λ,则将<OntClassi,simi>添加至classList中,classList的大小增加1,这样添加后classList的大小最大也不超过λ;(6)若simi>σ且classList的大小等于λ,则首先选出classList中相似度最小的那个二元组,再用<OntClassi,simi>替换这个二元组,这样classList的大小仍然等于λ;步骤五、获取本体个体列表其中代表一个本体个体,1≤i≤m,m为正整数,表示含有m个本体个体;indiList是一个链表,其结点是一个这样的二元组:<OntIndividuali,simi>,其中OntIndividuali是一个本体个体,simi是这个本体个体与用户输入的字符串string的相似度,indiList的初始大小为0;对每一个OntIndividuali,1≤i≤m执行以下步骤:(1)按步骤四(1)计算关键词与本体个体名称的相似度simNamei;(2)按步骤四(3)计算关键词与本体个体注释的相似度simCommenti;(3)取simNamei与simCommenti两者较大的为simi的值;(4)若simi>σ且indiList的大小小于λ,则将<OntIndividuali,simi>添加至indiList中,indiList的大小增加1,这样添加后indiList的大小最大也不超过λ;(5)若simi>σ且indiList的大小等于λ,则首先选出indiList中相似度最小的那个二元组,再用<OntIndividuali,simi>替换这个二元组,这样indiList的大小仍然等于λ;步骤六、获取本体属性列表{Ont Pr operty1,Ont Pr operty2,...,Ont Pr opertyn},其中Ont Pr opertyi代表一个本体属性,1≤i≤n,n为正整数,表示含有n个本体属性的个数;propList是一个链表,其结点是一个这样的二元组:其中Ont Pr opertyi是一个本体属性,simi是这个本体属性与用户输入的字符串string的相似度,propList的初始大小为0;对每一个Ont Propertyi,1≤i≤n执行以下步骤:(1)按步骤四(1)计算关键词与本体属性名称的相似度simNamei;(2)按步骤四(3)计算关键词与本体属性注释的相似度simCommenti;(3)取simNamei与simCommenti两者较大的为simi的值;(4)若simi>σ且propList的大小小于λ,则将<OntPropertyi,simi>添加至propList中,propList的大小增加1,这样添加后propList的大小最大也不超过λ;(5)若simi>σ且propList的大小等于λ,则首先选出propList中相似度最小的那个二元组,再用<OntIndividuali,simi>替换这个二元组,这样propList的大小仍然等于λ;步骤七、分别将链表classList、indiList、propList中的结点按照simi值从大到小排序,则classList中包含了不超过λ个本体类OntClassi、indiList中包含了不超过λ个本体个体OntIndividuali、propList中包含了不超过λ个本体属性OntPropertyi,它们就是最符合用户查询意图的本体资源。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410004084.6/,转载请声明来源钻瓜专利网。