[发明专利]一种用于本体匹配的本体词法分析方法无效
申请号: | 201110290913.8 | 申请日: | 2011-09-29 |
公开(公告)号: | CN102508827A | 公开(公告)日: | 2012-06-20 |
发明(设计)人: | 廖建新;王晶;王纯;李炜;刘秀磊;徐童;朱晓民;王敬宇;张磊;张乐剑;沈奇威;樊利民;程莉 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 本体 匹配 词法 分析 方法 | ||
技术领域
本发明涉及一种用于本体匹配的本体词法分析方法,属于计算机技术领域,特别是属于本体技术领域。
背景技术
本体(ontology)是共享概念模型的明确的形式化规范说明,使得计算机对知识能够共享、重用、互操作,并在语义Web,知识数据工程,电子商务等领域中广泛应用。由于不同背景的知识工程师构造和维护相似或相同域的本体,导致了本体之间的异构,这阻碍了知识的共享、重用、互操作,本体匹配(ontology matching)是解决该问题主要方法之一。
本体匹配是指发现相似或相同域中不同本体中相同类型实体(entity)之间的匹配关系,实体包括概念(concepts)、属性(properties)、个体(individuals)。目前,本体匹配系统多是利用实体标签和评论中单词的单个词义和本体中实体间的结构,计算实体间的相似性,从而得出匹配关系。由于这些本体匹配系统没有有效利用本体的词法信息,较少关注实体中的单词词义的扩展,单词词义的组合方式,特殊含义单词的处理等对匹配结果的影响,导致这些本体匹配系统的实际匹配结果并不好。因此如何有效分析和利用本体的词法信息成为本体应用过程中一个急需要解决的技术难题。
发明内容
有鉴于此,本发明的目的是发明一种有效的本体词法信息分析方法,能直接用于本体匹配操作之中。
为了达到上述目的,本发明提出了一种用于本体匹配的本体词法分析方法,所述方法包
括下列操作步骤:
(1)将待匹配的两个本体分别定为源本体和目标本体;
(2)将源本体和目标本体中所有实体标签里的字符串以及评论里的字符串切为单词;
(3)根据源本体的上下文找到源本体中单词的合适词义,根据目标本体的上下文找到目标本体中单词的合适词义;
(4)对源本体和目标本体中单词的合适词义进行扩展;
(5)构建词义关系本体;
(6)根据源本体和目标本体中实体的标签和评论中的单词的合适词义及该词义扩展构建所述源本体和目标本体中的实体的词法信息。
所述步骤2的具体操作内容是:将源本体和目标本体中实体标签和评论里的字符串分解成单词,并处理单词的复数、过去时、现在时等情况。
所述步骤3的具体操作内容是:首先获得本体中每个单词在词网WordNet中的所有词义,检查任何两个来自不同单词的词义在词网WordNet里的关系,如果它们被词网WordNet里的任何关系相连接,将这两个相连接的单词词义放到对应单词的相关词义集合里,并记录各单词词义被选进对应单词的相关词义集合的次数,这说明在目前本体的上下文,单词的相关词义集合里的任何词义都有可能是这个单词的合适词义;在得到单词的相关词义集合后,在这个集合中选取最有最大词义值的词义作为该单词的合适词义;词义值计算方法如下:
其中CV(SynsetA)表示单词的相关词义集合里词义SynsetA的词义值;WC(SynsetA)是词义SynsetA被选进相关词义集合的次数;FS(SynsetA)是词义SynsetA在词网WordNet中的频率分数,是一个表示权重值的实数。
所述步骤4的具体操作内容是:将步骤3所得到的单词的合适词义扩展到一组词义,这组词义中的每个元素都和该单词的合适词义在词网WordNet中有特殊的关系,即形容词起源pertainym关系、副词起源derived_from_adj关系、诱导derivationally关系或相关related关系;单词的合适词义和扩展词义构成单词的可用词义集合。单词的扩展词义支持了实体间的潜在关系,这有助于在现存的上下文包括单词的所有可能的词义,并提高本体匹配过程的覆盖率。
所述步骤5的操作包括如下操作步骤:
(501)建造词义关系本体,所述的词义关系本体是指不包含任何概念、属性和个体的本体;
(502)得到源本体中单词的列表,即源本体单词列表WLS,该列表中的单词包含其可用词义集合;
(503)得到目标本体中单词的列表,即目标本体单词列表WLT,该列表中的单词包含其可用词义集合;
(504)取源本体单词列表WLS中的单词,即源单词WS,并为源单词WS定义空的信息词义集合ISS;
(505)取源单词WS的可用词义集合中的词义,即源词义SS;
(506)取目标本体单词列表WLT中的单词,即目标单词WT,并为WT定义空的信息词义集合ISS;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110290913.8/2.html,转载请声明来源钻瓜专利网。