[发明专利]本体亲和度矩阵的有效计算无效
申请号: | 201010117358.4 | 申请日: | 2010-02-12 |
公开(公告)号: | CN101807201A | 公开(公告)日: | 2010-08-18 |
发明(设计)人: | 斯特吉奥斯·斯特吉奥;贾瓦哈拉·贾殷;雅纳斯·郎布罗 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 本体 亲和 矩阵 有效 计算 | ||
技术领域
本发明总体上涉及词典(lexigraphical)分析,更具体来讲,涉及本体亲和度矩阵(ontology affinity matrix)的有效计算。
背景技术
本申请要求Stergios Stergiou等人在2009年2月13日提交的名为“Efficient Computation of Automated Ontology Affinity Matrices”的美国临时申请No.61/152,375的优先权。以引证方式将该专利中请并入于此。
文档集合中的数据可能具有大量信息,然而查找相关信息可能比较困难。关键词搜索是查找信息的主要技术。然而,在特定情况下,关键词搜索在信息定位方面并不是有效的。
发明内容
本发明的一个方面提供了一种方法,该方法包括以下步骤:对包括多个反向索引列表的反向索引进行访问,每个反向索引列表对应于一个术语,每个反向索引列表包括该术语的术语标识符和一个或更多个文档标识符,所述一个或更多个文档标识符指示了文档集合中的出现所述术语的一个或更多个文档;对多个有序对进行组织,各有序对包括反向索引列表的术语标识符和文档标识符,所述组织步骤首要地基于所述有序对的所述文档标识符;以及根据所述反向索引生成术语标识符索引,所述术语标识符索引包括多个片段,每个片段对应于一个文档,每个片段包括所述文档中出现的一个或更多个术语的一个或更多个术语标识符,根据所述反向索引生成所述术语标识符索引的步骤包括以下步骤:对所述术语标识符索引的所述片段中的有序对的术语标识符进行组织。
本发明的第二方面提供了一种装置,所述装置包括:存储器,所述存储器能操作用于进行如下操作:存储包括多个反向索引列表的反向索引,每个反向索引列表对应于一个术语,每个反向索引列表包括该术语的术语标识符和一个或更多个文档标识符,所述一个或更多个文档标识符指示了文档集合中的出现所述术语的一个或更多个文档;以及处理器,所述操作器能操作用于执行逻辑,以进行如下操作:对多个有序对进行组织,各有序对包括反向索引列表的术语标识符和文档标识符,所述组织操作首要地基于所述有序对的所述文档标识符;以及根据所述反向索引生成术语标识符索引,所述术语标识符索引包括多个片段,每个片段对应于一个文档,每个片段包括所述文档中出现的一个或更多个术语的一个或更多个术语标识符,根据所述反向索引生成所述术语标识符索引的操作包括以下操作:对所述术语标识符索引的所述片段中的有序对的术语标识符进行组织。
本发明的第三方面提供了一种有形计算机可读介质,所述有形计算机可读介质具有计算机可执行代码,并且当所述计算机可执行代码由计算机执行时能够进行如下操作:对包括多个反向索引列表的反向索引进行访问,每个反向索引列表对应于一个术语,每个反向索引列表包括该术语的术语标识符和一个或更多个文档标识符,所述一个或更多个文档标识符指示了文档集合中的出现所述术语的一个或更多个文档;对多个有序对进行组织,各有序对包括反向索引列表的术语标识符和文档标识符,所述组织操作首要地基于所述有序对的所述文档标识符;以及根据所述反向索引生成术语标识符索引,所述术语标识符索引包括多个片段,每个片段对应于一个文档,每个片段包括所述文档中出现的一个或更多个术语的一个或更多个术语标识符,根据所述反向索引生成所述术语标识符索引的操作包括以下操作:对所述术语标识符索引的所述片段中的有序对的术语标识符进行组织。
附图说明
图1例示了由语言的单词间的关系生成语言本体的系统的实施方式;
图2例示了记录基本关系的亲和度矩阵的一个示例;
图3例示了记录方向关系的亲和度矩阵的一个示例;
图4例示了记录平均关系的亲和度矩阵的一个示例;
图5例示了可以由图1中的系统执行的语言的本体的产生方法的一个实施方式;
图6例示了反向索引的一个示例;以及
图7例示了可以由图6中的反向索引形成的示例性数据结构和术语(term)标识符索引。
具体实施方式
概述
在一个实施方式中,本体生成包括对反向索引的访问,该反向索引包含语言的术语的反向索引列表。与一个术语相对应的反向索引列表指示了文档集合中哪些文档包含该术语。根据反向索引来创建本体亲和度矩阵。本体亲和度矩阵具有多个条目,这些条目包括术语对的亲和度。
在具体实施方式中,领域(domain)本体的创建及查询可以包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010117358.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:记录装置及记录装置的控制方法
- 下一篇:信息处理设备和控制方法