[发明专利]本体亲和度矩阵的有效计算无效
申请号: | 201010117358.4 | 申请日: | 2010-02-12 |
公开(公告)号: | CN101807201A | 公开(公告)日: | 2010-08-18 |
发明(设计)人: | 斯特吉奥斯·斯特吉奥;贾瓦哈拉·贾殷;雅纳斯·郎布罗 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 本体 亲和 矩阵 有效 计算 | ||
1.一种方法,该方法包括以下步骤:
对包括多个反向索引列表的反向索引进行访问,每个反向索引列表对应于一个术语,每个反向索引列表包括该术语的术语标识符和一个或更多个文档标识符,所述一个或更多个文档标识符指示了文档集合中的出现所述术语的一个或更多个文档;
对多个有序对进行组织,各有序对包括反向索引列表的术语标识符和文档标识符,所述组织步骤首要地基于所述有序对的所述文档标识符;以及
根据所述反向索引生成术语标识符索引,所述术语标识符索引包括多个片段,每个片段对应于一个文档,每个片段包括所述文档中出现的一个或更多个术语的一个或更多个术语标识符,根据所述反向索引生成所述术语标识符索引的步骤包括以下步骤:对所述术语标识符索引的所述片段中的有序对的术语标识符进行组织。
2.根据权利要求1所述的方法,其中,对所述多个有序对进行组织的步骤还包括以下步骤:
其次地基于所述有序对的所述术语标识符对所述有序对进行组织。
3.根据权利要求1所述的方法,其中,根据所述反向索引生成所述术语标识符索引的步骤还包括以下步骤:
从数据结构中按顺序选择有序对;以及
将所选择的有序对的术语标识符放置于所述术语标识符索引的与一个文档相对应的片段中,以根据文档对所述反向索引的所述术语标识符进行组织。
4.根据权利要求1所述的方法,其中,根据所述反向索引生成所述术语标识符索引的步骤还包括以下步骤:
从数据结构中去除所选择的有序对;
由所述反向索引生成下一个有序对,所述下一个有序对包括与所选择的有序对的术语标识符等同的术语标识符;以及
将所述下一个有序对放置于所述数据结构中。
5.根据权利要求1所述的方法,其中,根据所述反向索引生成所述术语标识符索引的步骤还包括以下步骤:
确定所选择的有序对包括与之前选择的有序对的文档标识符不等同的文档标识符,其中所述之前选择的有序对包括放置于第一片段中的术语标识符;以及
将所选择的有序对的术语标识符放置于与所述第一片段不同的第二片段中。
6.根据权利要求1所述的方法,其中,该方法还包括以下步骤:
对包括多个条目的本体亲和度矩阵进行初始化,每个条目包括一个计数值,每个条目对应于包括第一术语和第二术语的术语对的亲和度;以及
针对所述术语标识符索引中包括所选择的术语对的术语标识符的每个片段,将与所选择的术语对的亲和度相对应的条目的计数值递增。
7.根据权利要求1所述的方法,该方法还包括以下步骤:
生成包括多个条目的本体亲和度矩阵,每个条目对应于包括第一术语和第二术语的一个术语对的亲和度,每个条目包括指示了所述术语对在所述文档集合的一个文档中一起出现的次数的计数值;以及
将所述本体亲和度矩阵的每个计数值除以由如下成员构成的组中的一个:出现所述第一术语的文档的数量,出现所述第二术语的文档的数量,以及出现所述第一术语的文档的数量加上出现所述第二术语的文档的数量。
8.根据权利要求1所述的方法,该方法还包括以下步骤:
生成包括多个条目的本体亲和度矩阵,每个条目对应于包括第一术语和第二术语的一个术语对的有向亲和度,所述有向亲和度包括在所述文档集合的一个文档中出现所述第一术语的情况下在所述文档中出现所述第二术语的概率。
9.一种装置,该装置包括:
存储器,该存储器能操作用于进行如下操作:
存储包括多个反向索引列表的反向索引,每个反向索引列表对应于一个术语,每个反向索引列表包括该术语的术语标识符和一个或更多个文档标识符,所述一个或更多个文档标识符指示了文档集合中的出现所述术语的一个或更多个文档;以及
处理器,该操作器能操作用于执行逻辑,以进行如下操作:
对多个有序对进行组织,各有序对包括反向索引列表的术语标识符和文档标识符,所述组织操作首要地基于所述有序对的所述文档标识符;以及
根据所述反向索引生成术语标识符索引,所述术语标识符索引包括多个片段,每个片段对应于一个文档,每个片段包括所述文档中出现的一个或更多个术语的一个或更多个术语标识符,根据所述反向索引生成所述术语标识符索引的操作包括以下操作:对所述术语标识符索引的所述片段中的有序对的术语标识符进行组织。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010117358.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:记录装置及记录装置的控制方法
- 下一篇:信息处理设备和控制方法