[发明专利]一种基于分布式信息检索系统的集合选择方法无效
申请号: | 200910146070.7 | 申请日: | 2009-06-05 |
公开(公告)号: | CN101582085A | 公开(公告)日: | 2009-11-18 |
发明(设计)人: | 王秀红;鞠时光 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 | 代理人: | 汪旭东 |
地址: | 212013*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 信息 检索系统 集合 选择 方法 | ||
技术领域
本发明涉及计算机信息检索领域,具体涉及分布式信息检索中集合选择方法。
背景技术
分布式信息检索是信息检索的一个重要研究方向,研究的主要内容包含“集合选择”、“单数据集合检索”、“结果合并”等几个部分。利用集合选择算法找出最相关的数据集合进行检索,从而实现查询部分文档集合而给出很好的检索结果的效果。集合选择的效果直接决定着最终检索结果的质量。在分布式信息检索领域,集合选择又叫数据库选择或资源选择。
在集合选择方面,著名的算法主要有3种:(1)CORI(Collection RetrievalInference Network)算法:信息库检索推理网络方法,是Callan等人1995年提出,由原有的对文档进行相关性判断的贝叶斯推理网而来,把每个信息库都看成是一篇巨大的文献,信息库等级排列的方法与传统信息检索系统中的文献等级排列的方法相似。(2)gGlOSS(Generalized Glossary of Servers Server)算法:是由Gravano L.等人1999年提出,是根据信息库对输入提问式的友好性对信息库进行等级排列,这样做可以估计每个信息库中含有超过某一阈值的文献数量,然后根据文献数量确定信息库的得分,试图解决得到多个匹配源的时候如何选择合适的源,并开发了向量空间搜索版本和布尔变量版本。(3)CVV(The Cue-Validity-Variance)算法:是由Yuwono和Lee于1997年提出,注意到了Internet的查询特点,在向量空间算法的基础上对算法作了改进。Kirsch;Steven T.和Chang;William I.(2000,US Patent 6,018,733)公开了一种基于特殊查询的文档检索的集合选择方法。Kirsch(1999,US Patent 5,983,21)公开了一种根据统计文档集合所包含的特定词的多少来自动选择集合。此外,D‘Souza(2004)和Si(2004)以及MinJie Zhang(2006)等提出,基于语言模型的集合选择方法要优于CORI算法。Sergey Chernov等(2007)提出一种基于词频统计和假相关语言模型的集合选择算法。Wu和Crestani(2003)提出一种多目标模式的集合选择方法综合考虑了与提问的相关程度、计算时间开销、以及同时在多个资源中获得同一数据的可能机会。张刚(2007)将集合选择问题转化为文档检索问题,尝试了多种文档检索方法来解决集合选择问题。
发明内容
本发明目的是:提供一种检索效率高和效果好的基于分布式信息检索系统的集合选择方法。
实现上述发明目的的技术方案是:
一种基于分布式信息检索系统的集合选择方法,该方法包括:计算需要检索的数据对待选数据库的覆盖程度,根据覆盖程度的大小,确定选择数据库集合的先后顺序;
所述计算需要检索的数据对待选择的数据库的覆盖程度进一步包括以下步骤:
1.通过给包含于待选数据库中的检索数据加权求和的方法(即贪心计算方法)计算待选数据库集合的重要性分值;
2.对于同一条检索数据,如果在先前已选的数据库中出现过,在计算后面的数据库重要性分值时,考虑到不同数据库集合之间的覆盖,该条数据再次出现也不再计入后面的数据库分值内。
上述步骤1所述的贪心算法进一步为:假设有一个提问,检索结果融合排序后的前n个数据(n为自然数),分别记为:d1,d2,...,dk,...,dn。第k个数据dk在某个数据库Ci中出现时对该数据库重要性的贡献分值为1/kβ,β为正有理数;数据库的重要性分值为其所包含的所有特定的数据的贡献分值之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910146070.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置