[发明专利]检索装置、终端和检索方法有效
申请号: | 201210501917.0 | 申请日: | 2012-11-29 |
公开(公告)号: | CN103853742B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 童征宇;殷宇翔 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙)11343 | 代理人: | 尚志峰,汪海屏 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 装置 终端 方法 | ||
技术领域
本发明涉及检索技术领域,具体而言,涉及一种检索装置、具有该检索装置的终端和一种检索方法。
背景技术
在全文检索系统中,索引程序通过扫描原始文档,将文档内容划分为一个个词,对每一个词项(Term)建立一个索引项,指明该词项在文档中出现的次数和位置,创建倒排索引文件,之后就可以借助倒排索引提供快捷的全文检索。
在检索过程中,用户提交的检索请求可能是索引库中的一个词项(Term),此时只需要在倒排索引中根据检索词找到该词项,进而读取包含该词项的文档列表,以及列表中的每个文档中该词项的出现位置(如果需要的话)。这样的检索不需要过多的计算,能够比较快速地返回结果。
而大多数情况下,用户提交的检索请求是以词组、短句等方式,这种由多个词项组成的检索请求被称为短语检索。这种检索方式要求命中的文档中,要同时包含所有这些词项,同时这些词项在文档中的出现位置要满足一定要求,按照检索请求中的顺序彼此相邻,或是允许彼此之间存在一定的距离,由检索系统的设计而定。
在短语检索过程中,需要先找到同时包含所有检索词的文档,称为初步命中,然后读取初步命中的文档中这些检索词的出现位置,比较这些检索词的位置,只有满足一定位置关系的才算是命中。其中,词项之间的位置计算是个非常耗时的操作,特别在文档比较大、短语中词项数量比较多的情况下:一方面需要读取大量的位置数据,引发大量的IO操作,另一方面需要比较多个词项的位置关系,存在大量的计算。
为了改善短语检索的性能,在索引数据中增加了数据指针以加速检索的过程。数据指针相当于索引数据的索引:在每个Term对应的文档列表中,每隔SkipInterval个文档项创建一个数据指针,包含指向文档列表中对应项的指针,该对应项的位置数据的指针。从而在短语的检索的过程中,可以借助数据指针跳过初步不命中的文档项,从而减少对不必要的数据的读取,提高检索性能。
相关技术虽然采用了数据指针来提高检索性能,但在短语检索过程中,仍需要进行大量的计算。
发明内容
考虑到相关技术中出现的技术问题,本发明所要解决的技术问题在于,提供一种检索技术,在短语检索过程中,能够在保证结果准确性的前提下,提升检索性能。
有鉴于此,根据本发明的一个方面,提供了一种检索装置,包括:获取单元,用于在接收到输入的检索项之后,获取包含所述检索项的文档;筛选单元,用于统计每一所述文档的预判权重值,根据所述预判权重值从包含所述检索项的文档中筛选出预设数量的初选文档;检索结果确定单元,用于读取所述检索项在每一所述初选文档中的位置数据,根据所述位置数据计算位置相关度,将所述位置相关度满足预设条件的初选文档作为检索结果。
为了提高检索效率,在初步命中的文档即包含所有检索项的文档中继续挑选出预判结果较好的文档,从而只对预判结果较好的部分进行后续的位置数据读取和位置相关性计算,减少了位置数据的读取量和计算量,从而加快检索速度。
在上述技术方案中,优选的,所述筛选单元包括:属性确定子单元,用于获取所述包含所述检索项的文档中每一文档的属性;预判权重值确定子单元,用于对所述属性进行计算,得到所述预判权重值。
在该技术方案中,以文档属性为依据进行预判,根据预判权重值的大小在初步命中的文档中挑选出预判结果较好的文档,预判权重值表明该文档在初步命中的文档中排在前面的概率,概率越大,预判结果越好。
在上述技术方案中,优选的,所述预判权重值确定子单元用于基于所述检索项在相应文档中的出现频率和/或所述检索项在所有文档中的逆向文件频率和/或所述相应文档的权重,确定所述相应文档的预判权重。
在上述技术方案中,优选的,所述预判权重值确定子单元用于按照预判函数计算出所述相应文档的预判权重P,其中,n是所述检索项的数量,TFi是第i个所述检索项在所述相应文档中的出现频率,TFi是第i个所述检索项在所述所有文档中的逆向文件频率。
权重W可以根据实际需要进行设置,在检索出初步命中文档的过程中便可以获取某个检索项在相应文档中的出现频率TFi以及该检索项在所有文档中的逆向文件频率TFi。基于获取的这些信息,便可以为初步命中文档中的每一文档计算预判权重值,根据预判权重值的大小对初步命中的文档进行排序,将按照预设数据量选取排序靠前的文档,并将选取出的文档作为下一步进行位置数据读取和计算的文档对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210501917.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:角度分辨的雷达传感器
- 下一篇:具有防过满装置的折叠片材分配器