[发明专利]一种对检索结果进行后续处理的方法及装置有效
申请号: | 200910217514.1 | 申请日: | 2009-12-31 |
公开(公告)号: | CN102117276A | 公开(公告)日: | 2011-07-06 |
发明(设计)人: | 徐剑波;童征宇;赵东岩 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检索 结果 进行 后续 处理 方法 装置 | ||
技术领域
本发明属于数据检索领域,特别涉及一种对检索结果进行后续处理的方法及装置。
背景技术
现有技术中,全文检索的常见做法是倒排索引方式,基本逻辑是:在索引时为每个词建立一个包含这个词的文档列表(通过文档标记DocID表示),检索时匹配到这个词后,可直接返回候选的文档列表。实际应用中,一个文档往往可以包含多个字段,如标题、作者、日期、正文、摘要等多项信息;检索条件也较为复杂,需要进行多个字段的匹配和逻辑运算;对检索结果也有更好的要求,比如排序、分组、过滤等。
现有技术中,全文检索的目标对象是文档,其处理的逻辑单元也是文档。当文档集合非常巨大时,需要对于每个命中文档读取其后续处理所需要的数据,导致大量的磁盘读取操作,全文检索后续处理的效率非常低下,例如在拥有9,255,809个文档的报刊全文索引库分别测试排序、分组、过滤操作这些全文检索后续处理的性能,进行一次分组检索大约使用1500微秒,进行一次排序检索大约使用1400微秒,进行一次分组检索大约使用900微秒。而全文检索系统的性能瓶颈之一就是磁盘读取,进而导致检索系统整体效率不高。
发明内容
为了解决现有技术全文检索后续处理的效率不高的问题,本发明实施例提供了一种对检索结果进行后续处理的方法,包括:
检索后得到多个命中文档;
利用各命中文档的文档标识,以及文档标识和原始数据项标识的对应关系,确定各命中文档对应的原始数据项标识,其中一个所述原始数据项标识对应一组文档标识,多个所述原始数据项标识对应一个群组数据项标识,所述群组数据项标识与群组数据项属性值相对应;
通过根据各命中文档对应的原始数据项标识对命中文档进行后续处理,实现以一个群组数据项属性值为依据的后续处理。
同时本发明实施例还提供一种对检索结果进行后续处理的装置,包括:
检索模块,用于检索后得到多个命中文档;
确定模块,用于利用各命中文档的文档标识,以及文档标识和原始数据项标识的对应关系,确定各命中文档对应的原始数据项标识,其中一个所述原始数据项标识对应一组文档标识,多个所述原始数据项标识对应一个群组数据项标识,所述群组数据项标识与群组数据项属性值相对应;
处理模块,通过根据各命中文档对应的原始数据项标识对命中文档进行后续处理,实现以一个群组数据项属性值为依据的后续处理。
由本发明提供的具体实施方案可以看出,正是基于全文检索所处理的文档的特性,可以将某些属性相同的文档归纳成一个文档集合(原始集合),从而将全部文档划分为多个小集合。从而在一些检索后续操作过程中,处理单元可以使用文档集合替代集合中的原始文档,从而降低需要处理的单元的数据量,提高全文检索后续处理的效率。
附图说明
图1为本发明提供的第一实施例方法流程图;
图2为本发明提供的第一实施例性能比较示意图;
图3为本发明提供的第二实施例装置结构图。
具体实施方式
为了解决现有技术中全文检索系统整体效率不高的问题,本发明实施例提供了一种对检索结果进行后续处理的方法,在索引文件创建之后,创建辅助文件:在文档全部数据项中选择一个原始数据项,根据这个数据项的取值对全部文档集合进行划分,得到多个较小的原始分组集合,每个小集合中的文档具有相同的原始特征值。进而根据其他数据项的取值将全部原始分组集合组合为多个大集合,记录这些文档集合之间的关联关系。
通过以上所述的二级分组的形式,使得文档集合间的关联关系的数据量大大减少,能全部放到内存进行访问。在对检索结果的排序、分组、过滤操作过程中,以访问文档相应Field所形成的集合的特征值的方式来替代对命中文档的特征值的访问,从而显著提高操作的效率。
本发明提供的第一实施例是一种对检索结果进行后续处理的方法,如图1所示,包括:
步骤101:从报纸文章类型文档的所有数据项Field中选择原始数据项NativeField。
根据检索应用的需要,选择最合适的Field。这里选择文档的一个报纸特征字符AuthorKey作为NativeField,AuthorKey由报纸名+日期组成,它在全文索引中不进行分词,直接创建索引。一个AuthorKey值对应这期报纸的全部文章。
步骤102:进行原始分组,根据文档的AuthorKey的值将所有文档划分为多个不相交的原始集合SNF,并为原始集合分配一个标识,称为原始数据项标识NativeFieldID。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910217514.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:ETL数据处理过程的监控方法及其系统
- 下一篇:排水管连接固定装置