[发明专利]倒排索引压缩的预处理方法有效
申请号: | 201110007170.9 | 申请日: | 2011-01-14 |
公开(公告)号: | CN102081659A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 敖耐勇;吴迪;张帆;刘晓光;王刚 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 压缩 预处理 方法 | ||
【技术领域】
本发明涉及倒排索引压缩领域,特别是涉及倒排索引压缩的预处理方法。
【背景技术】
全文搜索引擎中使用最广泛的数据结构是倒排索引。倒排索引包含两个主要部分:字典和倒排列表。其中字典为关键词和倒排列表之间建立一一对应关系,而一个关键词的倒排列表由一系列称为张贴的基本单元组成。给定关键词,其张贴中可能含有该关键词出现的网页的文档标识符(称为docID)、频率和位置等信息,也可能只含有该关键词出现的网页的docID。在本发明中,我们假设每个倒排列表由一系列docID组成。
全文搜索引擎不断接收用户查询请求,对查询请求进行分词得到若干关键词,然后通过倒排索引中的字典找到与所有关键词对应的倒排列表,最后对它们进行集合归并,并将归并结果按某种方式返回给用户。随着互联网技术的迅猛发展,互联网上的网页越来越多,倒排列表越来越长,其中的docID值也越来越大,使得倒排索引集合越来越大。主流搜索引擎通常将倒排索引压缩保存(主要是压缩其中的倒排列表),以减少存储空间,更好地利用传输带宽,降低系统I/O压力。
参阅图1,示出了倒排索引压缩流程,具体步骤如下所述:
步骤S101、读取计算机存储器中待压缩的倒排索引。
步骤S102、对倒排索引,使用某种方法进行压缩。
步骤S103、将压缩后的数据存入计算机存储器。
倒排列表中的docID值是非负整数,通常较大。为了达到理想的压缩比,我们必须对倒排列表进行预处理,将其转化成等价的包含较小元素的列表,然后对上述列表进行压缩。倒排列表中的docID值呈升序,相邻docID的差值(称为d-gap)非负,且相对于docID值较小。现有的倒排索引压缩方法都是基于压缩等价的d-gap列表,以达到理想的压缩比。
参阅图2,示出了现有的倒排索引压缩方法的预处理方法(称为d-gap预处理方法)的流程,具体步骤如下所述:
步骤S201、对每个倒排列表,求相邻docID的差值,得到与该倒排列表等价的d-gap列表。
对倒排索引预处理后,可以采用任意压缩方法对与倒排列表等价的列表进行压缩。
参阅图3,示出了PForDelta(简称为PFD)方法的压缩流程,具体步骤如下所述:
步骤S301、将待压缩列表划分成等长的段,对每段选取最小的整数b,其中b是0与docID位宽之间的非负整数,使段内大于等于2b的元素的比例少于预设值。段长作为参数可调,为了达到最好的压缩比,一般取为2的幂,如128、256等。我们把大于等于2b的那部分元素称为异常点,异常点的比例的上限作为预设值可调,如可设为10%。
步骤S302、对每段以b位存储每个小于2b的元素。
步骤S303、对每段以b位存储相邻异常点的偏移。这相当于将异常点以链表的方式组织起来了。
步骤S304、对每段压缩所有异常点的值。这里可以简单地以docID位宽存储异常点的值,也可以使用压缩方法(如S16)对异常点进一步压缩。
PFD方法中,当相邻异常点的偏移大于等于2b时,它们之间的某些元素(小于2b)要强制变为异常点,这使得压缩比下降。为了提高压缩比,可以将异常点分成低b位和高若干位两部分,低b位与非异常点一起存储,高若干位以及相邻异常点的偏移单独处理,这种改进方法称为NewPFD方法。
显然压缩比是倒排索引压缩方法好坏的一个考量指标;另外,压缩只需要离线一次完成即可,而解压是在线频繁被调用的,因此解压速度是另外一个考量指标。PFD方法可以达到非常好的压缩比,但是将异常点组织成链表的方式使得并行解压效率低下;所有基于d-gap预处理方法的压缩方法,解压过程中都需要对d-gap列表求前缀和来恢复docID,不允许随机访问docID值(因为它依赖于它的前驱的值),这使得并行解压效率低下,且不适合与集合归并方法结合。
【发明内容】
本发明的目的是针对现有的基于d-gap预处理方法的倒排索引压缩方法的并行解压效率低下、不适合与集合归并方法结合的不足,提供一种新型的基于线性回归的倒排索引压缩的预处理方法。
本发明提供的倒排索引压缩的预处理方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110007170.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种燃气炉引射与预混件总成
- 下一篇:带童锁打火机