[发明专利]倒排索引压缩的预处理方法有效

专利信息
申请号: 201110007170.9 申请日: 2011-01-14
公开(公告)号: CN102081659A 公开(公告)日: 2011-06-01
发明(设计)人: 敖耐勇;吴迪;张帆;刘晓光;王刚 申请(专利权)人: 南开大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 天津佳盟知识产权代理有限公司 12002 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 压缩 预处理 方法
【说明书】:

【技术领域】

发明涉及倒排索引压缩领域,特别是涉及倒排索引压缩的预处理方法。

【背景技术】

全文搜索引擎中使用最广泛的数据结构是倒排索引。倒排索引包含两个主要部分:字典和倒排列表。其中字典为关键词和倒排列表之间建立一一对应关系,而一个关键词的倒排列表由一系列称为张贴的基本单元组成。给定关键词,其张贴中可能含有该关键词出现的网页的文档标识符(称为docID)、频率和位置等信息,也可能只含有该关键词出现的网页的docID。在本发明中,我们假设每个倒排列表由一系列docID组成。

全文搜索引擎不断接收用户查询请求,对查询请求进行分词得到若干关键词,然后通过倒排索引中的字典找到与所有关键词对应的倒排列表,最后对它们进行集合归并,并将归并结果按某种方式返回给用户。随着互联网技术的迅猛发展,互联网上的网页越来越多,倒排列表越来越长,其中的docID值也越来越大,使得倒排索引集合越来越大。主流搜索引擎通常将倒排索引压缩保存(主要是压缩其中的倒排列表),以减少存储空间,更好地利用传输带宽,降低系统I/O压力。

参阅图1,示出了倒排索引压缩流程,具体步骤如下所述:

步骤S101、读取计算机存储器中待压缩的倒排索引。

步骤S102、对倒排索引,使用某种方法进行压缩。

步骤S103、将压缩后的数据存入计算机存储器。

倒排列表中的docID值是非负整数,通常较大。为了达到理想的压缩比,我们必须对倒排列表进行预处理,将其转化成等价的包含较小元素的列表,然后对上述列表进行压缩。倒排列表中的docID值呈升序,相邻docID的差值(称为d-gap)非负,且相对于docID值较小。现有的倒排索引压缩方法都是基于压缩等价的d-gap列表,以达到理想的压缩比。

参阅图2,示出了现有的倒排索引压缩方法的预处理方法(称为d-gap预处理方法)的流程,具体步骤如下所述:

步骤S201、对每个倒排列表,求相邻docID的差值,得到与该倒排列表等价的d-gap列表。

对倒排索引预处理后,可以采用任意压缩方法对与倒排列表等价的列表进行压缩。

参阅图3,示出了PForDelta(简称为PFD)方法的压缩流程,具体步骤如下所述:

步骤S301、将待压缩列表划分成等长的段,对每段选取最小的整数b,其中b是0与docID位宽之间的非负整数,使段内大于等于2b的元素的比例少于预设值。段长作为参数可调,为了达到最好的压缩比,一般取为2的幂,如128、256等。我们把大于等于2b的那部分元素称为异常点,异常点的比例的上限作为预设值可调,如可设为10%。

步骤S302、对每段以b位存储每个小于2b的元素。

步骤S303、对每段以b位存储相邻异常点的偏移。这相当于将异常点以链表的方式组织起来了。

步骤S304、对每段压缩所有异常点的值。这里可以简单地以docID位宽存储异常点的值,也可以使用压缩方法(如S16)对异常点进一步压缩。

PFD方法中,当相邻异常点的偏移大于等于2b时,它们之间的某些元素(小于2b)要强制变为异常点,这使得压缩比下降。为了提高压缩比,可以将异常点分成低b位和高若干位两部分,低b位与非异常点一起存储,高若干位以及相邻异常点的偏移单独处理,这种改进方法称为NewPFD方法。

显然压缩比是倒排索引压缩方法好坏的一个考量指标;另外,压缩只需要离线一次完成即可,而解压是在线频繁被调用的,因此解压速度是另外一个考量指标。PFD方法可以达到非常好的压缩比,但是将异常点组织成链表的方式使得并行解压效率低下;所有基于d-gap预处理方法的压缩方法,解压过程中都需要对d-gap列表求前缀和来恢复docID,不允许随机访问docID值(因为它依赖于它的前驱的值),这使得并行解压效率低下,且不适合与集合归并方法结合。

【发明内容】

本发明的目的是针对现有的基于d-gap预处理方法的倒排索引压缩方法的并行解压效率低下、不适合与集合归并方法结合的不足,提供一种新型的基于线性回归的倒排索引压缩的预处理方法。

本发明提供的倒排索引压缩的预处理方法,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110007170.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top