[发明专利]倒排索引压缩的预处理方法有效
申请号: | 201110007170.9 | 申请日: | 2011-01-14 |
公开(公告)号: | CN102081659A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 敖耐勇;吴迪;张帆;刘晓光;王刚 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 压缩 预处理 方法 | ||
1.一种倒排索引压缩的预处理方法,其特征在于,包括:
(1)对每个倒排列表,以docID的索引xi为横坐标、值yi为纵坐标作二维散点图,xi、yi都是非负整数,其中i=1,...,n,n为正整数,基于最小二乘法生成一条线性回归直线y=f(x)=α+βx,其中使得图中所有点(xi,yi)到该直线的竖直离差yi-f(xi)的平方和最小,得到与该倒排列表等价的竖直离差列表;
(2)对每个竖直离差列表,将所有竖直离差yi-f(xi)向上取整记为得到与该竖直离差列表等价的整数离差列表;
(3)对每个整数离差列表,求出最小值记为同时将所有整数离差减去这个最小值记为得到与该整数离差列表等价的非负整数离差列表。
2.如权利要求1所述的方法,其特征在于,步骤(3)中对每个整数离差列表非负化还可以是:
对每个整数离差列表,若整数离差则将其左移一位记为若整数离差则将其绝对值左移一位并将最低位置为1记为得到与该整数离差列表等价的非负整数离差列表。
3.如权利要求1或2所述的方法,其特征在于,在步骤(1)中对每个倒排列表线性回归之后,还包括:
将每个竖直离差列表划分成等长的段。
4.如权利要求1或2所述的方法,其特征在于,在步骤(1)中对每个倒排列表线性回归之前,还包括:
将每个倒排列表划分成等长的段。
5.如权利要求1或2所述的方法,其特征在于,在步骤(1)中对每个倒排列表线性回归之前,还包括:
根据docID的高h位将每个倒排列表划分成2h个Hash段,其中h是0与docID位宽之间的非负整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110007170.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种燃气炉引射与预混件总成
- 下一篇:带童锁打火机