[发明专利]倒排索引压缩的预处理方法有效
申请号: | 201110007170.9 | 申请日: | 2011-01-14 |
公开(公告)号: | CN102081659A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 敖耐勇;吴迪;张帆;刘晓光;王刚 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种倒排索引压缩的预处理方法。所述的倒排索引压缩的预处理方法包括:对每个倒排列表,以docID的索引为横坐标、值为纵坐标作二维散点图,基于最小二乘法生成一条线性回归直线,使得图中所有点到该直线的竖直离差的平方和最小,得到与该倒排列表等价的竖直离差列表;对每个竖直离差列表,将所有竖直离差向上取整,得到与该竖直离差列表等价的整数离差列表;对每个整数离差列表,求出最小值,同时将所有整数离差减去这个最小值,得到与该整数离差列表等价的非负整数离差列表。基于本发明的压缩算法具有较高的压缩比,提高了并行解压效率,可以更好地与集合归并方法结合。 | ||
搜索关键词: | 索引 压缩 预处理 方法 | ||
【主权项】:
1.一种倒排索引压缩的预处理方法,其特征在于,包括:(1)对每个倒排列表,以docID的索引xi为横坐标、值yi为纵坐标作二维散点图,xi、yi都是非负整数,其中i=1,...,n,n为正整数,基于最小二乘法生成一条线性回归直线y=f(x)=α+βx,![]()
其中![]()
使得图中所有点(xi,yi)到该直线的竖直离差yi-f(xi)的平方和
最小,得到与该倒排列表等价的竖直离差列表;(2)对每个竖直离差列表,将所有竖直离差yi-f(xi)向上取整记为
得到与该竖直离差列表等价的整数离差列表;(3)对每个整数离差列表,求出最小值记为
同时将所有整数离差
减去这个最小值记为
得到与该整数离差列表等价的非负整数离差列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110007170.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种燃气炉引射与预混件总成
- 下一篇:带童锁打火机