[发明专利]基于分区的正整数序列压缩方法有效
申请号: | 201710110815.9 | 申请日: | 2017-02-28 |
公开(公告)号: | CN107026652B | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 瞿有利;李俊廷 | 申请(专利权)人: | 北京交通大学 |
主分类号: | H03M7/40 | 分类号: | H03M7/40 |
代理公司: | 11255 北京市商泰律师事务所 | 代理人: | 黄晓军 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分区 正整数 序列 压缩 方法 | ||
本发明提供了一种基于分区的正整数序列压缩方法。该方法主要包括:通过正整数序列X构造单调递增正整数序列S;构造所述单调递增正整数序列S的有向无环图G;使用迪杰斯特拉算法计算所述有向无环图G中从源点到汇点的最短路径;根据上述最短路径,得到单调递增正整数序列S的最优划分;计算最优划分中每一个区块的元素个数和每一个区块采用Golomb‑Rice编码时需要的参数b;采用Elias Gamma编码对元素个数进行编码和参数b进行编码,采用Golomb‑Rice编码对每一个区块内所有元素进行编码,根据编码结果得到单调递增正整数序列S的压缩结果。本发明综合了序列分区编码利用正整数序列的局部“聚集”性质与Golomb‑Rice编码的高效性等优点,提高了正整数序列的压缩性能。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于分区的正整数序列压缩方法。
背景技术
正整数序列压缩的主要目的是减少正整数序列占用的存储空间、减少使用时磁盘读取次数和加快数据的传输效率。比如:在信息检索中,正整数序列的压缩常用于压缩倒排索引中文档标识符(docID)序列、频率(frequency)序列和位置(position)序列,一方面可以节省倒排索引文件占用的存储空间;另一方面可以减少查询时的磁盘和内存读取次数。
互联网上数据呈现爆炸式增长,由这些数据构造的倒排索引需要的存储空间也越来越大,因此,开发一种对正整数序列进行有效的压缩编码方法是一个亟待解决的问题。
发明内容
本发明的实施例提供了一种基于分区的正整数序列压缩方法,以实现对正整数序列进行有效的压缩编码。
为了实现上述目的,本发明采取了如下技术方案。
一种基于分区的正整数序列压缩方法,包括:
通过正整数序列构造单调递增正整数序列S;
构造所述单调递增正整数序列S的有向无环图G,该有向无环图G的顶点为v0,v1,...,vn-1,vn;
使用迪杰斯特拉算法计算所述有向无环图G的从v0到vn的最短路径π=(v0,vi)(vi,vj)...(vm,vn);
根据所述最短路径π=(v0,vi)(vi,vj)...(vm,vn),得到所述单调递增正整数序列S的最优划分为δ={s1,s2,...,si}{si+1,si+2,...,sj}...{sm+1,sm+2,...,sn},区块{si+1,si+2,...,sj}记作Parti+1,j;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710110815.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模拟低通滤波器、模拟信息转换器以及滤波方法
- 下一篇:粮仓型酒瓶