[发明专利]高带宽压缩至编码的数据流在审

申请号：	201380069224.1	申请日：	2013-12-02
公开（公告）号：	CN104904123A	公开（公告）日：	2015-09-09
发明（设计）人：	D·A·詹姆塞克;K·B·阿加瓦尔;H·P·霍夫施蒂;A·K·马丁	申请（专利权）人：	国际商业机器公司
主分类号：	H03M7/40	分类号：	H03M7/40
代理公司：	北京市金杜律师事务所 11256	代理人：	酆迅;李峥宇
地址：	美国纽***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	带宽压缩编码数据流
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明总体涉及一种改进的数据处理装置和方法，更具体来说，涉及高带宽压缩至编码的数据流。

背景技术

Deflate是一种无损数据压缩算法，采用了LZ77算法和霍夫曼(Huffman)编码的组合。LZ77算法通过将重复出现的数据替换为对在输入(未压缩的)数据流中较早存在的该数据的单一拷贝的引用而实现压缩。用一个称作长度-距离对的数字对编码一个匹配，这相当于声明“每个下一个长度的字符，等于未压缩流中在其之后一定距离的字符”。“距离”有时也被称为“偏址”(offset)。

霍夫曼编码是一种用于无损数据压缩的熵编码算法。这个术语指的是用一个可变长度代码表来编码一个源符号，其中，可变长度代码表已经被以特定的方式根据源符号的每个可能值的发生的估计概率导出。

在压缩块内，如果发现重复的字节序列(重复的字符串)，则插入一个链接到相同字符串的先前位置的反向引用(back-reference)。一个较早字符串的编码匹配，由长度(3–258字节)和距离(1–32768字节)组成。可以跨任意数量的块作出相对的反向引用，只要距离出现在解码的未压缩数据的最后32kB(称为滑动窗口)。

第二压缩阶段包括用较短的表示来替代常用的符号，用较长的表示来替代不常用的符号。霍夫曼编码创建一个无重叠区间(non-overlappingintervals)的无前缀树，其中每个序列的长度与那个符号需要编码的概率成反比。符号要被编码的可能性越大，它的比特序列(bit-sequence)就越短。

发明内容

在一个示例性实施例中，一种用于在数据处理系统中流水线式压缩多字节帧的方法包含组合输入数据流中当前周期的数据与所述输入数据流中下一个周期的数据的至少一部分，以构成数据帧。该方法进一步包含识别多个词典存储器的多个匹配。每个匹配与该数据帧中的给定子字符串的一部分匹配。该方法进一步包含从该多个匹配中识别提供对当前周期的数据的最佳覆盖的匹配子集。该方法进一步包含把该数据帧编码成编码的输出数据流。

在另一个示例性实施例中，提供一种计算机程序产品，包含其中存储有计算机可读程序的计算机可读介质。该计算机可读程序在计算设备上执行时使计算设备上文关于方法示例性实施例所述的操作的各种操作或操作组合。

在另一个示例性实施例中，提供一个系统/装置。该装置用于在数据处理系统中流水线式压缩多字节帧，包含：词典查询/更新阶段，其包含多个词典存储器和相关逻辑；匹配选择阶段，其包含多个比较电路和相关逻辑；和编码阶段。词典查询/更新阶段接收包含输入数据流中当前周期的数据与所述输入数据流中下一个周期的数据的至少一部分组合的数据帧，识别多个词典存储器的多个匹配。每个匹配与该数据帧中的给定子字符串的一部分匹配。匹配选择阶段用多个比较电路从提供对当前周期的数据的最佳覆盖的多个匹配中识别匹配的子集。编码阶段把该数据帧编码成编码的输出数据流。

本发明的这些和其它特点和优点，将在以下对本发明的示例性实施例的详细说明中描述，所属技术领域的普通技术人员从中也可以明了这些和其它特点和优点。

附图说明

本发明及其优选应用方式、以及其进一步的目的和优点，可结合附图阅读下文对示例性实施例的详细说明而得到最好的理解，附图中：

图1表示一例在其中可以实现示例性实施例的各方面的分布式数据处理系统的图示；

图2是一例在其中可以实现示例性实施例的各方面的分布式数据处理系统的框图；

图3是表示按照一个示例性实施例的、处理一个任意长度的任意字节流并输出一个压缩数据格式的字节流的机制的框图；

图4描述按照一个示例性实施例的、把一个输入数据流转换成两周期的数据帧的转换阶段；

图5描述按照一个示例性实施例的、为词典查询/更新生成地址；

图6描述按照一个示例性实施例的词典查询/更新阶段；

图7是表示按照一个示例性实施例的用于匹配选择的机制的框图；

图8示出了按照一个示例性实施例的匹配选择和对准；和

图9是表示按照一个示例性实施例的高带宽压缩至编码的数据流的机制的流程图。