[发明专利]数据压缩模型训练方法及装置、存储介质有效

申请号：	202110812042.5	申请日：	2021-07-16
公开（公告）号：	CN113687773B	公开（公告）日：	2023-08-11
发明（设计）人：	白智德;白志得;哈米德;黄坤;殷燕	申请（专利权）人：	深圳智慧林网络科技有限公司
主分类号：	G06F3/06	分类号：	G06F3/06
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强
地址：	518000 广东省深圳市南山区桃***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据压缩模型训练方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种数据压缩模型训练方法及装置、存储介质。该方法包括：读取设定大小的数据块；分析在所述数据块中增加冗余的可能性；确定在所述数据块中生成冗余数据的函数的索引号；以及采用所述索引号对应的函数在所述数据块中生成冗余数据。采用本申请的方案，与传统的直接寻址冗余数据的压缩算法不同，通过分析在数据块中增加冗余的可能性，采用对应压缩算法在数据块中生成冗余数据，可以获得超出现有可能性的压缩比，提高了压缩性能。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据压缩模型训练方法及装置、存储介质。

背景技术

目前存在的压缩技术是利用传统信息理论得到的算法。这导致压缩，尤其是无损压缩的结果就是查找和移除文件中的冗余数据。传统的压缩算法，即使是那些利用AI和ML的新的压缩算法，均聚焦于冗余。发现的冗余越多，压缩比会更好。

例如，哈夫曼(Huffman)和行程长度(Run-length)算法倾向于发现纯粹的冗余，意味着它们倾向于注意到一块数据(例如文本的特征)，从而在更大块的数据中尽可能地发现大量的和该块数据完全相同的复制的数据。那些算法在某种程度上执行得较好，但是它们的主要的问题是它们已经发展到压缩的瓶颈，所有那些基于冗余的算法不能发现新的产生冗余的方式。

已有的方法都是基于去除或减少选出的数据块中存在的冗余。除了专注于存在的冗余，而不是产生更多的冗余，传统的压缩算法的问题实质在于它们均考虑了具有固定大小的或一定大小可变的数据块，或者考虑了仅存在于一个文件中的包含的所有的大量的数据块。并且大部分的传统的压缩算法仅执行检查小数据块中的冗余，也就是2的指数(即4,8,16,32,63,128,256字节)。

仅依赖于已有的在小块数据中发现冗余，限制了那些传统的压缩算法的性能。

发明内容

本申请提供一种数据压缩模型训练方法及装置、存储介质，以提供高比例的数据块压缩。

第一方面，提供了一种数据压缩模型训练方法，所述方法包括：

读取设定大小的数据块；

分析在所述数据块中增加冗余的可能性；

确定在所述数据块中生成冗余数据的函数的索引号；

采用所述索引号对应的函数在所述数据块中生成冗余数据。

在一种可能的实现中，所述分析在所述数据块中增加冗余的可能性，包括：

根据所述数据块的数据类型，分析在所述数据块中增加冗余的可能性。

在另一种可能的实现中，所述方法还包括：

生成第一热图，所述第一热图包括在所述数据块中冗余的m位长的高值数字，m为正整数。