[发明专利]针对文本压缩的FSE码表快速建立方法在审
申请号: | 202210939347.7 | 申请日: | 2022-08-05 |
公开(公告)号: | CN115441878A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 秦臻 | 申请(专利权)人: | 海飞科(南京)信息技术有限公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 刘畅;竞存 |
地址: | 210000 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 文本 压缩 fse 码表 快速 建立 方法 | ||
1.一种针对文本压缩的FSE码表快速建立方法,其特征在于它包括以下步骤:
S1、统计文本数据块中字符Symbol出现的频率;
S2、制作FSE码表:
FSE码表的“行表头”为不同字符,按照字符出现频率高低由上到下排序;
FSE码表的“列表头”为1开始的自然数,各字符的列数等于该字符归一化后的状态数值Vsymbol;状态数值Vsymbol介于0、1之间的标记为X,记作1列;
FSE码表的“内容”通过后续步骤获得;
S3、生成序列Y:
Y=A*[1,2,……,Nstate]
其中,A为质数,Nstate表示FSE的总状态个数;
S4、获得内容序列Y‘,Y‘由序列Y中各个元素除以Nstate后,取余得到;
S5、填写FSE码表的“内容”:
1)FSE码表中标记为X的“内容”由下至上填写为:
Nstate-1、Nstate-2、Nstate-3……
2)FSE码表中未标记为X的“内容”使用内容序列Y‘填写:将内容序列Y‘的元素由上到下、由左到右依次填入FSE码表中未标记为X的“内容”中;
S6、FSE码中以行为单位,每1行的元素重新由小到大排序,获得最终的FSE码表。
2.根据权利要求1所述的方法,其特征在于:每个字符归一化后的状态数值Vsymbol通过下式计算:
式中,round( )函数为向0取整操作,Count(symbol)表示该字符出现的频次,total表示所有字符出现的总频次。
3.根据权利要求1所述的方法,其特征在于:FSE总状态个数Nstate通过下式获得:
式中,Nsymbol表示字符种类个数,magicNum为X常数。
4.根据权利要求3所述的方法,其特征在于:所述Nstate的求值通过移位操作实现。
5.根据权利要求1所述的方法,其特征在于:质数A通过下式获得:
式中,B为非5的奇数质数。
6.根据权利要求5所述的方法,其特征在于:所述除法操作通过移位实现。
7.根据权利要求1所述的方法,其特征在于:所述排序通过比较操作实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海飞科(南京)信息技术有限公司,未经海飞科(南京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210939347.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:保证轮胎胎体反包质量的工艺
- 下一篇:用于圆柱滚子轴承外圈内滚道加工装置