[发明专利]一种基于语言模型的数据压缩方法在审
申请号: | 201811479097.3 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109412604A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 张文斌;刘洋 | 申请(专利权)人: | 云孚科技(北京)有限公司 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;H03M7/30 |
代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙) 11368 | 代理人: | 孙国栋 |
地址: | 100085 北京市海淀区上地信息路2号(北京实创*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布概率 压缩 语言模型 词表 数据压缩 数字编码 排序 数据压缩技术 有效地减少 存储空间 文档频率 压缩算法 依次排列 哈夫 预设 占用 输出 重复 | ||
本发明公开的基于语言模型的数据压缩方法,涉及数据压缩技术领域,通过判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出词在词表中的分布概率,重复上述步骤,得到所有需要压缩的词的分布概率,将分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表,根据当前需要压缩的各个词在排序列表中的位置,得到词的位置序号,根据位置序号,利用哈夫曼树对位置序号进行编码,生成数字编码,利用基于文档频率特征的压缩算法,对数字编码进行压缩,有效地减少了数据所占用的存储空间,提高了对数据的压缩效果。
技术领域
本发明属于数据压缩技术领域,具体涉及一种基于语言模型的数据压缩方法。
背景技术
随着信息技术的飞速发展,为了方便数据的传输及使用,需要用到对一些占用存储空间较大的数据进行压缩。
现有的数据压缩方法一般采用仅基于数据的比特位对数据进行压缩,压缩后的数据与原始数据相比,所减少的存储空间并不多,压缩效果并不理想。
发明内容
为解决现有技术的不足,本发明实施例提供了一种基于语言模型的数据压缩方法,该方法包括:
Step1、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率;
Step2、重复上述步骤Step1,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表;
Step3、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号;
Step4、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码;
Step5、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩;
Step6、重复上述步骤Step3-Step5,直至所有需要压缩的词压缩完毕。
进一步地,判断当前需要压缩的词是否在预设的词表中包括:
若所述词不在预设的词表中,则利用哈夫曼编码树对所述词的各个字符进行编码,生成第二数字编码;
利用基于文档频率特征的压缩算法,对所述第二数字编码进行压缩。
本发明实施例提供的基于语言模型的数据压缩方法具有以下有益效果:
利用语言模型、哈夫曼编码树及基于文档频率特征的压缩算法,能够有效地减少数据所占用的存储空间,提高了数据压缩的效果。
附图说明
图1是本发明实施例公开的一种基于语言模型的数据压缩方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的基于语言模型的数据压缩方法,包括以下步骤:
S101、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率。
S102、重复上述步骤S101,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表。
S103、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号。
S104、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码。
S105、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云孚科技(北京)有限公司,未经云孚科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811479097.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动编码系统
- 下一篇:基于FDR的最大相容块的向量压缩方法、装置及系统