[发明专利]一种基于语言模型的数据压缩方法在审
申请号: | 201811479097.3 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109412604A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 张文斌;刘洋 | 申请(专利权)人: | 云孚科技(北京)有限公司 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;H03M7/30 |
代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙) 11368 | 代理人: | 孙国栋 |
地址: | 100085 北京市海淀区上地信息路2号(北京实创*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布概率 压缩 语言模型 词表 数据压缩 数字编码 排序 数据压缩技术 有效地减少 存储空间 文档频率 压缩算法 依次排列 哈夫 预设 占用 输出 重复 | ||
1.一种基于语言模型的数据压缩方法,其特征在于,包括:
Step1、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率;
Step2、重复上述步骤Step1,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表;
Step3、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号;
Step4、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码;
Step5、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩;
Step6、重复上述步骤Step3-Step5,直至所有需要压缩的词压缩完毕。
2.根据权利要求1所述的基于语言模型的数据压缩方法,其特征在于,判断当前需要压缩的词是否在预设的词表中包括:
若所述词不在预设的词表中,则利用哈夫曼编码树对所述词的各个字符进行编码,生成第二数字编码;
利用基于文档频率特征的压缩算法,对所述第二数字编码进行压缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云孚科技(北京)有限公司,未经云孚科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811479097.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动编码系统
- 下一篇:基于FDR的最大相容块的向量压缩方法、装置及系统