[发明专利]一种基于语言模型的数据压缩方法在审
申请号: | 201811479097.3 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109412604A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 张文斌;刘洋 | 申请(专利权)人: | 云孚科技(北京)有限公司 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;H03M7/30 |
代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙) 11368 | 代理人: | 孙国栋 |
地址: | 100085 北京市海淀区上地信息路2号(北京实创*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开的基于语言模型的数据压缩方法,涉及数据压缩技术领域,通过判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出词在词表中的分布概率,重复上述步骤,得到所有需要压缩的词的分布概率,将分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表,根据当前需要压缩的各个词在排序列表中的位置,得到词的位置序号,根据位置序号,利用哈夫曼树对位置序号进行编码,生成数字编码,利用基于文档频率特征的压缩算法,对数字编码进行压缩,有效地减少了数据所占用的存储空间,提高了对数据的压缩效果。 | ||
搜索关键词: | 分布概率 压缩 语言模型 词表 数据压缩 数字编码 排序 数据压缩技术 有效地减少 存储空间 文档频率 压缩算法 依次排列 哈夫 预设 占用 输出 重复 | ||
【主权项】:
1.一种基于语言模型的数据压缩方法,其特征在于,包括:Step1、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率;Step2、重复上述步骤Step1,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表;Step3、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号;Step4、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码;Step5、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩;Step6、重复上述步骤Step3‑Step5,直至所有需要压缩的词压缩完毕。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云孚科技(北京)有限公司,未经云孚科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811479097.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种自动编码系统
- 下一篇:基于FDR的最大相容块的向量压缩方法、装置及系统