[发明专利]一种基于语言模型的数据压缩方法在审

申请号：	201811479097.3	申请日：	2018-12-05
公开（公告）号：	CN109412604A	公开（公告）日：	2019-03-01
发明（设计）人：	张文斌;刘洋	申请（专利权）人：	云孚科技（北京）有限公司
主分类号：	H03M7/40	分类号：	H03M7/40;H03M7/30
代理公司：	北京世誉鑫诚专利代理事务所(普通合伙) 11368	代理人：	孙国栋
地址：	100085 北京市海淀区上地信息路2号（北京实创***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开的基于语言模型的数据压缩方法，涉及数据压缩技术领域，通过判断当前需要压缩的词是否在预设的词表中，若是，则利用语言模型，输出词在词表中的分布概率，重复上述步骤，得到所有需要压缩的词的分布概率，将分布概率依据从大到小的顺序依次排列，生成各个词分布概率的排序列表，根据当前需要压缩的各个词在排序列表中的位置，得到词的位置序号，根据位置序号，利用哈夫曼树对位置序号进行编码，生成数字编码，利用基于文档频率特征的压缩算法，对数字编码进行压缩，有效地减少了数据所占用的存储空间，提高了对数据的压缩效果。
搜索关键词：	分布概率压缩语言模型词表数据压缩数字编码排序数据压缩技术有效地减少存储空间文档频率压缩算法依次排列哈夫预设占用输出重复
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语言模型的数据压缩方法，其特征在于，包括：Step1、判断当前需要压缩的词是否在预设的词表中，若是，则利用语言模型，输出所述词在所述词表中的分布概率；Step2、重复上述步骤Step1，得到所有需要压缩的词的分布概率，将所述分布概率依据从大到小的顺序依次排列，生成各个词分布概率的排序列表；Step3、根据当前需要压缩的各个词在所述排序列表中的位置，得到所述词的位置序号；Step4、根据所述位置序号，利用哈夫曼树对所述位置序号进行编码，生成第一数字编码；Step5、利用基于文档频率特征的压缩算法，对所述第一数字编码进行压缩；Step6、重复上述步骤Step3‑Step5，直至所有需要压缩的词压缩完毕。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云孚科技（北京）有限公司，未经云孚科技（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811479097.3/，转载请声明来源钻瓜专利网。

上一篇：一种自动编码系统
下一篇：基于FDR的最大相容块的向量压缩方法、装置及系统

同类专利

专利分类

H 电学

H03 基本电子电路
H03M 一般编码、译码或代码转换
H03M7-00 把用给定序列的数字或给定数目的数字来表示信息的码，转换到用不同序列的数字或不同数目的数字来表示相同信息的码
H03M7-02 .转换到加权代码或相反转换，即对一数字的加权与该数字在信息组或代码字中的位置有关
H03M7-14 .转换到非加权代码或相反转换
H03M7-26 .转换到随机码或相反转换
H03M7-28 .可编程序结构，即代码转换器所包括的设备其算符是可变的，以调整转换程序
H03M7-30 .压缩

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语言模型的数据压缩方法在审

专利文献下载