[发明专利]文本压缩方法和装置有效
申请号: | 201010586545.7 | 申请日: | 2010-12-09 |
公开(公告)号: | CN102567322A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 仇睿恒;胡薇 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;罗建民 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 压缩 方法 装置 | ||
1.一种文本压缩方法,包括:
步骤S1、从待压缩的文本中筛选满足预定词长和出现频率条件的词;
步骤S2、根据筛选词的出现频率对筛选词分配编码;
步骤S3、利用分配的编码对所述文本进行压缩。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
步骤S11、提取所述待压缩的文本中的不长于最大词长的词作为备选词;
步骤S12、根据备选词的出现频率对备选词进行筛选,以仅保留出现频率大于预定频率的筛选词。
3.根据权利要求1所述的方法,其特征在于,还包括:建立字典,在字典中写入备选词和/或筛选词以及这些词的出现频率。
4.根据权利要求3所述的方法,其特征在于,所述步骤S11包括以下步骤:
步骤S100、设定最大词长kmax;
步骤S101、将当前位置设为文本的开始处;
步骤S102、判断当前位置与文本的末尾位置之间的词长k_end是否小于最大词长kmax,如果k_end<kmax,则在步骤S103中令当前词长j=k_end,否则在步骤S104中令当前词长j=kmax,然后,跳转到步骤S105;
步骤S105、判断从当前位置开始的j个字组成的词是否在字典中,如果是,则执行步骤S106-S107,否则执行步骤S108-S112;
步骤S106、将从当前位置开始的j个字组成的词和该词的所有前缀词的频率加1,并将当前位置往前进j个字;
步骤S107、判断当前位置是否已到达文本末尾,如果是,则结束步骤S11,否则跳转到步骤S102;
步骤S108、将从当前位置开始的j个字组成的词加入到字典中,并将该词的初始频率赋为0;
步骤S109、判断j是否等于1,如果是,则在步骤S111中将当前位置往前进1个字,并跳转到步骤S112,否则在步骤S110中将j减1,并跳转到步骤S105;
步骤S112、判断当前位置是否已到达文本末尾,如果是,则结束步骤S11,否则跳转到步骤S102。
5.根据权利要求4所述的方法,其特征在于,所述最大词长k为2或3或4。
6.根据权利要求4所述的方法,其特征在于,所述步骤S12包括以下步骤:
步骤S201、将当前词长k设为1;
步骤S202、将词长为k的下一个词赋给当前词,并判断当前词的出现频率是否小于最小出现频率fmin,如果当前词的出现频率小于fmin,则在步骤S214中删除当前词,并跳转到步骤S211,否则执行步骤S203-S204;
步骤S203、判断当前词长k是否等于1,如果当前词长k等于1,则跳转到步骤S211,否则跳转到步骤S204;
步骤S204、对当前词进行切分,以寻找当前词的所有存在于字典中的前缀词;根据当前词及其前缀词的出现频率删除当前词及其前缀词中出现频率相对小的词,并跳转到步骤S211;
步骤S211、判断词长为k的词是否判断完毕,如果判断完毕,则执行步骤S212-S213,否则跳转到步骤S202;
步骤S212、判断当前词长k是否为最大词长kamx,如果当前词长k为最大词长kmax,则结束步骤S12,否则执行步骤S213;
步骤S213、将当前词长k加1,并跳转到步骤S202。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司,未经北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010586545.7/1.html,转载请声明来源钻瓜专利网。