[发明专利]一种对词库压缩编码及解码的方法和系统无效
申请号: | 200910038254.1 | 申请日: | 2009-03-27 |
公开(公告)号: | CN101520771A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 高精鍊;陈炳辉;刘志玭 | 申请(专利权)人: | 广东国笔科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510620广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词库 压缩 编码 解码 方法 系统 | ||
1.一种对词库压缩编码的方法,其特征在于,包括以下步骤:
A、统计词库中各个单词后生成第一频率表,该第一频率表包括一组首字母频率数据组以及若干组后续字母频率数据组,所述首字母频率数据组包括每个字母在词库单词中作为首字母的出现次数,所述后续字母频率数据组包括每个字母的各个后续字母在词库单词中的出现次数;
B、将所述第一频率表中的每组频率数据按照大小顺序进行排序,再将所述第一频率表中各组位于相同序位的频率数据进行相加,得到包括若干个和频率的第二频率表;
C、对所述的若干个和频率进行哈夫曼编码获得对应的若干个二进制码,将获得的二进制码分配给第二频率表中每个和频率所对应的序位,生成编码表;
D、根据所述编码表中首字母、每个字母的各个后续字母所在序位对应的二进制码,替换词库中单词的字母,生成单词对应的二进制编码。
2.根据权利要求1所述的一种对词库压缩编码的方法,其特征在于,所述步骤A具体包括以下步骤:
A1、获取一个单词,读取其首字母;
A2、判断当前读取的字母是否是首字母,如果是,该字母作为首字母的频率加一,如果不是,该字母作为当前前续字母的后续字母的频率加一;
A3、将当前读取的字母作为当前前续字母;
A4、判断当前读取的字母是否是单词的最后一个字母,如果不是,读取下一个字母,并返回A2,如果是最后一个字母,则返回A1,直到词库中的所有单词都被统计;
A5、将统计后的数据生成第一频率表,该第一频率表包括一组首字母频率数据组以及若干组后续字母频率数据组,其中首字母频率数据组对应每个字母在词库单词中作为首字母的出现次数,所述后续字母频率数据组对应每个字母的各个后续字母在词库单词中的出现次数。
3.根据权利要求2所述的一种对词库压缩编码的方法,其特征在于,所述第一频率表中的首字母频率数据组以及若干组后续字母频率数据组作为该频率表中的行数据;所述步骤B中的相同序位为位于第二频率表中同一列的位置。
4.根据权利要求3所述的一种对词库压缩编码的方法,其特征在于,所述步骤C具体包括:
C1、将所述的若干个和频率作为若干个节点构造哈夫曼树;
C2、将哈夫曼树中节点的左孩子路径标识为0,右孩子路径标识为1,然后获得各个和频率对应节点到根节点的路径,得到各个和频率对应的二进制码;
C3、在第二频率表中,将获得的二进制码分配给其对应的和频率所在的列,然后将第二频率表中的频率数据用相应的后续字母替换,生成编码表。
5.根据权利要求4所述的一种对词库压缩编码的方法,其特征在于,所述步骤D包括:
D1、获取一个单词;
D2、从编码表中对应首字母的行中找到该单词首字母所在的列,用该列对应的二进制码替换该首字母;
D3、读取下一个字母及其前续字母;
D4、从编码表中找到该前续字母所在的行,在该行中找到当前读取字母所在的列,用该列对应的二进制码替换当前读取字母,返回D3,直到单词的最后一个字母被替换,生成单词所对应的二进制编码,再返回D1。
6.一种对权利要求1中所述词库压缩编码进行解码的方法,其特征在于,包括以下步骤:
E、获取一个单词的二进制码;
F、将步骤E中的二进制码拆分成若干个编码表中包含的二进制码;
G、用于根据编码表查找与所述拆分后的二进制码所对应的首字母或每个字母的各个后续字母,并用查到的字母替换二进制编码生成单词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东国笔科技股份有限公司,未经广东国笔科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910038254.1/1.html,转载请声明来源钻瓜专利网。