[发明专利]一种中文数据压缩及解压缩方法及相关设备有效

申请号：	200910131587.9	申请日：	2009-04-08
公开（公告）号：	CN101751451A	公开（公告）日：	2010-06-23
发明（设计）人：	吴跃进	申请（专利权）人：	高德软件有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/22
代理公司：	暂无信息	代理人：	暂无信息
地址：	100080 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文数据压缩解压缩方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种中文数据压缩方法，其特征在于，所述方法包括：

步骤A、读取待压缩中文数据；

步骤B、将所述中文数据进行分词，得到组成所述中文数据的分词集合；

步骤C、从所述分词集合中读取一个分词，若所述分词由两个以上的汉字组成，则在预置的分词编码库中查找所述分词，所述分词编码库用于存储不大于2¹⁵个由两个以上汉字组成的分词及其对应的编码，编码取值范围是0≤编码≤32767，每个分词的编码相互独立且唯一，若查找到，则从分词编码库中获取所述分词对应的编码，并将所述编码存入压缩数据，所述编码在压缩数据中至多占用两个字节的存储空间；

重复步骤C直到处理完所述分词集合中所有的分词。

2.如权利要求1所述的方法，其特征在于，若所述步骤C读取的分词为单个汉字，则所述方法进一步包括：

步骤D、获取所述汉字的国标扩展码，将所述国标扩展码存入压缩数据。

3.如权利要求2所述的方法，其特征在于，若在分词编码库中没有查找到所述由两个以上的汉字组成的分词，则所述方法进一步包括：

步骤E、将所述分词划分为单个汉字，得到组成所述分词的汉字集合；

步骤F、从所述汉字集合中读取一个汉字后执行所述步骤D；

重复所述步骤F直到处理完所述汉字集合中所有的汉字。

4.如权利要求1至3中任一项所述的方法，其特征在于，在步骤A之前进一步包括：

对中文样本数据进行分词，得到样本分词集合；

对每个分词在所述样本分词集合中出现的频率进行统计，得到分词的词频；

按照词频由高到低的顺序，从所述样本分词集合中提取不大于2¹⁵个分词；

为提取出的每个分词赋一个编码，并在分词编码库中记录所述编码与分词。