[发明专利]一种微博信息的压缩编码和解码的方法及装置无效
申请号: | 201110298118.3 | 申请日: | 2011-09-29 |
公开(公告)号: | CN102508824A | 公开(公告)日: | 2012-06-20 |
发明(设计)人: | 李培峰;朱巧明;刁红军;朱晓旭;张玉华 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 压缩 编码 解码 方法 装置 | ||
1.一种微博信息的压缩编码的方法,其特征在于,步骤包括:
A.识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;
B.对于中文字符段,根据中文词典,对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;
对于英文字符段,根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;
C.根据步骤B生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博。
2.根据权利要求1所述的微博信息的压缩编码的方法,其特征在于,所述步骤B中生成压缩编码中文字符段的具体步骤包括:
B11.根据中文词典,采用前向最大匹配法对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段;
B12.判断所述切分单元的长度值是否大于1,若是,则所述切分单元为词组,执行步骤B13,若否,执行步骤B14;
B13.用所述词组在所述中文词典中的序号+0x8000,对所述词组的UCS-2编码进行编码并替换,执行步骤B17;
B14.判断所述切分单元的值是否在0x4E00至0x9FFF之间,若是,则所述切分单元为汉字,执行步骤B15,若否,则所述切分单元为中文符号,执行步骤B16;
B15.用所述汉字的UCS-2编码+0x6000,对所述汉字的UCS-2编码进行编码并替换,执行步骤B17;
B16.用所述中文符号在中文符号表中的序号+0xAD00,对所述中文符号的UCS-2编码进行编码并替换,执行步骤B17;
B17.判断所有切分单元的UCS-2编码是否全部转换,若是,执行步骤C,若否,执行步骤B12。
3.根据权利要求2所述的微博信息的压缩编码的方法,其特征在于,所述步骤B中生成压缩编码英文字符段的具体步骤包括:
B21.根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一;
B22.在英文字典中查找所述单词,若能找到所述单词,则执行步骤B23,若不能找到所述单词,则执行步骤B24;
B23.用所述单词在所述英文字典中的序号,对所述单词的UCS-2编码进行编码并替换,执行步骤B25;
B24.用与所述单词的UCS-2编码对应的ASCII码,对所述单词的UCS-2编码进行编码并替换,执行步骤B25;
B25.判断所有单词的UCS-2编码是否全部转换,若是,执行步骤C,若否,执行步骤B22。
4.根据权利要求3所述的微博信息的压缩编码的方法,其特征在于,所述步骤C具体为:
当步骤A中识别的各UCS-2编码的字符类型全为中文字符时,所述压缩编码中文字符段为压缩编码微博;
当步骤A中识别的各UCS-2编码的字符类型全为英文字符时,所述压缩编码英文字符段为压缩编码微博;
当步骤A中识别的各UCS-2编码的字符类型包括中文字符和英文字符时,根据每个所述中文字符段和所述英文字符段在微博中的顺序,将每个所述压缩编码中文字符段和所述压缩编码英文字符段合并为压缩编码微博。
5.根据权利要求1所述的微博信息的压缩编码的方法,其特征在于,所述步骤A中“识别UCS-2编码文本中各UCS-2编码的字符类型”具体为:
判断UCS-2编码文本各字符的UCS-2编码是否大于0x7F,若是,则标记所述字符为中文字符,若否,则标记所述字符为英文字符。
6.根据权利要求1-5任一项所述的微博信息的压缩编码的方法,其特征在于,所述步骤A前还包括步骤:
判断微博的文字编码中是否有非UCS-2编码,若是,则调用转换函数将所述非USC-2编码转换为UCS-2编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110298118.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置