[发明专利]一种微博信息的压缩编码和解码的方法及装置无效
申请号: | 201110298118.3 | 申请日: | 2011-09-29 |
公开(公告)号: | CN102508824A | 公开(公告)日: | 2012-06-20 |
发明(设计)人: | 李培峰;朱巧明;刁红军;朱晓旭;张玉华 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 压缩 编码 解码 方法 装置 | ||
技术领域
本发明涉及通信技术领域,更具体地说,涉及一种微博信息的压缩编码和解码的方法及装置。
背景技术
目前,在各类微博终端中,微博中的文字的编码主要有三种标准:7位(bit)的美国信息互换标准代码(ASCII,American Standard Code for InformationInterchange)、统一码Unicode的16位编码方式-通用字符集(UCS-2,UnicodeCharacter Set-2)和长度1-6个字节可变的Unicode变长字符编码(UTF-8,UCS Transformation Format-8-bit)。这三种编码都是以字符(汉字或英文字母)为单位的编码标准,每条中文微博长度一般限制为140个16位的汉字(即2240位),英文微博长度一般限制为140个8位字符(即1120位)。所以,每条中文微博采用ASCII编码可以发送320个英文字符,用UCS-2可以发送140个汉字或英文字符,用UTF-8则可以平均发送93个汉字。对中国用户而言,微博主要用汉字书写,当一条微博中包含了汉字,那么整体微博将全部以UCS-2或UTF-8的编码模式发送,而使用UCS-2或UTF-8编码方法,一般需要采用4个以上的字节来表示中文词组或英文单词。
可以看出,由于UCS-2或UTF-8编码方法需要采用4以上的字节数来表示中文词组或英文单词,因此在每条微博长度受限制的情况下,通过UCS-2或UTF-8编码的每条微博的可写字数少,而且通过UCS-2或UTF-8编码传输的微博,需要传输较多的字符数,其传输效率低并且传输的网络流量高。
发明内容
有鉴于此,本发明的目的在于提供一种微博信息的压缩编码和解码的方法及装置,以解决现有技术存在的由于UCS-2或UTF-8编码需要4个以上字节数来表示中文词组或英文单词,而造成的中文微博传输效率低、传输网络流量高以及每条微博可写字数少的问题。
为实现上述目的,本发明提供如下技术方案:
一种微博信息的压缩编码的方法,步骤包括:
A.识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;
B.对于所述中文字符段,根据中文词典,对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;
对于所述英文字符段,根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;
C.根据步骤B生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博。
一种微博信息的压缩编码的装置,包括:
微博分割模块,用于识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;
中文字符压缩编码模块,用于根据中文词典对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;
英文字符压缩编码模块,用于根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;
压缩编码微博生成模块,用于根据生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博。
一种微博信息的解码的方法,步骤包括:
a.从压缩编码微博中获取压缩编码系列,根据所述压缩编码系列中各编码的属性,从所述压缩编码系列中区分中文编码、英文单词编码和英文字符编码;
b.对于中文编码,根据中文词典和中文符号表,用与所述中文编码对应的UCS-2编码,编码并替换所述中文编码;
对于英文单词编码,根据英文字典,用与所述英文单词编码对应的UCS-2编码,编码并替换所述英文单词编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110298118.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置