[发明专利]适用于两种不同中文编码的显示方法无效
申请号: | 200810302119.9 | 申请日: | 2008-06-13 |
公开(公告)号: | CN101290615A | 公开(公告)日: | 2008-10-22 |
发明(设计)人: | 胡涛;张恩阳 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 成都虹桥专利事务所 | 代理人: | 李顺德 |
地址: | 621000四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 不同 中文 编码 显示 方法 | ||
技术领域
本发明涉及中文字符应用技术。
背景技术
目前中文信息大多以字符编码的方式进行存储。在计算机软件系统中,存在多种编码方法。简体中文以UTF-8和GB2312为主要编码。他们对英文字符中的前128个字符都等同于ASCII编码方法,主要区别在对中文字符的编码方法上。每个中文字符编码在GB2312中占用2个字节,而在UTF-8中占用3个字节。UTF-8最多支持每个字符编码占有6个字节。
中文处理通常就是对特定中文编码的字符串的进行处理。对中文字符串的处理时,有时候并不能确知所处理的串中包含中文的编码方法。由于UTF-8和GB2312在显示汉字时都依赖于所发送的汉字字符编码,因此只有正确的判断所处理的字符串的编码方法,才能对汉字进行正确的显示。
UTF-8是Linux系统(一种开源的类Unix操作系统)下常用的中文字符编码方法,GB2312是汉字编码的国标。
发明内容
本发明所要解决的技术问题是,提供简单有效的适用于两种不同中文编码的显示方法。
本发明为解决上述技术问题所采用的技术方案是,适用于两种不同中文编码的显示方法,包括以下步骤:
a、对字符串进行扫描;
b、以第一编码为准,判断每个字节中字符编码的合法性;合法编码字符的个数是否小于设定值,如是,则判定使用第二编码作为当前中文字符编码;如否,则判定使用第一编码作为当前中文字符编码;
c、以当前中文字符编码显示。
本发明的有益效果是,在需要对可能面对两种不同中文编码的环境中,能自动判断编码格式,从而正确显示汉字,增强软件的适用性。
具体实施方式
本方法的核心是对字符串进行扫描,对每个字节进行字符编码合法性判断,以合法编码字符的个数来衡量选择哪种编码作为当前中文字符编码。如果字符串的中文编码格式是唯一的,那么编码可以迅速准确的确定。如果存在一些混和编码的错误,可以通过设定值的设置,容忍这类错误的存在。
UTF-8具有特殊的编码格式,因此可以先对字符串是否采用UTF-8进行判断,以UTF-8编码方法作为第一编码,第一编码即为预设的默认编码。从而在没有额外信息的情况下,判定字符串在UTF-8和GB2312中采用的那种编码方法。
以UTF-8为默认编码进行识别,判断合法UTF-8编码的中文编码的个数是否达到预设值。如是,判定使用UTF-8编码;如否,判定使用GB2312编码。最后,以判定使用的编码为准显示汉字。预设值的设置取决于方法应用者对使用环境的需要进行取舍,若出现字串长度过短而引起正确编码个数未达到设定参数值的判断条件,可以通过调低设定值来获得最佳正确判断率。
本判断方法经编码实现、测试正确,具有效率高,可靠性好的特点。能够适应大多数情况下区别单独的UTF-8或GB中文编码方法的编码方法判断,通过参数选择,具有容错扩展性。可广泛运用于需要进行字符编码转换判断的系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810302119.9/2.html,转载请声明来源钻瓜专利网。