[发明专利]一种文本字符编码方式的识别方法及系统有效
申请号: | 201510107921.2 | 申请日: | 2015-03-12 |
公开(公告)号: | CN104750666B | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 段垚 | 申请(专利权)人: | 明博教育科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;张海秀 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 字符 编码 方式 识别 方法 系统 | ||
本发明公开了一种文本字符编码方式的识别方法及系统,属于字符编码技术领域。所述识别方法包括:将待识别文本按照已知的N种字符编码方式分别进行解码,得到解码后的每种字符编码方式所对应的字符串;N≥2;根据解码后的字符串中每个字符的出现概率计算每种字符编码方式所对应的字符串的出现概率,将出现概率最高的字符串所对应的字符编码方式确定为待识别文本的字符编码方式。本发明的文本字符编码方式的识别方法及系统,有效提高了字符编码方式识别的准确性,尤其适用于短文本的字符编码方式的识别。
技术领域
本发明涉及字符编码技术领域,具体涉及一种文本字符编码方式的识别方法及系统。
背景技术
在计算机信息处理中,文本数据可以用多种不同的字符编码(encoding)来表示。其中一些字符编码可以表示世界上所有常用文字的字符,例如UTF-8,UTF-16,UTF-32等(UTF表示UCS Transformation Format,即通用字符集传输格式。UCS是指UniversalCharacter Set,即通用字符集)。更多的字符编码则是文字相关的,偏重(或只能)表示一种或几种文字的字符,例如GB2312和GB18030主要用于简体中文字符,Big5用于繁体中文字符,Shift-JIS主要用于日文字符,ISO-8859-1主要用于表示拉丁字符,ISO-8859-5主要用于表示西里尔字符(俄语字符)等。文字相关的字符编码几乎只被用于编码特定语言文字的文本,例如尽管GB18030也涵盖了世界上所有的常用文字的字符,但几乎只被用于编码简体中文文本。相反,UTF系列的编码被用于编码各种文字的文本。UTF编码取代文字相关的编码是一种趋势,但是后者目前还大量存在,并将存在较长的一段时间。
在计算机信息处理过程中,有许多文本数据没有被标明或没有被正确标明所采用的字符编码,例如部分网页,zip归档文件中的文件名,mp3文件中的ID3元数据,二维码携带的文本信息等。处理这样的文本时往往采取两种方式:(1)采用默认字符编码(2)对文本字符编码进行识别。前一种方式很容易出错,因此后一种方式更受重视,并得到了广泛的应用。但是,现有的文本字符编码识别方法也存在一些问题,主要是对短文本(几个字符到十几个字符)的识别正确率不高。
Netscape公司的Shanjian Li等在论文《A composite approach to language/encoding detection》中提出了一种文本字符编码的识别方法。其主要思路是利用很多字符编码的文字体系相关性,以及东亚文字(例如汉字)中常用字符在所有字符中占较小的比例这一事实。例如,对一段未知字符编码的文本按照GB2312进行解码(这也就等于假定该文本是简体中文为主的),然后统计其中常用汉字与非常用汉字的比例关系,如果符合自然汉语中的比例关系,则该文本就很可能就是用GB2312编码的;对其它字符编码也做类似的处理。为了定量对比文本采用多种字符编码的可能性,该方法为每种字符编码定义了“置信度”的计算公式,置信度最高的字符编码就是该文本最有可能采用的字符编码。对各种东亚字符编码的公式是:
置信度=常用字比例/自然语言中的常用字比例
常用字比例=常用字出现的次数/(总字符数-常用字出现的次数)
常用字的定义是该文字体系中最常用的512个字符,这可以通过统计已有的自然语言文本来获得。
这种方法对较长的文本(例如网页)是比较有效的,但是对很短的文本(例如短至几个字符)区分度往往不足。可能的原因在于,置信度并不会随着字符数的增加而明显变化,而是趋于一个定值,这意味着这个方法没有充分利用文本中的隐含信息。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种适用范围更广、准确率更高的文本字符编码方式的识别方法及系统。
为实现上述目的,本发明采用的技术方案如下:
一种文本字符编码方式的识别方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明博教育科技有限公司,未经明博教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510107921.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:页面文案的处理方法及装置
- 下一篇:漫画页面的计数系统和漫画页面的计数方法