[发明专利]字符编码识别方法及装置有效
申请号: | 201810050150.1 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108197087B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 王占一 | 申请(专利权)人: | 奇安信科技集团股份有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100088 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 编码 识别 方法 装置 | ||
本发明提供一种字符编码识别方法及装置,该方法包括:获取待识别文本;根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。本发明实施例提供一种字符编码识别方法及装置,通过对获取到的待识别文本,根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值,从符合概率值中确定符合待识别文本的编码方式,然后进行解码获得解码结果,从而达到无需人为设定编码方式及匹配编码方式所需的特征序列,减少了工作量,灵活性强。
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种字符编码识别方法及装置。
背景技术
在计算机信息技术领域,字符编码是一项基本技术。字符编码也称字集码,是把字符集中的字符编码为指定集合中某一对象,以便文本在计算机中存储和通过通信网络的传递。计算机中储存的信息都是用二进制数表示的,而要想让用户看得懂,必须按照某一字符集通过字符编码的方式进行转换。常见的编码方式主要有UTF-8、GB2312、GBK、BIG5等。通常,不同语种有其相对应的适用编码,如ISO-8859-1主要用于表示拉丁字符,GBK、GB2312常用于简体中文,而BIG5常用于繁体中文。
在计算机存储和展示信息时,由于信息缺失或被修改有时无法获取正确的编码方式,导致无法正常应用。因此,识别字符编码的方法和系统非常重要。常用的识别方法有三种:(1)根据编码范围确定,每种编码有自己的使用范围,但当存在大量的编码重合点时这种方法将会失效。(2)使用特征匹配,用词典中的关键词或人工定义的特征去匹配当前信息,一旦匹配成功即可确定。但如果匹配不成功则无法确定。(3)字符分布法,事先建立字符的概率模型,根据模型计算当前字符分布的概率来判断归属情况。这种方法对于有特定词语使用习惯、篇幅过短的编码信息效果有限。
发明内容
本发明实施例提供一种字符编码识别方法及装置,用于解决现有技术中编码方式依赖人工设定,灵活性差的问题。
第一方面,本发明实施例提供一种字符编码识别方法,包括:
获取待识别文本;
根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
可选地,所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,包括:
将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
根据所述符合概率值确定符合所述待识别文本的编码方式。
可选地,所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,包括:
从所述待识别文本中选取多个文本段;
将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值,根据所述符合概率值确定符合各个文本段的编码方式;
根据各个文本段的编码方式确定所述待识别文本的编码方式。
可选地,根据所述符合概率值确定符合所述待识别文本的编码方式,包括:根据所述符合概率值中选取最大概率值;将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。
第二方面,本发明实施例提供一种字符编码识别装置,包括:
获取模块,用于获取待识别文本;
处理模块,用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司,未经奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810050150.1/2.html,转载请声明来源钻瓜专利网。