[发明专利]一种确定字符集的方法和装置在审
申请号: | 201810744560.6 | 申请日: | 2018-07-09 |
公开(公告)号: | CN110704629A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 马德棚 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30 |
代理公司: | 11219 中原信达知识产权代理有限责任公司 | 代理人: | 张一军;张效荣 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符集 解码 文本数据 计算机技术领域 方法和装置 技术效果 交集 | ||
本发明公开了一种确定字符集的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对待解码的文本数据采用多种字符集进行解码;确定每种字符集对所述文本数据解码生成字符的个数;将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集。该实施方式克服了现有技术在利用多种字符集解码时无法处理编码交集、或确定字符集的效率低的技术问题,达到快速、准确地确定文本数据的字符集的技术效果。
技术领域
本发明涉及计算机技术领域,尤其涉及一种确定字符集的方法和装置。
背景技术
为了方便字符的存储和传输,现有技术定义了多种字符集以及对应的编码方式用于编码。其中,解码是与编码所用的字符集和编码方式对应的。但是在一些特殊情况下,编码后的文本数据接收方没有获知输入文本的编码方式和字符集,则需要判断所述文本数据的字符集或编码方式。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1.不同字符集之间存在交集,所以对于交集部分之内的字符进行解码时,不同字符集均可以解码,但解码后的含义不同、可能存在歧义,导致没有获知编码方式或字符集的文本数据在解码时准确率低;
2.现有技术在判断字符集时,需要对现有技术中常用的字符集或编码方式进行比对,确定相应的字符集,导致确定字符集的速度慢、效率低。
发明内容
有鉴于此,本发明实施例提供一种确定字符集的方法和装置,能够在没有获知文本数据的编码方式或字符集时快速、准确地确定文本数据的字符集。
为实现上述目的,根据本发明实施例的一个方面,提供了一种确定字符集的方法,包括:
对待解码的文本数据采用多种字符集进行解码;
确定每种字符集对所述文本数据解码生成字符的个数;
将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集。
可选地,将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集之后,包括:
判断是否出现识别错误;
若出现识别错误,则舍弃识别错误的字符集,重新确定文本数据对应的字符集。
可选地,判断是否出现识别错误,包括:
根据语义分析判断是否出现识别错误;
或,根据文本数据解码后是否出现属于特定字符集的字符判断是否出现识别错误。
可选地,根据语义分析判断是否出现识别错误,包括:
判断多个字符集对文本数据可以解码的交集部分的解码结果是否能够表达含义;若不能表达含义,则确定出现识别错误;
或,根据所述交集部分的解码结果与其他解码后的上下文之间语义的联系,判断是否出现识别错误;若不存在联系,则确定出现识别错误;
或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析;若生成字符个数最多的解码结果语义无效,则确定出现识别错误。
可选地,所述重新确定文本数据对应的字符集,包括:
若一个字符集对所述交集部分解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集;
或,若一个字符集对所述交集部分解码后能够与其他解码后的上下文之间存在语义联系,则确定所述字符集为文本数据对应的字符集;
或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析,当确定一个字符集对文本数据解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810744560.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于企业管理信息咨询资料整理系统
- 下一篇:一种标识化关联图谱自优化机制