[发明专利]文本解码方法、装置、文本阅读器及计算设备有效
申请号: | 202210090411.9 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114139498B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 范朋程;张继德 | 申请(专利权)人: | 统信软件技术有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/106;G06F16/335;G06F16/33 |
代理公司: | 北京瀚方律师事务所 11774 | 代理人: | 姜莹 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 解码 方法 装置 阅读器 计算 设备 | ||
本发明公开了一种文本解码方法、装置、文本阅读器及计算设备,方法包括步骤:获取待解码文本,分别基于多种编码规则对所述待解码文本进行解码,得到每种编码规则对应的解码文本内容;对于每种编码规则对应的解码文本内容,分别基于相应的编码规则对预置词库进行编码,得到相应的编码词库;通过将每种编码规则对应的解码文本内容与相应的编码词库进行匹配,来确定每种编码规则对应的匹配权重,并确定最大匹配权重对应的最优编码规则;以及将所述最优编码规则对应的解码文本内容作为正确解码文本内容进行显示。根据本发明的文本解码方法,能实现自动选择最匹配的编码规则来对待解码文本进行解码后显示,避免出现乱码问题。
技术领域
本发明涉及计算机技术领域,特别涉及一种文本解码方法、文本解码装置、文本阅读器及计算设备。
背景技术
随着计算机技术的发展,文本的编码方式日益增多。针对不同语言的文本在不同编码环境下显示乱码的问题,迫切需要一种能够自动将文本显示正确的编码方案,使得用户在打开文本的第一时间就是可读的。
人工能阅读文本的前提是使用正确的编码规则对文本进行解码,当前的文本阅读器或者文本编辑器在打开时一般都是使用某一种默认编码规则(例如UTF-8)。当使用的编码规则与默认编码规则不一致时,就会显示为乱码,从而导致阅读障碍。对此,现有的处理方法是通过人工逐个尝试不同的编码规则对文本进行解码,直到解码后的文本内容可被人工读取。而现有的文本编码规则包括多种,常见的有ISO-8859-1、GBK、GB18030、UTF-16、UTF-8,不常见的还有上百种,导致人工尝试多种编码规则对文本进行解码的方式过于复杂。
为此,需要一种文本解码方法,以解决上述技术方案中存在的问题。
发明内容
为此,本发明提供一种文本解码方法、文本解码装置及文本阅读器,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供了一种文本解码方法,包括步骤:获取待解码文本,分别基于多种编码规则对所述待解码文本进行解码,得到每种编码规则对应的解码文本内容;对于每种编码规则对应的解码文本内容,分别基于相应的编码规则对预置词库进行编码,得到相应的编码词库;通过将每种编码规则对应的解码文本内容与相应的编码词库进行匹配,来确定每种编码规则对应的匹配权重,并确定最大匹配权重对应的最优编码规则;以及将所述最优编码规则对应的解码文本内容作为正确解码文本内容进行显示。
可选地,在根据本发明的文本解码方法中,确定编码规则对应的匹配权重的步骤包括:确定编码规则对应的解码文本内容在相应的编码词库中出现的比例,并根据出现比例来计算编码规则对应的匹配权重。
可选地,在根据本发明的文本解码方法中,通过将每种编码规则对应的解码文本内容与相应的编码词库进行匹配,来确定每种编码规则对应的匹配权重的步骤包括:
将每种编码规则对应的解码文本内容中的每个字词单元与相应的编码词库中的字词单元进行匹配,以确定每种编码规则对应的解码文本内容与相应的编码词库相匹配的一个或多个匹配单元;确定每个匹配单元在所述编码词库中出现的次数,并根据每个匹配单元在所述编码词库中出现的次数和匹配单元的长度来计算每个匹配单元的权重;基于所述一个或多个匹配单元的权重来计算所述编码规则对应的匹配权重。
可选地,在根据本发明的文本解码方法中,基于所述一个或多个匹配单元的权重来计算所述编码规则对应的匹配权重包括:将所述一个或多个匹配单元的权重的总和确定为所述编码规则对应的匹配权重。
可选地,在根据本发明的文本解码方法中,通过以下公式来计算匹配单元的权重:m=(3*n-1)*c;其中,m表示匹配单元的权重,n表示匹配单元的长度,c表示匹配单元在编码词库中出现的次数。
可选地,在根据本发明的文本解码方法中,分别基于一种或多种编码规则对待解码文本进行解码的步骤包括:获取与所述待解码文本相适配的一种或多种编码规则,分别基于所述相适配的一种或多种编码规则对所述待解码文本进行解码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于统信软件技术有限公司,未经统信软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210090411.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种易于清洗的干湿分离式电烤箱
- 下一篇:图像搜索方法、电子设备及其介质