[发明专利]文本解码方法、装置、文本阅读器及计算设备有效
申请号: | 202210090411.9 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114139498B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 范朋程;张继德 | 申请(专利权)人: | 统信软件技术有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/106;G06F16/335;G06F16/33 |
代理公司: | 北京瀚方律师事务所 11774 | 代理人: | 姜莹 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 解码 方法 装置 阅读器 计算 设备 | ||
1.文本解码方法,包括步骤:
获取待解码文本,分别基于多种编码规则对所述待解码文本进行解码,得到每种编码规则对应的解码文本内容;
对于每种编码规则对应的解码文本内容,分别基于相应的编码规则对预置词库进行编码,得到相应的编码词库;
通过将每种编码规则对应的解码文本内容与相应的编码词库进行匹配,来确定每种编码规则对应的匹配权重,并确定最大匹配权重对应的最优编码规则,其中包括:将每种编码规则对应的解码文本内容中的每个字词单元与相应的编码词库中的字词单元进行匹配,以确定每种编码规则对应的解码文本内容与相应的编码词库相匹配的一个或多个匹配单元;确定每个匹配单元在所述编码词库中出现的次数,并根据每个匹配单元在所述编码词库中出现的次数和匹配单元的长度来计算每个匹配单元的权重;将所述一个或多个匹配单元的权重的总和确定为所述编码规则对应的匹配权重;以及
将所述最优编码规则对应的解码文本内容作为正确解码文本内容进行显示。
2.如权利要求1所述的方法,其中,确定编码规则对应的匹配权重的步骤包括:
确定编码规则对应的解码文本内容在相应的编码词库中出现的比例,并根据出现比例来计算编码规则对应的匹配权重。
3.如权利要求1所述的方法,其中,通过以下公式来计算匹配单元的权重:
m=(3*n-1)*c;
其中,m表示匹配单元的权重,n表示匹配单元的长度,c表示匹配单元在编码词库中出现的次数。
4.如权利要求1-3中任一项所述的方法,其中,所述编码规则包括ISO-8859-1、GBK、GB18030、UTF-16、UTF-8中的一种或多种。
5.一种文本解码装置,包括:
解码模块,适于获取待解码文本,分别基于多种编码规则对所述待解码文本进行解码,得到每种编码规则对应的解码文本内容;
编码模块,适于对于每种编码规则对应的解码文本内容,分别基于相应的编码规则对预置词库进行编码,得到相应的编码词库;
确定模块,适于通过将每种编码规则对应的解码文本内容与相应的编码词库进行匹配,来确定每种编码规则对应的匹配权重,并确定最大匹配权重对应的最优编码规则,其中包括:将每种编码规则对应的解码文本内容中的每个字词单元与相应的编码词库中的字词单元进行匹配,以确定每种编码规则对应的解码文本内容与相应的编码词库相匹配的一个或多个匹配单元;确定每个匹配单元在所述编码词库中出现的次数,并根据每个匹配单元在所述编码词库中出现的次数和匹配单元的长度来计算每个匹配单元的权重;将所述一个或多个匹配单元的权重的总和确定为所述编码规则对应的匹配权重;以及
显示模块,适于将所述最优编码规则对应的解码文本内容作为正确解码文本内容进行显示。
6.一种文本阅读器,包括文本解码装置,所述文本解码装置适于执行如权利要求1-4中任一项所述的方法。
7.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-4中任一项所述的方法的指令。
8.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-4中任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于统信软件技术有限公司,未经统信软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210090411.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种易于清洗的干湿分离式电烤箱
- 下一篇:图像搜索方法、电子设备及其介质