[发明专利]文件编码的识别方法及计算机可读存储介质有效
申请号: | 201910317628.7 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110096481B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 刘德建;陈广喜;陈丛亮;郭玉湖 | 申请(专利权)人: | 福建天晴数码有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;H03M7/30 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 林志峥 |
地址: | 350000 福建省福州市开发区君竹路8*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 编码 识别 方法 计算机 可读 存储 介质 | ||
1.一种文件编码的识别方法,其特征在于,包括:
采集样本文件,所述样本文件包括各种语言的非乱码文本;
分别将所述样本文件的文件编码转换为预设的编码集合中的各编码,并根据转换后的样本文件,生成各编码对应的正向字词库;
分别将所述样本文件通过所述编码集合中与其文件编码不同的其他编码进行解码,得到乱码文件,并记录所述乱码文件的编码转化方向,所述编码转化方向包括文件编码和解码编码;
根据所述乱码文件,生成其编码转化方向对应的反向字词库;
获取待识别文件;
依次通过所述编码集合中的一编码对所述待识别文件进行解码;
获取解码后的待识别文件中的词语和单字,并分别将所述词语和单字在所述一编码对应的正向字词库以及第一编码转化方向对应的反向字词库中进行匹配,得到正向匹配数和反向匹配数,所述第一编码转化方向中的解码编码为所述一编码;
若所述正向匹配数大于所述反向匹配数,则将所述一编码作为所述待识别文件的文件编码,
其中,所述正向字词库包括正向字库和正向词库,所述反向字词库包括反向字库和方向词库;
所述依次通过所述编码集合中的一编码对所述待识别文件进行解码的步骤至所述若所述正向匹配数大于所述反向匹配数则将所述一编码作为所述待识别文件的文件编码的步骤具体为:
获取所述编码集合中的一编码,并通过所述一编码对所述待识别文件进行解码;
获取解码后的待识别文件中的词语,所述词语为连续且非空格的两个字符;
将所述词语与所述一编码对应的正向词库进行匹配,得到第一正向匹配数;
将所述词语分别与第一编码转化方向对应的各反向词库进行匹配,得到所述各反向词库的第一反向匹配数,所述第一编码转化方向中的解码编码为所述一编码;
将所述各反向词库的第一反向匹配数相加,得到第二反向匹配数;
若所述第一正向匹配数大于所述第二反向匹配数,则将所述一编码作为待识别文件的文件编码;
若所述第一正向匹配数小于所述第二反向匹配数,则获取第一反向匹配数最大的反向词库对应的编码转化方向中的文件编码,并将所述文件编码作为一编码,继续执行所述通过所述一编码对所述待识别文件进行解码的步骤;
若所述第一正向匹配数和第二反向匹配数相等且均不为零,则获取所述编码集合中的下一编码,并将所述下一编码作为一编码,继续执行所述通过所述一编码对所述待识别文件进行解码的步骤;
若所述第一正向匹配数和第二反向匹配数均为零,则获取解码后的待识别文件中的单字;
将所述单字与所述一编码对应的正向字库进行匹配,得到第二正向匹配数;
将所述单字分别与所述第一编码转化方向对应的反向字库进行匹配,得到所述各反向字库的第三反向匹配数;
将所述各反向字库的第三反向匹配数相加,得到第四反向匹配数;
若所述第二正向匹配数大于所述第四反向匹配数,则将所述一编码作为待识别文件的文件编码;
若所述第二正向匹配数小于所述第四反向匹配数,则获取第三反向匹配数最大的反向字库对应的编码转化方向中的文件编码,并将所述文件编码作为一编码,继续执行所述通过所述一编码对所述待识别文件进行解码的步骤;
若所述第二正向匹配数和第四反向匹配数相等,则获取所述编码集合中的下一编码,并将所述下一编码作为一编码,继续执行所述通过所述一编码对所述待识别文件进行解码的步骤。
2.根据权利要求1所述的文件编码的识别方法,其特征在于,所述采集样本文件之后,进一步包括:
将所述样本文件中的第一字符替换为空格,所述第一字符为ASCII码表示的字母和符号。
3.根据权利要求2所述的文件编码的识别方法,其特征在于,所述通过所述编码集合中的一编码对所述待识别文件进行解码之后,进一步包括:
剔除解码后的待识别文件中的第一字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴数码有限公司,未经福建天晴数码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910317628.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本标注系统、方法及存储介质
- 下一篇:一种数据分析方法和装置