[发明专利]文件编码的识别方法及计算机可读存储介质有效
申请号: | 201910317628.7 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110096481B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 刘德建;陈广喜;陈丛亮;郭玉湖 | 申请(专利权)人: | 福建天晴数码有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;H03M7/30 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 林志峥 |
地址: | 350000 福建省福州市开发区君竹路8*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文件编码的识别方法及计算机可读存储介质,方法包括:采集样本文件;分别将样本文件的文件编码转换为预设的各编码,生成各编码对应的正向字词库;分别将样本文件通过与其文件编码不同的其他编码进行解码,得到乱码文件并记录编码转化方向;根据乱码文件,生成其编码转化方向对应的反向字词库;获取待识别文件;依次通过一编码对待识别文件进行解码;获取解码后的待识别文件中的词语和单字,并分别将词语和单字在对应的正向字词库以及反向字词库中进行匹配,得到正向匹配数和反向匹配数;若正向匹配数大于反向匹配数,则将一编码作为待识别文件的文件编码。本发明可正确识别出文件编码。 | ||
搜索关键词: | 文件 编码 识别 方法 计算机 可读 存储 介质 | ||
【主权项】:
1.一种文件编码的识别方法,其特征在于,包括:采集样本文件,所述样本文件包括各种语言的非乱码文本;分别将所述样本文件的文件编码转换为预设的编码集合中的各编码,并根据转换后的样本文件,生成各编码对应的正向字词库;分别将所述样本文件通过所述编码集合中与其文件编码不同的其他编码进行解码,得到乱码文件,并记录所述乱码文件的编码转化方向,所述编码转化方向包括文件编码和解码编码;根据所述乱码文件,生成其编码转化方向对应的反向字词库;获取待识别文件;依次通过所述编码集合中的一编码对所述待识别文件进行解码;获取解码后的待识别文件中的词语和单字,并分别将所述词语和单字在所述一编码对应的正向字词库以及第一编码转化方向对应的反向字词库中进行匹配,得到正向匹配数和反向匹配数,所述第一编码转化方向中的解码编码为所述一编码;若所述正向匹配数大于所述反向匹配数,则将所述一编码作为所述待识别文件的文件编码。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴数码有限公司,未经福建天晴数码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910317628.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种文本标注系统、方法及存储介质
- 下一篇:一种数据分析方法和装置