[发明专利]一种TXT文档编码字符集的校验方法及系统在审
申请号: | 201711121949.7 | 申请日: | 2017-11-14 |
公开(公告)号: | CN107943761A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 张鑫 | 申请(专利权)人: | 北京思特奇信息技术股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 txt 文档 编码 字符集 校验 方法 系统 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种TXT文档编码字符集的校验方法及系统。
背景技术
现有技术中,运营商的营业系统在进行批量业务办理时,通过批量框架支撑批量业务办理。用户从前台上传批量文件(TXT格式),批量框架下载并解析文件入库,然后逐条生产订单。但会出现部分内容为乱码的情况,影响文档解析准确率及处理效率。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种TXT文档编码字符集的校验方法及系统。
本发明解决上述技术问题的技术方案如下:一种TXT文档编码字符集的校验方法,包括:
接收待校验TXT文档;
对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;
按照所述文件编码格式解码所述待校验TXT文档的编码字符集。
本发明的有益效果是:通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式包括:
判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式。
采用上述进一步方案的有益效果是,带有BOM头部信息的文档可以根据BOM头内容快速、准确地确认编码格式;如果文档没有BOM头部信息,可以根据编码规则准确地确认编码格式。
进一步,所述如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式包括:
当BOM头为FE FF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;
当BOM头为FF FE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;
当BOM头为EF BB时,确定所述待校验TXT文档的文件编码格式为UTF-8。
采用上述进一步方案的有益效果是,对于存在BOM头部信息的UTF-16的大端序表示类型UTF-16BE文件,其头部信息的16进制编码为FE FF;UTF-16的小端序表示类型Unicode的默认编码其头部信息的16进制编码为FF FE,UTF_8文件,其头部信息的16进制编码为EFBB,通过上述编码可以直接快速确认文件的编码字符集。
进一步,所述如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式包括:
判断所述待校验TXT文档是否为文件尾;
如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果所述待校验TXT非文件尾,则判断读入的字节是否大于0XF8;
如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果读入的字节小于0XF8,则判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;
如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。
采用上述进一步方案的有益效果是,对于没有BOM头部信息的UTF-8格式文件,按照前文所说的UTF-8编码规则校验,符合规则的字符集编码为UTF-8,不符合规则的为GBK编码,可以快速确认没有BOM头信息的UTF-8格式文件以及GBK格式文件。
进一步,将所述TXT文档编码字符集的校验方法声明成静态方法并封装成JAR包。
采用上述进一步方案的有益效果是,将方法声明成静态方法并封装成JAR包,方便复用。
本发明解决上述技术问题的另一技术方案如下:一种TXT文档编码字符集的校验系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711121949.7/2.html,转载请声明来源钻瓜专利网。