[发明专利]乱码处理方法、装置及存储介质在审
申请号: | 202110281459.3 | 申请日: | 2021-03-16 |
公开(公告)号: | CN115080535A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 胡远明;叶芝高;何林艳;吴岳檑;匡蕾 | 申请(专利权)人: | 中国移动通信集团广东有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F40/12 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
地址: | 510623 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 乱码 处理 方法 装置 存储 介质 | ||
本申请提供一种乱码处理方法、装置及存储介质,所述方法包括:基于源数据库中的待迁移数据,确定异常字段,基于所述异常字段,确定异常字符,基于所述源数据库与目标数据库的字符集,确定所述异常字符对应的正确编码,并将所述正确编码录入所述目标数据库,能够高效、准确地解决数据在不同字符集的数据库之间进行迁移时出现的数据库字符乱码问题。
技术领域
本申请涉及互联网应用技术领域,尤其涉及一种乱码处理方法、装置及存储介质。
背景技术
数据库字符集在创建数据库时指定,在创建后一般不能更改。由于不同地区之间字符集选择的差异,以及不同字符集之间的编码差异,导致数据库在进行数据的迁移、合并等操作时,经常出现字符乱码的现象,影响数据的一致性与有效性。
针对上述产生乱码现象,现有的处理方式有:
1)数据迁移完成后,由业务侧进行数据一致性核查,并逐个进行人工修复。
2)数据迁移完成后,按照字符编码对照表扫描目标数据库中是否存在生僻字。如发现则进行人工比对判断,确认是否为乱码,并逐个进行人工修复。
上述处理方式1)的缺点如下:
a)无法主动发现乱码问题,只能在发现问题后被动响应,对数据质量影响大。
b)发现乱码后,需要到原始数据库中查找对应的记录,从而确定正确字符,处理效率极低。
c)因无法确认乱码是否全部处理完成,导致源端数据库无法下线,占用过多硬件资源。
处理方式2)的缺点如下:
a)由于生僻字与字符乱码并无必然联系,因此通过生僻字判断乱码会出现漏判和错判。
b)发现生僻字后,仍需人工对照源数据库中的记录判断该生僻字是否为乱码,处理效率低。
c)第一次发现了某生僻字为乱码,在第二次发现同样的生僻字时,无法确定其属于与第一次情况相同的乱码还是正常的字符。
综上,现有的处理方法并不能高效地解决数据在不同字符集的数据库之间进行迁移时出现的数据库字符乱码问题。
发明内容
针对现有技术存在的上述技术问题,本申请提供一种乱码处理方法、装置及存储介质。
第一方面,本申请提供一种乱码处理方法,包括:
基于源数据库中的待迁移数据,确定异常字段;
基于所述异常字段,确定异常字符;
基于所述源数据库与目标数据库的字符集,确定所述异常字符对应的正确编码,并将所述正确编码录入所述目标数据库。
可选地,根据本申请的乱码处理方法,所述基于源数据库中的待迁移数据,确定异常字段,包括:
确定所述待迁移数据中的字符类型字段;
将所述字符类型字段转换为通用字符集,基于转换结果确定所述异常字段。
可选地,根据本申请的乱码处理方法,所述将所述字符类型字段转换为通用字符集,基于转换结果确定所述异常字段,包括:
将各所述字符类型字段分别转换为通用字符集,若转换失败或报错,则将对应的字符类型字段确定为异常字段;
将所述源数据库中每行对应的字符类型字段作为一个整体转换为通用字符集,若转换失败或报错,则将对应行中的字符类型字段确定为异常字段。
可选地,根据本申请的乱码处理方法,其特征在于,所述基于所述异常字段,确定异常字符,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广东有限公司;中国移动通信集团有限公司,未经中国移动通信集团广东有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110281459.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鱼精核蛋白饮品及其制备方法
- 下一篇:切片管理方法、用户设备及存储介质