[发明专利]一种票据金额数位缺失恢复方法、系统、设备及存储介质有效
申请号: | 202211408627.1 | 申请日: | 2022-11-11 |
公开(公告)号: | CN115457567B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 吴春尧;王殿才;毛晶 | 申请(专利权)人: | 北京中科万国互联网技术有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/412;G06V30/42 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 丁彦峰 |
地址: | 100101 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 票据 金额 数位 缺失 恢复 方法 系统 设备 存储 介质 | ||
本发明实施例公开了一种票据金额数位缺失恢复方法、系统、设备及存储介质,本发明实施例通过充分利用票据图像识别后的中文金额信息与数字金额信息,进行深入的信息处理,先利用数字金额信息得到候选数字金额字符串,再与经中文金额信息转化得来的数字金额信息进行对比,确定小数点所在位的比对基点,选取优选数字金额字符串,然后利用优选数字金额字符串与经中文金额信息转化得来的数字金额信息进行对比,对金额数位缺失进行补位恢复。本发明实施例针对各种票据金额数位缺失情况,相互识别中文金额信息与数字金额信息中有价值的数据进行按位恢复,有效提高了票据金额识别准确率。
技术领域
本申请涉及票据信息处理技术领域,具体涉及一种票据金额数位缺失恢复方法、系统、设备及存储介质。
背景技术
在利用OCR(Optical Character Recognition,光学字符识别)技术对票据金额识别时,金额信息是票据的核心数据。一般票据票面上,都包含有两种金额信息:中文金额信息和数字金额信息,为了保证票据金额识别精准性,常常利用中文金额信息和数字金额信息相互印证手段得到最终的票据金额识别结果。
随着数字化的普及,经常使用扫描、照相等电子化手段对票据票面信息进行处理。由于图像面容易产生阴影或者扭曲,另外,OCR算法的识别能力有限,这些都会不可避免地使识别结果存在数据信息缺失,例如:小数点缺失、前后数据缺失、中间数据缺失。
目前针对票据金额识别数据存在缺失的问题,将数字金额信息转换成中文金额信息,进而使用数字金额信息与中文金额信息进行初步的相互演算,得到票据金额识别。当前票据金额识别中,针对票据金额数位缺失的分析不够深入、充分,不能进行针对性的恢复,无法保证票据金额识别的准确性。
发明内容
为此,本申请提供一种票据金额数位缺失恢复方法、系统、设备及存储介质,以解决现有技术针对各种票据金额数位缺失情况无法进行针对性的恢复,票据金额识别准确率低的技术问题。
为了实现上述目的,本申请提供如下技术方案:
根据本发明实施例的第一方面,本申请实施例提供了一种票据金额数位缺失恢复方法,所述方法包括:
采集票据图片;
对所述票据图片进行识别,得到票据金额识别结果,所述票据金额识别结果包括:中文金额字符串和第一数字金额字符串;
将所述中文金额字符串转化为第二数字金额字符串;
统计所述第一数字金额字符串的第一字符位数和所述第二数字金额字符串的第二字符位数;
比较所述第一字符位数和第二字符位数的值,选取位数最小值;
从所述第一数字金额字符串末位开始依次向前选取为小数点候选位并添加小数点,生成预设数量的第三数字金额字符串并写入小数候选集中;
利用各个第三数字金额字符串的字符数字分别与所述第二数字金额字符串对应数位字符数字相减,记录两者相减为0的次数;
利用各个第三数字金额字符串对应的记录结果除以所述位数最小值,得到参考比值;
选取最大参考比值对应的第三数字金额字符串作为第四数字金额字符串,以所述第四数字金额字符串中小数点所在位作为比对基点;
基于所述比对基点,将所述第四数字金额字符串和第二数字金额字符串的字符数字按位进行比对;
判断比对结果是否一致;
如果比对结果不一致,则判断不相同的两个字符数字中是否存在一个为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科万国互联网技术有限公司,未经北京中科万国互联网技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211408627.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种板式悬挑结构和生产方法
- 下一篇:一种空腹悬挑结构