[发明专利]一种OCR自动识别方法在审
申请号: | 202111295069.8 | 申请日: | 2021-11-03 |
公开(公告)号: | CN113936285A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 熊涛;张晨 | 申请(专利权)人: | 重庆海创云链数字科技有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06F16/22;G06F16/242;G06F16/25 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 陈秋霞 |
地址: | 400000 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 ocr 自动识别 方法 | ||
本发明公开了一种OCR自动识别方法,包括:创建数据传输接口,并通过数据传输接口获取待识别数据,所述待识别数据包括至少一个业务表图片数据;对待识别数据进行解析,得到文字数据,所述文字数据包括与业务表图片数据对应的业务表文字数据;对文字数据进行格式标准化处理,并将标准化后的数据存入数据库。本发明可以对存储在设备缓存中的业务表图片数据以及存储在网页上的业务表图片数据进行自动识别,将识别后的数据标准化并入库,解决了现有技术中采用人工识别文字费时费力的问题。
技术领域
本发明属于OCR识别领域,具体涉及一种OCR自动识别方法。
背景技术
在现有技术中,很多机构在对用户业务进行处理时,采用纸质表格办理业务。为了方便查询以及对资料长久化保存,需要将纸质表格中的数据转换为电子数据。目前,通常采用人工识别的方式识别纸质表格,需要使用大量的人力将纸质文件转换为电子资料,导致识别效率低下,并且浪费了大量的人力和财力。
发明内容
针对现有技术中的上述不足,本发明提供的一种OCR自动识别方法解决了现有技术中存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种OCR自动识别方法,包括:
创建数据传输接口,并通过数据传输接口获取待识别数据,所述待识别数据包括至少一个业务表图片数据;
对待识别数据进行解析,得到文字数据,所述文字数据包括与业务表图片数据对应的业务表文字数据;
对文字数据进行格式标准化处理,并将标准化后的数据存入数据库。
进一步地,所述通过数据传输接口获取待识别数据包括:通过API接口获取待识别数据以及通过批量接口获取待识别数据。
进一步地,所述通过API接口获取待识别数据包括:通过API接口访问待识别数据所在的网址url,获取待识别数据。
进一步地,所述通过批量接口获取待识别数据包括:采用SQL查询语句,并通过批量接口在缓存中确定获取待识别数据,所述缓存表示执行所述OCR自动识别方法的装置所对应的缓存。
进一步地,对待识别数据进行解析,得到文字数据,包括:
采用第一解析方式对待识别数据进行第一次解析,得到第一处理后数据;
判断第一次解析是否成功,若是,则将第一处理后数据作为文字数据,否则采用第二解析方式对待识别数据进行第二次解析,得到第二处理后数据;
判断第二次解析是否成功,若是,则将第二处理后数据作为文字数据,否则采用第三解析方式对待识别数据进行第三次解析,得到第三处理后数据;
将第三处理后数据作为文字数据。
进一步地,所述采用第一解析方式对待识别数据进行第一次解析,包括:
对待识别数据依次进行去干扰、灰度化、二值化以及去噪处理,得到第一预处理数据;
采用字符识别引擎Tesseract对第一预处理数据进行解析,得到第一处理后数据。
进一步地,所述采用第二解析方式对待识别数据进行第二次解析,包括:
对待识别数据依次进行旋转、矫正图像、灰度化、二值化、去干扰以及去噪处理,得到第二预处理数据;
对文字识别器进行训练,并采用训练后的文字识别器对第二预处理数据进行解析,得到第二处理后数据。
进一步地,所述采用第三解析方式对待识别数据进行第三次解析,包括:调用云端的第三方文字辅助识别器进行解析,得到第三处理后数据。
进一步地,所述将标准化后的数据存入数据库包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆海创云链数字科技有限公司,未经重庆海创云链数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111295069.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蓝膜平板式太阳能
- 下一篇:阿奇霉素合成工艺