[发明专利]一种OCR自动识别方法在审
申请号: | 202111295069.8 | 申请日: | 2021-11-03 |
公开(公告)号: | CN113936285A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 熊涛;张晨 | 申请(专利权)人: | 重庆海创云链数字科技有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06F16/22;G06F16/242;G06F16/25 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 陈秋霞 |
地址: | 400000 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 ocr 自动识别 方法 | ||
1.一种OCR自动识别方法,其特征在于,包括:
创建数据传输接口,并通过数据传输接口获取待识别数据,所述待识别数据包括至少一个业务表图片数据;
对待识别数据进行解析,得到文字数据,所述文字数据包括与业务表图片数据对应的业务表文字数据;
对文字数据进行格式标准化处理,并将标准化后的数据存入数据库。
2.根据权利要求1所述的OCR自动识别方法,其特征在于,所述通过数据传输接口获取待识别数据包括:通过API接口获取待识别数据以及通过批量接口获取待识别数据。
3.根据权利要求2所述的OCR自动识别方法,其特征在于,所述通过API接口获取待识别数据包括:通过API接口访问待识别数据所在的网址url,获取待识别数据。
4.根据权利要求3所述的OCR自动识别方法,其特征在于,所述通过批量接口获取待识别数据包括:采用SQL查询语句,并通过批量接口在缓存中确定获取待识别数据,所述缓存表示执行所述OCR自动识别方法的装置所对应的缓存。
5.根据权利要求1所述的OCR自动识别方法,其特征在于,对待识别数据进行解析,得到文字数据,包括:
采用第一解析方式对待识别数据进行第一次解析,得到第一处理后数据;
判断第一次解析是否成功,若是,则将第一处理后数据作为文字数据,否则采用第二解析方式对待识别数据进行第二次解析,得到第二处理后数据;
判断第二次解析是否成功,若是,则将第二处理后数据作为文字数据,否则采用第三解析方式对待识别数据进行第三次解析,得到第三处理后数据;
将第三处理后数据作为文字数据。
6.根据权利要求5所述的OCR自动识别方法,其特征在于,所述采用第一解析方式对待识别数据进行第一次解析,包括:
对待识别数据依次进行去干扰、灰度化、二值化以及去噪处理,得到第一预处理数据;
采用字符识别引擎Tesseract对第一预处理数据进行解析,得到第一处理后数据。
7.根据权利要求5所述的OCR自动识别方法,其特征在于,所述采用第二解析方式对待识别数据进行第二次解析,包括:
对待识别数据依次进行旋转、矫正图像、灰度化、二值化、去干扰以及去噪处理,得到第二预处理数据;
对文字识别器进行训练,并采用训练后的文字识别器对第二预处理数据进行解析,得到第二处理后数据。
8.根据权利要求7所述的OCR自动识别方法,其特征在于,所述采用第三解析方式对待识别数据进行第三次解析,包括:调用云端的第三方文字辅助识别器进行解析,得到第三处理后数据。
9.根据权利要求7所述的OCR自动识别方法,其特征在于,所述将标准化后的数据存入数据库包括:
根据标准化后的数据中的账户ID,在数据库中查重,并将重复的数据过滤,得到过滤后数据,再将过滤后数据存入数据库。
10.根据权利要求9所述的OCR自动识别方法,其特征在于,所述数据库包括关系数据库和非关系数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆海创云链数字科技有限公司,未经重庆海创云链数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111295069.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蓝膜平板式太阳能
- 下一篇:阿奇霉素合成工艺