[发明专利]基于OCR模板归一化提升自定义模板识别率方法及设备在审

专利信息
申请号: 201811457461.6 申请日: 2018-11-30
公开(公告)号: CN109558846A 公开(公告)日: 2019-04-02
发明(设计)人: 吴建杭;庄国金;杜保发;周文贵;陈文传 申请(专利权)人: 厦门商集网络科技有限责任公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32
代理公司: 福州科扬专利事务所 35001 代理人: 何小星
地址: 361101 福建省厦*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 透视变换矩阵 透视变换 图像归一化 自定义模板 模板特征 归一化 模板图 识别率 像素点 字符组 像素 图像 格式差异 图像识别 特征点 遍历 创建 记录
【说明书】:

发明涉及基于OCR模板归一化提升自定义模板识别率方法,包括如下步骤:获取待识别图和创建模板图,生成一模板特征图;对待识别图和模板特征图分别进行图像识别,遍历所有待识别图中的字符,则记录字符组;选取至少四个字符组,利用透视变换公式,计算出透视变换矩阵;用透视变换矩阵计算待识别图中各像素点变换后的像素值,从而得到透视变换图像,实现图像归一化。本发明通过提取待识别图和模板图上对应特征点,计算透视变换矩阵,用透视变换矩阵计算待识别图中各像素点变换后的像素值,从而得到透视变换图像,解决了待识别图中存在的格式差异问题,实现图像归一化。

技术领域

本发明涉及一种基于OCR模板归一化提升自定义模板识别率的方法及设备,属于票据自动识别领域。

背景技术

使用固定格式排版的票据,打印出来的纸质票据也会有固定格式,请参阅图1,比如增值税专用发票,都具有“购买方”、“密码区”、“销售方”、“备注”等固定区域。因此,票据也有需要识别的套打区域,这些套打区域也有相对固定的位置。

使用模板自动识别,就是根据某种具有固定格式的票据,设计出一套可重复使用的模板,这种模板包含特定标记中每个需要识别区域的位置和区域的宽、高。按照模板中的位置对扫描或者拍摄后得到的电子版票据进行裁剪,得到精确区域的图像,再自动进行图像识别和OCR识别,可以提高记账处理效率。

在实际使用模板进行票据自动识别时,扫描或者拍摄后得到的票据影像与原始票据图像会存在差异。比如移动拍照时角度、高度、摄像头参数不同,会导致拍照出来的票据内容位置偏移问题。位置偏移,使用固定模板就会出现框不准、框不全等问题,进而裁剪不到正确的识别区域。

为了解决图像输入差异性问题,包括输入图像的尺寸,旋转角度,透视,偏移等问题,本文提出票据模板归一化方法,将待识别的票据图像,变换成标准样票相近的格式,使得需要识别的区域都能够比较准确的出现模板识别框内,以提高最终票据识别率。

发明内容

为了解决上述技术问题,本发明提供一种基于OCR模板归一化提升自定义模板识别率的方法,其解决了票据影像与标准样票之间的差异性问题,能够将待识别的票据影像变换成与标准样票相近的格式,使得需要识别的区域都能够比较准确的出现标准样票对应的模板识别框内,大大提高票据识别率。

本发明的技术方案一如下:

基于OCR模板归一化提升自定义模板识别率方法,包括如下步骤:

获取待识别图和创建模板图,所述待识别图为需要自动识别的票据影像,所述模板图为票据模板所生成的票据影像;

提取模板图中所有固定区域重新生成一模板特征图;

对待识别图和模板特征图分别进行图像识别,记录识别到的字符信息,包括字符和字符坐标;

遍历所有待识别图中的字符,搜索模板特征图中的字符,如果待识别图和模板特征图上的字符相同,则记录为一字符组,该字符组包含字符以及该字符在各自图像上的坐标;

选取至少四个字符组,利用透视变换公式,计算出透视变换矩阵;

用透视变换矩阵计算待识别图中各像素点变换后的像素值,从而得到透视变换图像,实现图像归一化。

更优地,所述图像识别采用OCR识别得到字符信息。

更优地,使用随机抽样一致性算法,选取至少四个字符组,利用透视变换

公式,计算出透视变换矩阵。

更优地,所述透视变换图像上任意一坐标的像素值的计算过程为:用透视变换图像上的点坐标乘上所述透视变换矩阵,求出该点在待识别图中的坐标,根据求出的坐标从待识别图中获取对应的像素值,将该像素值作为透视变换图像上的点坐标的像素值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811457461.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top