[发明专利]一种基于图像识别纸质存单自动录入方法有效
申请号: | 202111390231.4 | 申请日: | 2021-11-23 |
公开(公告)号: | CN113822269B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 张福佳;方汉林;包恩伟 | 申请(专利权)人: | 浙江保融科技股份有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V20/62;G06V10/30;G06V10/40;G06V10/774;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310013 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 识别 纸质 存单 自动 录入 方法 | ||
1.一种基于图像识别纸质存单自动录入方法,其特征在于包括如下步骤:
步骤1、图像采集,采集纸质存单图像;
步骤2、开通文件共享存储服务,并将存储的所有存单图像分为训练集和测试集;
步骤3、构建存单图像识别模型;
步骤4:用训练集中的存单图像对存单图像识别模型进行训练;
步骤5:用测试集中的存单图像对存单图像识别模型进行测试;对其中识别有问题的存单图像,进行人工标记和人工矫正;然后对该存单图像进行重新识别核对;
步骤3所述的存单图像识别模型包括图像处理模块、图像矫正模块和有效信息提取模块,具体实现如下:
图像处理模块:首先对输入的存单图像进行特征信息提取,所提取的特征信息是色值;根据存单图像提取的所有色值生成波形图;然后根据指定阈值提取波形图中所需波形,并将提取的波形生成新的图像,生成的新图像为黑白图像;
图像校正模块:对新图像采用中值滤波进行降噪,去除图像中干扰噪点;扫描新图像的轮廓;获取轮廓最小的外接矩形,从而得到该外接矩形的中心点坐标、长宽以及相对于水平线的倾斜角;然后通过中心点坐标、长宽以及倾斜角结合三角函数对外接矩形进行水平校正;
有效信息提取模块:对校正后的存单图像进行有效区域划分,具体实现如下:以校正后存单图像中最小外接矩形为参照物,计算输入的存单图像中每个有效信息所在矩形区域的位置和大小,然后裁剪出有效信息所在矩形区域;通过tesseract引擎进行文本匹配,获取矩形区域对应的文字数据;
所述的根据指定阈值提取的波形图是存单图像中的确定独有的图形标记。
2.根据权利要求1所述的一种基于图像识别纸质存单自动录入方法,其特征在于步骤1所述的图像采集,具体实现:在企业部署一台高清扫描仪,支持最大A4纸扫描,扫描仪与用户电脑服务连接,用户扫描后能够通过用户电脑查看扫描后的文件。
3.根据权利要求2所述的一种基于图像识别纸质存单自动录入方法,其特征在于所述的校正具体实现如下:
设最小外接矩形中心点的直角高为p,直角底为o,与水平线的倾斜角为a,则存单中心与外接矩形中心的坐标轴宽度差值w=p*cos a+o*sin a,高度差值h=p*sin a-o*cos a,得到存单中心点坐标后,以该中心点为校正中心点,倾斜角a为校正幅度,将输入存单图像校正得到水平方向的存单图像及存单边界区域。
4.根据权利要求2或3所述的一种基于图像识别纸质存单自动录入方法,其特征在于步骤5所述的矫正实现如下:
根据业务系统与存单图像中对应数据存在超范围偏差或错误,根据实际情况对存单图像中文字框的坐标进行矫正;然后对该存单图像进行重新识别核对。
5.根据权利要求4所述的一种基于图像识别纸质存单自动录入方法,其特征在于实现该方法的系统,包括采集模块、存储模块、存单图像识别模型、再矫正模块;在系统服务器部署任务触发程序,当服务器的存储模块接收到采集模块扫描得到的新存单图像时,任务触发程序首先将新的存单图像传送到存单图像识别模型,通过存单图像识别模型获取识别结果,并将识别结果填写到业务系统或者表格中对应位置;若存在错误则通过再矫正模块进行结果矫正。
6.根据权利要求5所述的一种基于图像识别纸质存单自动录入方法,其特征在于:
所述的采集模块用于采集纸质存单的扫描图像;在企业部署一台高清扫描仪,支持最大A4纸扫描,扫描仪与用户电脑服务连接,用户扫描后能够通过用户电脑查看扫描后的纸质存单文件;
所述的存储模块用于存储用户扫描后的纸质存单文件;开通文件共享存储服务,用户扫描后的文件存储在服务器的集中存储空间,将集中存储空间存储的所有存单图像划分为训练集和测试集;
所述的存单图像识别模型包括图像处理单元、图像矫正单元和有效信息提取单元,具体每个单元实现如下:
图像处理单元:首先对输入的存单图像通过现有方法进行特征信息提取,所提取的特征信息是色值;根据存单图像提取的所有色值生成对应存单图像的波形图;然后根据指定阈值提取波形图中所需波形,并将提取的波形生成新的标记图像,生成的新标记图像为黑白图像;
图像校正单元:对标记图像采用中值滤波进行降噪,去除标记图像中干扰噪点;扫描标记图像的轮廓;获取轮廓最小的外接矩形,从而得到该外接矩形的中心点坐标、长宽以及相对于水平线的倾斜角;然后通过中心点坐标、长宽以及倾斜角结合三角函数对外接矩形进行水平校正;
具体校正实现如下:设最小外接矩形中心点的直角高为p,直角底为o,与水平线的倾斜角为a,则存单中心与外接矩形中心的坐标轴宽度差值w=p*cos a+o*sin a、高度差值h=p*sin a-o*cos a,得到存单中心点坐标后,以该中心点为校正中心点,倾斜角a为校正幅度,将输入存单图像校正得到水平方向的存单图像及存单边界区域;
有效信息提取单元:对校正后的存单图像进行有效区域划分,具体实现如下:以校正后存单图像中最小外接矩形为参照物,计算输入的存单图像中每个有效信息所在矩形区域的位置和大小,然后裁剪出有效信息所在矩形区域;通过tesseract引擎进行文本匹配,获取矩形区域对应的文字数据;
所述的再矫正模块用于矫正识别结果有问题的存单图像;用测试集中的存单图像对存单图像识别模型进行测试;查看测试结果,测试结果中识别明显有问题的存单图像,进行人工标记,然后进行人工矫正;具体矫正如下:根据业务系统与存单图像中对应数据存在偏差大或错误的,则根据实际情况对存单图像中文字框的坐标进行矫正;然后对该存单图像进行重新识别核对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江保融科技股份有限公司,未经浙江保融科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111390231.4/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序