[发明专利]基于插件的发票识别方法有效
申请号: | 201710506334.X | 申请日: | 2017-06-28 |
公开(公告)号: | CN107358232B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 衣杨;赵小蕾;王玉娟;石晓红 | 申请(专利权)人: | 中山大学新华学院 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34 |
代理公司: | 广州汇航专利代理事务所(普通合伙) 44537 | 代理人: | 吕诗 |
地址: | 510520 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 插件 发票 识别 方法 | ||
1.一种基于插件的发票识别方法,其特征是,包括:
将预先创建的识别插件导入到动态链接库中;其中,所述识别插件基于适应于对应类型的发票的识别算法创建;
获取待识别的发票的图像信息,及其类型;
根据该待识别的发票的类型从所述动态链接库中调取对应的识别插件以对该待识别的发票的图像信息进行识别,进而获取所需的发票信息;
所述识别方法 包括:
S21、通过色彩分离将发票中的表格从图像中进行分离,对分离出的表格图像进行二值化,用形态学操作对表格进行修复以获取完整的表格;
S22、对步骤S21获取的表格进行Hough变换,求其直线倾斜角度,根据倾斜角度对发票原始彩色图像和表格图像进行旋转;
S23、采用投影法对表格中各个角点坐标进行定位,并根据定位结果对表格进行切割,以获取表格中的多个不同的信息区域;
投影分为水平投影与垂直投影;水平投影包括:对发票表格上的五条水平直线进行积分,能够得到对应X坐标,即可得到五条水平直线在表格图像中的纵坐标R1、R2、R3、R4和R5;
垂直投影包括:把发票表格中第二条与第三条水平直线之间的部分截取出来,然后再进行垂直投影,得到九个明显的峰值,设从左到右垂直直线的横坐标分别为C1、C2、C3、C4、C5、C6、C7、C8和C9,九个峰值的横坐标即为表格中垂直线的横坐标C1、C2、C3、C4、C5、C6、C7、C8和C9;
S24、对各个信息区域进行二值化、色彩分离、图像去除噪声处理;
S25、采用Tesseract引擎对经过步骤S24处理后的信息区域进行字符识别,以获取所需的发票信息;
步骤S22具体包括:
获取增值税普通发票彩色分离后带表格的图像,然后二值化的表格图像;
对二值化的图像进行边缘检测;
获取检测后的图像然后进行Hough变换;θ以一为增量,分别计算出每个点的ρ值大小,然后是M[θ][ ρ]加1;其中,参数空间(θ,ρ)表示表格图像中的直线;θ的取值范围为0-360,ρ的取值范围为0-n,n的大小为增值税普通发票对角线长度;M[360][n]为定义的一个计数器;
取出二维数组M[θ][ρ]值最大的,此最大值对应的θ为增值税普通发票与水平方向上的倾斜角;
通过Hough变换获得的倾斜角θ,根据角度θ对图像倾斜较正。
2.根据权利要求1所述的基于插件的发票识别方法,其特征是,所述方法还包括:
将获取到的发票信息存入到数据库中。
3.根据权利要求1所述的基于插件的发票识别方法,其特征是,所述信息区域分为三类,第一类为发票代号、发票号码,开票日期,第二类是金额相关信息,第三类为销售方信息区域;
其中,针对第一类信息区域,先把彩色图像转换为灰度图像,然后对灰度图像进行二值化,在图像二值化后,采用连通域滤波对信息区域进行去噪;
针对第二类信息区域,用先验阈值的方法去除图片中红色信息,用OTSU方法对图像进行二值化,之后进行水平投影以确定金额上下边界,然后进行垂直投影以确定金额左右边界,进而提取金额信息,最后对图像进行圆滑;
针对第三类信息区域,先去除图像中红色的信息,然后进行二值化,最后进行投影切分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学新华学院,未经中山大学新华学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710506334.X/1.html,转载请声明来源钻瓜专利网。