[发明专利]一种基于深度学习框架的财务报表自动识别方法在审
申请号: | 202010571056.8 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111814598A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 杨玉东;张丽影;任昊;刘春影;杨茜 | 申请(专利权)人: | 吉林省通联信用服务有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32 |
代理公司: | 长春众邦菁华知识产权代理有限公司 22214 | 代理人: | 于晓庆 |
地址: | 130000 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 框架 财务报表 自动识别 方法 | ||
1.一种基于深度学习框架的财务报表自动识别方法,其特征在于,包括以下步骤:
S1、接收财务报表图像;
S2、基于霍夫直线法对财务报表图像进行图像校正,调整表格至水平状态;
S3、OCR文本自动识别:采用基于深度学习网络的图像识别模型依次识别财务报表图像中的文本所在位置和具体内容,提取出整张表格的信息;
S4、基于图像形态学检测表格线,并提取单元格位置坐标;
S5、生成并输出Excel文件。
2.根据权利要求1所述的一种基于深度学习框架的财务报表自动识别方法,其特征在于,步骤S1具体包括以下步骤:
S11、准备财务报表文件;
S12、使用Python工具中的OpenCV2算法库接收财务报表图像,并统一转化为png格式文件。
3.根据权利要求2所述的一种基于深度学习框架的财务报表自动识别方法,其特征在于,步骤S2具体包括以下步骤:
S21、准备训练集数据;
S22、基于霍夫直线法,使用Python工具中的OpenCV2算法库获取财务报表图像中倾斜角度小于45度的直线;
S23、根据获取的直线斜率,计算出平均斜率;
S24、根据平均斜率对财务报表图像进行校正,调整表格至水平状态;
S25、基于测试集数据检验有效校正率,有效校正率为99.6%。
4.根据权利要求3所述的一种基于深度学习框架的财务报表自动识别方法,其特征在于,步骤S3具体包括以下步骤:
S31、准备训练集数据;
S32、获取不同位置、不同噪声下的单元格图像;
S33、使用Python工具中的TensorFlow和Keras算法库,基于CTPN深度学习网络对文本所在区域进行定位,采用区域坐标的方式标记出单元格图像文本的所在位置,坐标采用五级标识进行定位;
S34、使用Python工具中的TensorFlow和Keras算法库,基于训练集数据建立CRNN神经网络模型,进行中英文及数字的识别,获取相应坐标区域内的文本内容;
S35、基于测试集数据对上述CRNN神经网络模型识别结果进行评估,识别准确率为99.5%。
5.根据权利要求4所述的一种基于深度学习框架的财务报表自动识别方法,其特征在于,步骤S33中,所述五级标识为角度、横坐标、纵坐标、宽度和高度。
6.根据权利要求4所述的一种基于深度学习框架的财务报表自动识别方法,其特征在于,步骤S4具体包括以下步骤:
S41、准备训练集数据;
S42、对财务报表图像进行二值化处理,将财务报表图像的灰度值根据阈值进行0,1处理;
S43、使用Python工具中的OpenCV2算法库,构造横、竖两种腐蚀核,对二值图像进行过滤,横向腐蚀核处理得到表格的横线,竖向腐蚀核处理得到表格的竖线,并以矩阵形式进行标记;
S44、对每个像素点所对应的矩阵[r,g,b]进行归一化处理,并分别进行横向矩阵投影处理和纵向矩阵投影处理;
S45、根据得到的行和列,定位财务报表图像中每个单元格的位置,同时,根据生成的行和列与文字所对应的位置与大小进行匹配,若字的位置穿过了某条行,则去除该条行对应的表格线,将相邻两个横向单元格合并为一个单元格;若字的位置穿过了某条列,则去除该条列对应的表格线,将相邻两个纵向单元格合并为一个单元格;
S46、基于测试集数据检验模型识别结果准确率,准确率为99.7%。
7.根据权利要求6所述的一种基于深度学习框架的财务报表自动识别方法,其特征在于,步骤S5具体包括以下步骤:
S51、根据得到的表格位置信息,使用Python工具的xlwt算法库生成对应的空白Excel文件;
S52、根据已识别的文本位置、文本内容将对应坐标区域内的文本内容填入单元格,并输出Excel文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林省通联信用服务有限公司,未经吉林省通联信用服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010571056.8/1.html,转载请声明来源钻瓜专利网。