[发明专利]一种基于深度学习框架的财务报表自动识别方法在审
申请号: | 202010571056.8 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111814598A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 杨玉东;张丽影;任昊;刘春影;杨茜 | 申请(专利权)人: | 吉林省通联信用服务有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32 |
代理公司: | 长春众邦菁华知识产权代理有限公司 22214 | 代理人: | 于晓庆 |
地址: | 130000 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 框架 财务报表 自动识别 方法 | ||
一种基于深度学习框架的财务报表自动识别方法,涉及计算机视觉识别领域,解决了人工识别存在的成本过高、易疲劳、易疏忽、效率低、准确率低的问题。本发明包括:接收财务报表图像;霍夫直线法进行图像校正,调整表格至水平状态;OCR文本自动识别:采用基于深度学习网络的图像识别模型依次识别财务报表图像中的文本所在位置和具体内容,提取出整张表格的信息;基于图像形态学检测表格线,并提取单元格位置坐标;生成Excel文件。本发明能够自动识别财务报表中的文本位置、文本内容以及报表中的表格线,最终输出与原财务报表图像逻辑结构和文本内容相一致的Excel文件,以达到降低财务报表识别成本、提高识别工作效率和准确率的目的。
技术领域
本发明涉及计算机视觉识别技术领域,具体涉及一种基于深度学习框架的财务报表自动识别方法。
背景技术
随着社会经济的快速发展,企业的发展规模不断扩大,导致其融资需求随之增加,而财务报表数据能够直接、客观地反映企业的经营能力、盈利能力、偿债能力以及成长能力,在企业向银行递交融资申请时,被作为重要的资格审核依据。因此,促使银行对财务报表的识别需求也越来越大。目前,现有的财务报表识别主要是通过人工方式进行,人工识别方法所耗时间成本、人力成本均相对较高,效率低下,且人工识别的长时间重复性操作容易造成疲劳,进而引发误差、疏忽、漏项等问题,致使财务报表识别结果的准确率偏低。
如何准确、高效地识别财务报表,同时避免人工识别成本过高、易疲劳、易疏忽等弊端,是目前亟待解决的技术问题。
发明内容
为解决目前人工识别财务报表存在的成本过高、易疲劳、易疏忽、效率低、准确率低的问题,本发明提出一种基于深度学习框架的财务报表自动识别方法,其能够自动识别财务报表中的文本位置、文本内容以及报表中的表格线,最终输出与原财务报表图像逻辑结构和文本内容相一致的Excel文件,以达到降低财务报表识别成本、提高识别工作效率和准确率的目的。
本发明为解决技术问题所采用的技术方案如下:
本发明的一种基于深度学习框架的财务报表自动识别方法,包括以下步骤:
S1、接收财务报表图像;
S2、基于霍夫直线法对财务报表图像进行图像校正,调整表格至水平状态;
S3、OCR文本自动识别:采用基于深度学习网络的图像识别模型依次识别财务报表图像中的文本所在位置和具体内容,提取出整张表格的信息;
S4、基于图像形态学检测表格线,并提取单元格位置坐标;
S5、生成并输出Excel文件。
进一步的,步骤S1具体包括以下步骤:
S11、准备财务报表文件;
S12、使用Python工具中的OpenCV2算法库接收财务报表图像,并统一转化为png格式文件。
进一步的,步骤S2具体包括以下步骤:
S21、准备训练集数据;
S22、基于霍夫直线法,使用Python工具中的OpenCV2算法库获取财务报表图像中倾斜角度小于45度的直线;
S23、根据获取的直线斜率,计算出平均斜率;
S24、根据平均斜率对财务报表图像进行校正,调整表格至水平状态;
S25、基于测试集数据检验有效校正率,有效校正率为99.6%。
进一步的,步骤S3具体包括以下步骤:
S31、准备训练集数据;
S32、获取不同位置、不同噪声下的单元格图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林省通联信用服务有限公司,未经吉林省通联信用服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010571056.8/2.html,转载请声明来源钻瓜专利网。