[发明专利]基于文字识别的财务报表识别方法及装置有效

申请号：	202010245364.1	申请日：	2020-03-31
公开（公告）号：	CN111414889B	公开（公告）日：	2023-09-26
发明（设计）人：	王建奇;郑振雷;钱江;张力引	申请（专利权）人：	中国工商银行股份有限公司
主分类号：	G06V30/412	分类号：	G06V30/412;G06V10/82;G06N3/0464
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	王涛;汤在彦
地址：	100140 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于文字识别财务报表方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于文字识别的财务报表识别方法及装置，基于文字识别的财务报表识别方法包括：接收所述财务报表的图像数据；对所述图像数据进行标准化处理以及预处理；利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。本发明将财务报表录入与文字识别技术相结合，能有效减少人工录入的工作量，提升信息采集的准确度。

技术领域

本发明涉及信息技术领域，具体涉及文字识别领域技术领域，特别是涉及一种基于文字识别的财务报表识别方法及装置。

背景技术

在传统信贷业务办理过程中，信息采集仍然主要依靠业务人员手工录入，特别是财务报表业务场景，每年需要手工录入数千张各行业公司财务报表，其表格数量多，金额数字量很大，效率低下并且容易出错。

随着人工智能的不断发展，基于模式识别和深度学习文字识别技术日渐成熟。文字识别技术也大量的被运用到数据自动录入的场景，在信贷财务报表录入场景下，这些通用机制目前存在一些缺陷，主要包括：一是财务报表格式应企业而异，对于非通用格式的图像，识别后的文字提取造成困难；二是财务报表图像数量较多，识别耗时较长；三是财务指标名称没有统一标准，无法自动映射到系统标准财务报表模板中，准确率较低。

发明内容

针对现有技术中的问题，本发明提供的基于文字识别的财务报表识别方法及装置，将财务报表录入与文字识别技术相结合，能有效减少人工录入的工作量，提升信息采集的准确度。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种基于文字识别的财务报表识别方法，包括：

接收所述财务报表的图像数据；

对所述图像数据进行标准化处理以及预处理；

利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。

一实施例中，对所述图像数据进行标准化处理包括：

判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。

一实施例中，对所述图像数据进行预处理包括：

对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化；

对标准化之后的图像数据进行矩形卷积核处理。