[发明专利]一种银行回单解析识别方法在审
申请号: | 202211622077.3 | 申请日: | 2022-12-16 |
公开(公告)号: | CN115909350A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 曹蒙蒙;唐海燕;赵双喜;潘鹏鹏;郑一 | 申请(专利权)人: | 上海跃橙文化传播有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/18;G06V30/413;G06F40/284 |
代理公司: | 北京深川专利代理事务所(普通合伙) 16058 | 代理人: | 张娴 |
地址: | 200336 上海市长*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 银行 回单 解析 识别 方法 | ||
本发明公开了一种银行回单解析识别方法,具体涉及数字图像处理领域,包括以下步骤:步骤一:获取待识别银行回单的PDF文件;步骤二:检测出银行回单图像的表格区域;步骤三:对PDF文件区域的图像进行处理,得到多个被判定为银行回单的子图;步骤四:将PDF页面的文本提取后,按照银行回单的子图进行坐标范围判定,得到每个银行回单对应的非结构化文本;步骤五:将得到的非结构化文本使用NLP算法进行分词后,使用常规算法抽取对应结构化数据录入到系统中。本发明支持对各大银行不同版式回单进行识别,并返回回单图像和结构化的识别结果,能够满足对不同样式银行回单进行信息提取的需求。支持单页多回单的银行回单文件解析,更稳定的解析性能。
技术领域
本发明涉及数字图像处理技术领域,具体为一种银行回单解析识别方法。
背景技术
银行回单是为企业客户提供其网银付款交易查询、下载、打印(补打)以及验证功能的有效凭证。回单的内容主要包括日期、编号、户名、账号、币种、金额、摘要以及开户行等详细信息,对于每一笔账务,均有相应的一张回单。银行回单作为企业编制记账凭证的原始依据,在记账过程中涉及大量回单信息的录入,需要耗费大量的人力、物力和财力。
随着ocr技术的迅速发展,印刷体文字识别技术已经相当成熟,并得到了广泛应用。目前,银行回单ocr技术可识别账户名、收付款账户和金额等信息;已被应用在erp智能记账、rpa财务机器人、财务影像系统等行业,通过ocr识别技术可快速将银行回单信息自动录入到系统中,大大节省了录入时间。
传统的银行回单ocr技术往往依赖于识别对象的特点,需要根据银行回单格式设计个性化的模板。但国内各大银行的电子回单格式并不相同,甚至是同一家银行也存在格式不统一的问题,这就需要定制大量的银行回单模板,导致识别过程过分依赖人工干预,识别效率较低。
发明内容
本发明的目的在于提供一种银行回单解析识别方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种银行回单解析识别方法,包括以下步骤:
步骤一:获取待识别银行回单的PDF文件;
步骤二:检测出银行回单图像的表格区域;
步骤三:对PDF文件区域的图像进行处理,得到多个被判定为银行回单的子图;
步骤四:将PDF页面的文本提取后,按照银行回单的子图进行坐标范围判定,得到每个银行回单对应的非结构化文本;
步骤五:将得到的非结构化文本使用NLP算法进行分词后,使用常规算法抽取对应结构化数据录入到系统中。
在一种优选的实施方式中,所述步骤三中对PDF文件区域的图像处理时采用模板匹配、视觉特征、模型抽取、坐标标记算法进行处理。
与现有技术相比,本发明所达到的有益效果是:
本发明支持对各大银行不同版式回单进行识别,并返回回单图像和结构化的识别结果,能够满足对不同样式银行回单进行信息提取的需求。支持单页多回单的银行回单文件解析,更稳定的解析性能,更精确的的解析结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的流程图;
图2是本发明未处理时的银行回单;
图3是本发明解析识别后的数据信息图;
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海跃橙文化传播有限公司,未经上海跃橙文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211622077.3/2.html,转载请声明来源钻瓜专利网。