[发明专利]一种对图像型PDF财务数据关键表格信息的处理方法在审
申请号: | 201911336180.X | 申请日: | 2019-12-23 |
公开(公告)号: | CN111027297A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 计璐;杨胜 | 申请(专利权)人: | 海南港澳资讯产业股份有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F40/174;G06K9/00 |
代理公司: | 深圳市鼎泰正和知识产权代理事务所(普通合伙) 44555 | 代理人: | 周小涛 |
地址: | 570105 海南省海*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 pdf 财务数据 关键 表格 信息 处理 方法 | ||
本发明涉及文档处理领域,特别是涉及一种对图像型PDF财务数据关键表格信息的处理方法。在云化服务器上加载PDF财务数据表识别系统,用户上传需要处理获得财务数据的PDF文档,系统采用OCR光学图像识别字符接口、表格版面分析算法及深度学习算法将关键财务数据提取出来;系统将提取结果数据序列化,以结构化形式输出为JSON格式数据,调用数据库接口,将PDF中所有表格信息入库;引入财务表格识别性能评测系统,对已经提取的数据进行量化评价,根据量化结果实时调整系统对财务数据表图像处理参数调整,以此优化系统识别效率。通过使用本方法能够准确、快速对图像型的财务单据数据进行解析提取,增加财务数据入库的数据来源渠道。
技术领域
本发明涉及数据处理领域及图像处理领域,尤其涉及一种对图像型财务数据表格信息的处理方法。
背景技术
PDF全称为Portable Document Format,译为可移植文档格式,是一种常用的电子文件格式。在多类型操作系统具有较高的通用性和兼容性,可保证文件传输过程中数据信息不被修改或不因为编码类型导致发生变化,因此PDF被作为一种文件信息传递的主流形式。PDF文件中包含有大量的数据信息,尤其在财务数据处理领域,承载大量的关键数据表格信息。但由于PDF文件的封闭性,常用的处理数据方法只能对照图像将内容输入到数据库,低效且容易出错。因此需要提供一种能够自动识别PDF表格,并能满足财务业务处理需要,解决现阶段数据快速增长和系统处理速度急需提高的问题,因此本发明实现了一种识别财务表格图像的解决方案,高效并准确提取PDF中财务数据表关键信息。
发明内容
针对于PDF中具有较多且复杂的企业财务信息,业务处理要求不仅要把表格撷取出来,还要根据实际的业务需求对表格进行分析,并且能够快速、准确识别处理文件中的表格、文字、图片等内容,本发明实施例的一个目的旨在提供一种对图像型PDF财务数据关键表格信息的处理方法,其处理效果较为高效准确,并能在大量处理后系统可进行迭代优化,提高自身识别率和准确率。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例提供一种对图像型PDF财务数据关键表格信息的处理方法,所述方法包括:
步骤一:加载PDF财务数据表识别系统,该系统运行加载在云化服务器上,多用户可异地多进程登录并行使用,用户上传需要解析的PDF文件后,等待系统处理完毕即可获得该PDF文件中所需要的财务表格数据,云化系统的实现可更好地满足用户提高使用效率的需求。
步骤二:扫描PDF文件并提取表格页,对用户上传的PDF文件全量扫描,调用系统中的通用OCR(光学字符识别)接口,初步识别里面表格内容中的财务信息关键字和所需数据表头文本,提取表格所在PDF页,初步完成筛选所需要处理的PDF页;
步骤三:对图像表格进行特征分析,对表格进行跨页合并;财务数据表具有深度较大,跨页的特征,需要建立跨页表格合并分析系统,实施表格版面跨页合并分析算法,将分布在不同PDF页上的数据表进行合并;基于相连两页PDF中的两个表格的明显特征,列举不可能为跨页表格的特征,使用特征快速过滤不可能是跨页的表格;过滤后剩余的表格,根据综合表格属性判断表格是否是跨页表格;此处本发明提供一种加权特征阈值比较法,综合前期系统进行的大数据标注,满足大数据中所收敛的公式进行对跨页表格的合并。
步骤四:对图像文件进行预处理;待处理的PDF表格图像由于原始图像的自身像素噪声较大或文件传输过程中失真,对后续表格信息识别和处理造成一定干扰,需要尽可能排除阴影和失真像素等原因造成的影响;本发明使用图像噪声去除、二值法、倾斜校正等方法对表格图像信息进行预处理;对图像进行灰度化,灰度化图像使用中值滤波器,进行滤波排除墨点和边缘像素;处理后的图像进行二值法凸显区分前景像素和背景像素,适合处理白底黑字的表格;同时为解决图像中表格线存在倾斜的缺陷,对前景象素点进行Hough变换,对表格线进行倾斜校正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南港澳资讯产业股份有限公司,未经海南港澳资讯产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911336180.X/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序