[发明专利]一种对图像型PDF财务数据关键表格信息的处理方法在审
申请号: | 201911336180.X | 申请日: | 2019-12-23 |
公开(公告)号: | CN111027297A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 计璐;杨胜 | 申请(专利权)人: | 海南港澳资讯产业股份有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F40/174;G06K9/00 |
代理公司: | 深圳市鼎泰正和知识产权代理事务所(普通合伙) 44555 | 代理人: | 周小涛 |
地址: | 570105 海南省海*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 pdf 财务数据 关键 表格 信息 处理 方法 | ||
1.一种图像型PDF财务数据关键表格信息的处理方法,其特征在于,所述方法包括:
S1、云化服务器中加载PDF财务数据表信息识别系统
S2、OCR接口初步扫描识别PDF中财务关键字并提取所需表格页;
S3、对表格图像进行特征分析,对跨页表格进行合并;
S4、对表格图像文件进行预处理;
S5、对财务表格图像进行几何分析,提取连通域并切割;
S6、对切割的财务表格进行提取财务特征字符,提取财务数据,并根据财务表格逻辑关系对数据进行校正;
S7、对所恢复财务数据进行版面恢复,并实现数据序列化,将数据以结构化形式输出为JSON格式数据;
S8、对JSON格式数据调用数据库接口,将所有财务表格信息数据存入数据库;
S9、根据最终数据库中的财务数据建立数据集,构建PDF识别财务数据表格性能评价系统,根据量化评价结果迭代优化S3-S6的算法参数。
2.根据权利要求1所述的方法,采用云化服务器加载PDF财务数据系统,其特征在于,多用户可异地多进程地使用该系统上传PDF文件和处理财务表格信息,达到提高该系统使用效率的目的。
3.根据权利要求1所述的方法,OCR接口扫描PDF文件并提取表格页,其特征在于,所述方法包括:
PDF文件全量页扫描,OCR接口初步识别里面表格内容中的所需的财务信息关键字和所需数据表头文本,提取表格所在PDF页。
4.根据权利要求1所述的方法,对图像表格进行特征分析,表格跨页合并分析,其特征在于,所述方法包括:
财务数据表具有深度较大,跨页的特征,需要建立跨页表格合并分析系统,实施跨页合并分析算法,将分布在不同PDF页上的数据表识别是否具有分离或合并的特征,并根据特征进行处理。
5.根据权利要求1所述的方法,对图像文件进行预处理,其特征在于,所述方法包括:待处理的PDF表格图像,由于原始图像的自身瑕疵或文件传输过程中产生的失真,为满足后续步骤处理的需要,需要采用图像处理算法排除这些瑕疵或失真像素的影像。
6.根据权利要求5所述的方法,其特征在于,使用图像二值法、噪声去除、倾斜校正对等方法表格图像信息进行预处理。
7.根据权利要求1所述的方法,对财务表格进行几何分析,其特征在于,采用深度学习算法Unet,根据表格线排布,对图像进行几何分析,提取连通域并切割,包括:提取线段坐标,合并线段,识别框线,分割表格图像为各个子单元格;同时获取识别表格的所有单元格坐标,并提取行高,列宽,数据字号大小。
8.根据权利要求1所述的方法,其特征在于,对切割的财务表格进行提取财务特征字符,以关键指标对财务数据进行分类,对提取的图像特征进行匹配模式识别,提取财务数据,并根据财务表格逻辑关系对数据结果进行校正。
9.根据权利要求1所述的方法,其特征在于,对所提取的关键数据进行版面恢复,根据权利要求7所获得的表格图像向量信息以及权利要求8中获得的单元格中的字符信息进行版面恢复。
10.根据权利要求1所述的方法,将数据转化为JSON数据格式,其特征在于,将权利要求9中的版面恢复数据,实现序列化,以结构化形式输出为JSON格式数据;所述方法包括:对JSON格式的财务数据信息,使用数据库接口,将表格数据存入数据库,在数据库中体现全量财务数据信息进行处理;根据最终数据库中的财务数据建立数据集,分析精确率与召回率建立评价PDF识别财务数据表格系统,量化评价后进行参数,迭代调整优化财务数据识别系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南港澳资讯产业股份有限公司,未经海南港澳资讯产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911336180.X/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序