[发明专利]表格识别方法、装置、计算机设备和存储介质有效
申请号: | 201910427255.9 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110334585B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 高梁梁;孙双双 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/14;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊;潘艳丽 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种表格识别方法、装置、计算机设备和存储介质。所述方法包括:获取文档格式为PDF格式的目标文档;通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;根据所述字符和所述位置信息,按预设格式生成相应的表格文件。采用基于图像检测技术的本方法能够从PDF文档中准确地提取出表格数据。
技术领域
本申请涉及图像识别技术领域,特别是涉及一种表格识别方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,越来越多的文档格式被开发出来并被广泛使用着,比如PDF(Portable Document Format,便携式文档格式)格式的文档。其中,PDF是一种被广泛使用的电子文档格式。现在越来越多的专业资料、电子图书、产品说明和电子邮件等在开始使用PDF格式的文档。
PDF格式的文档是一种不可直接编辑的文档,很多专业数据都是以PDF文件的形式展示。当涉及到表格数据时,通常是提前将表格转换成图片,再将表格图片嵌入PDF文档中。PDF文档对表格数据也没有特殊的定义,而只是线条与文字的位置组合。这样使得从PDF文档中提取出表格数据变得很困难。
发明内容
基于此,有必要针对上述技术问题,提供一种能够便捷地识别PDF文档中表格的表格识别方法、装置、计算机设备和存储介质。
一种表格识别方法,所述方法包括:
获取文档格式为PDF格式的目标文档;
通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;
根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
一种表格识别装置,所述装置包括:
获取模块,用于获取文档格式为PDF格式的目标文档;
确定模块,用于通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
生成模块,用于从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
所述确定模块还用于对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;
所述生成模块还用于根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取文档格式为PDF格式的目标文档;
通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;
根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取文档格式为PDF格式的目标文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910427255.9/2.html,转载请声明来源钻瓜专利网。