[发明专利]表格提取方法、装置、电子设备及可读存储介质有效
申请号: | 202011635683.X | 申请日: | 2020-12-31 |
公开(公告)号: | CN112766073B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李壮 | 申请(专利权)人: | 贝壳找房(北京)科技有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V10/22;G06V10/80;G06V10/44;G06V10/82 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨云云 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 提取 方法 装置 电子设备 可读 存储 介质 | ||
本发明提供一种表格提取方法、装置、电子设备及可读存储介质,其中所述方法包括:基于深度神经网络模型,提取目标图像中的表格像素,所述目标图像中包括目标表格;基于所述表格像素,通过增强像素处理并利用连通域分析技术,提取所述目标图像中的候选表格区域;利用基于面积的非极大值抑制算法模型,对所述候选表格区域进行过滤,提取所述目标表格。本发明基于语义分割进行表格检测,通过对提取的表格像素进行增强像素处理提取有效的候选表格区域,并采用基于面积的非极大值抑制算法对候选表格区域进行过滤,能够在准确预测表格位置的同时,完整精确的处理表格边缘,从而能最大程度的记录表格的完整信息,因此准确性和可靠性更高。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种表格提取方法、装置、电子设备及可读存储介质。
背景技术
表格作为一种有效的数据组织与展现方式,成为各类文档中常见的页面对象,如科学期刊、报告、财务报表等。而实际应用场景中,很多表格是以在图片中的形式存在的。这种形式的表格中的数据因无法结构化而不能被有效利用。
现有处理方式中,从图片中获取表格信息首先是在图片中定位表格的位置,称为表格检测。目前,常用的表格检测算法多是基于目标的检测算法,这类算法通常能够成功的确定表格的位置。
但是,上述检测算法不能非常精确的预测表格的边界,因此导致很多情况下表格的边缘部分在处理时被切割掉,从而造成表格数据信息丢失等的问题。
发明内容
本发明提供一种表格提取方法、装置、电子设备及可读存储介质,用以解决现有技术会造成表格数据信息丢失的缺陷,实现有效提取完整表格从而避免表格数据信息丢失的目标。
本发明提供一种表格提取方法,包括:
基于深度神经网络模型,提取目标图像中的表格像素,所述目标图像中包括目标表格;
基于所述表格像素,通过增强像素处理并利用连通域分析技术,提取所述目标图像中的候选表格区域;
利用基于面积的非极大值抑制算法模型,对所述候选表格区域进行过滤,提取所述目标表格。
根据本发明一个实施例的表格提取方法,在所述利用基于面积的非极大值抑制算法,对所述候选表格区域进行过滤之前,还包括:
将经典非极大值抑制算法中的候选框置信度确定为候选表格区域面积,并将候选框置信度排序修改为所述候选表格区域面积的排序;
基于所述候选表格区域面积,修改所述经典非极大值抑制算法中的交叠比计算算法,并基于所述交叠比计算算法和所述候选表格区域面积,确定过滤策略;
基于所述候选表格区域面积的排序和所述过滤策略,建立所述基于面积的非极大值抑制算法模型。
根据本发明一个实施例的表格提取方法,将所述经典非极大值抑制算法中的交叠比计算算法修改如下:
式中,ioui,j表示候选表格区域i与候选表格区域j的交叠比,si,j表示候选表格区域i与候选表格区域j交叠部分的面积,si表示候选表格区域i的面积,sj表示候选表格区域j的面积;
相应地,所述基于所述交叠比计算算法和所述候选表格区域面积,确定过滤策略,包括:
确定预设阈值,且若交叠比ioui,j大于所述预设阈值,则过滤掉候选表格区域i与候选表格区域j中的面积较小者,若交叠比ioui,j不大于所述预设阈值,则保留候选表格区域i与候选表格区域j。
根据本发明一个实施例的表格提取方法,所述深度神经网络模型包括特征提取子模型和特征融合子模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011635683.X/2.html,转载请声明来源钻瓜专利网。