[发明专利]表格识别方法、装置及电子设备在审
申请号: | 202210345789.9 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114782968A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 赵永森 | 申请(专利权)人: | 上海云从企业发展有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V10/774;G06V10/82;G06K9/62;G06N3/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 陈敏;屠晓旭 |
地址: | 201203 上海市宝山区中国(上海)自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 识别 方法 装置 电子设备 | ||
1.一种表格识别方法,其特征在于,包括下述步骤:
获取表格线训练图像样本;
利用所述表格线训练图像样本对表格线检测模型进行训练;
基于训练的表格线检测模型获取待识别表格图像中的表格线前景图;
对所述表格线前景图进行预处理,得到当前表格结构;
基于文本识别模型获取所述待识别表格图像中的文本内容以及所述文本内容对应的文本坐标;
按照所述文本坐标将所述文本内容存储至所述当前表格结构的单元格中,以得到识别后的表格。
2.根据权利要求1所述的表格识别方法,其特征在于,获取表格线训练图像样本包括获取包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像;
所述获取包含印章数据的表格线训练图像包括:
基于包含印章数据的原始图像获取掩膜图像;
调整包含印章数据的所述原始图像中印章像素值至预设像素值;
从调整印章像素值的所述原始图像中获取包含印章的一个随机区域;
将所述随机区域与所述掩膜图像进行融合,得到包含印章数据的表格线训练图像。
3.根据权利要求1所述的表格识别方法,其特征在于,利用所述表格线训练图像样本对表格线检测模型进行训练包括:
基于所述表格线训练图像样本以及对应的表格线前景标签图计算损失值,所述损失值的计算公式为:
上式中,n为表格线训练图像的数量,n=1,2,…,N;h和w分别为表格线训练图像样本的高度和宽度,h=1,2,…,H,w=1,2,…,W;α为根据第n个表格线训练图像样本对应的表格线前景标签图确定出的在第n表格线训练图像样本中位置(h,w)处的标签值,为表格线检测模型输出的在第n表格线训练图像样本中位置(h,w)处的标签预测值,γ为聚集参数;
判断所述损失值是否满足预设条件,在所述损失值不满足预设条件的情况下,基于梯度下降方法调节所述表格线检测模型中的权重参数,直至基于调整权重参数后获得的损失值满足预设条件时,完成模型训练。
4.根据权利要求1所述的表格识别方法,其特征在于,对所述表格线前景图进行预处理,得到当前表格结构包括:
基于所述表格线前景图提取横向轮廓线和竖向轮廓线;
获取所述横向轮廓线和竖向轮廓线的交叉点;
基于表格区域检测模型获取待识别表格图像的区域坐标;
基于所述区域坐标筛选位于所述表格区域内的交叉点;
基于筛选后的位于所述表格区域内的交叉点获得当前表格结构。
5.根据权利要求4所述的表格识别方法,其特征在于,基于筛选后的位于所述表格区域内的交叉点获得当前表格结构包括:
将位于所述表格区域内的交叉点进行排序后,按照从左到右、从上到下的排列顺序连接,得到至少一个单元格;
将具有公共顶点的所述至少一个单元格连接,得到当前表格结构。
6.根据权利要求1所述的表格识别方法,其特征在于,还包括:
判断所述当前表格结构中是否包含噪声轮廓,若是,删除所述当前表格结构中的噪声轮廓并合并所述噪声轮廓两边的单元格,得到最终表格结构;以及
按照所述文本坐标将所述文本内容存储至所述最终表格结构的单元格中,以得到识别后的表格。
7.根据权利要求6所述的表格识别方法,其特征在于,判断所述当前表格结构中是否包含噪声轮廓包括:
基于印章区域检测模型获取待识别表格图像中印章区域坐标;
基于所述印章区域坐标确定印章区域与当前表格结构的交点,并基于所述交点获取印章区域的竖向轮廓线;
判断所述印章区域的竖向轮廓线是否满足预设条件,若是,则确定所述当前表格结构中包含噪声轮廓;
判断所述印章区域的竖向轮廓线是否满足预设条件包括:判断所述竖向轮廓线的长度是否小于预设长度,和/或所述竖向轮廓线是否穿过文本内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210345789.9/1.html,转载请声明来源钻瓜专利网。