[发明专利]一种表格识别重建方法、装置和存储介质有效
申请号: | 201811130207.5 | 申请日: | 2018-09-27 |
公开(公告)号: | CN110163198B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 柯戈扬;林汉权 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/26;G06F16/25 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 识别 重建 方法 装置 存储 介质 | ||
1.一种表格识别重建方法,其特征在于,包括:
获取待识别的表格图像;
采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;所述表格框线分割模型包括卷积网络和反卷积网络,所述卷积网络包括多个尺度的卷积层;所述反卷积网络包括多个尺度的反卷积层;
从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件;
所述采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,包括:
将所述表格图像输入至所述卷积网络;
在每个尺度的卷积层对上一层输出的图像特征进行卷积运算,得到所述卷积网络的输出结果;
将所述卷积网络的输出结果输入至所述反卷积网络;
在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到所述框线分割图像。
2.如权利要求1所述的表格识别重建方法,其特征在于,所述框线分割图像包括行线分割图像和列线分割图像;
从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息,包括:
在所述行线分割图像中检测表格行线,得到表格行线的位置信息;
在所述列线分割图像中检测表格列线,得到表格列线的位置信息。
3.如权利要求2所述的表格识别重建方法,其特征在于,在所述行线分割图像中检测表格行线,包括:
根据预设像素值在所述行线分割图像中检测像素连通区域;
根据检测到的像素连通区域确定表格行线。
4.如权利要求3所述的表格识别重建方法,其特征在于,根据检测到的像素连通区域确定表格行线,包括:
获取所述像素连通区域的置信度;
当所述置信度大于预设置信度时,确定所述像素连通区域为表格行线;
所述方法还包括:当所述置信度不大于预设置信度时,在预设方向对所述像素连通区域进行直线水漫填充,得到若干线段;根据所述线段确定表格行线。
5.如权利要求1所述的表格识别重建方法,其特征在于,从所述框线分割图像中检测表格行线和表格列线,包括:
在多个预设方向对所述框线分割图像进行直线水漫填充,得到线段集合;
对线段集合中属于同一表格框线的线段进行合并,得到合并后线段集合;
根据合并后线段集合中线段相对于预设方向的角度,将合并后线段集合中线段聚类为表格行线和表格列线。
6.如权利要求1-5任一项所述的表格识别重建方法,其特征在于,根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件,包括:
根据所述单元格结构信息对所述表格图像中的单元格内容进行识别,得到识别结果;
根据所述识别结果、所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
7.如权利要求6所述的表格识别重建方法,其特征在于,所述方法还包括:
分别对所述表格行线、表格列线的位置信息进行倾斜校正;
根据表格行线的校正前位置信息、校正后位置信息,以及表格列线的校正前位置信息、校正后位置信息,获取相应的透视变换矩阵;
根据所述透视变换矩阵对所述表格图像进行透视变换,得到变换后表格图像;
根据所述单元格结构信息对所述表格图像中的单元格内容进行识别,包括:根据所述单元格结构信息对变换后表格图像中的单元格内容进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811130207.5/1.html,转载请声明来源钻瓜专利网。