[发明专利]一种表格识别重建方法、装置和存储介质有效
申请号: | 201811130207.5 | 申请日: | 2018-09-27 |
公开(公告)号: | CN110163198B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 柯戈扬;林汉权 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/26;G06F16/25 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 识别 重建 方法 装置 存储 介质 | ||
本发明实施例公开了一种表格识别重建方法、装置和存储介质;本发明实施例获取待识别的表格图像;采用表格框线分割模型对表格图像进行表格框线分割,得到框线分割图像;从框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据表格行线和表格列线的位置信息获取表格的单元格结构信息;根据表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。该方案可以对各种样式表格进行准确地识别重建,可以提升表格识别重建的准确性和可用性。
技术领域
本发明涉及通信技术领域,具体涉及一种表格识别重建方法、装置和存储介质。
背景技术
表格识别重建为通过一系列图像处理算法和策略将表格图像转化成某种格式的电子表格,比如,转化成excel格式的电子表格等。
目前表格识别重建方案主要基于人工设计的特征和规则来识别重建表格;具体地,可以从表格图像中抽取人工设计的表格特征(如基于树状结构的表格特征、基于框线的特征、基于规则线的特征等等),然后,根据这些表格特征和规则检测出表格,即确定表格的位置;接着,根据表格的位置对表格类型进行识别,得到识别结果,根据识别结果重建电子表格;其中,具体地的识别过程可以为提取人工设计的表格特征(如文本块特征、表格区域逻辑关系特征、线交点特征等等),根据提取的表格特征识别表格类型。
然而,由于目前表格识别重建方案中表格检测和识别均需要基于人工设计的特征,因此,目前表格识别重建方案过于依赖专家知识和特定的表格应用场景,比如,仅仅适用于某些特定样式的表格识别重建,这样会导致在图像噪声大、表格样式多变等场景容易不能准确地识别重建表格;可见,目前表格识别重建方案的准确性和可用性较低。
发明内容
本发明实施例提供一种表格识别重建方法、装置和存储介质,可以提升表格识别重建的准确性和可用性。
本发明实施例提供一种表格识别重建方法,包括:
获取待识别的表格图像;
采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;
从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
本发明实施例还提供一种表格识别重建装置,包括:
图像获取单元,用于获取待识别的表格图像;
图像分割单元,用于采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;
检测单元,用于从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
信息获取单元,用于根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
表格生成单元,用于根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
此外,本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种表格识别重建方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811130207.5/2.html,转载请声明来源钻瓜专利网。