[发明专利]一种表格图片的表格重构方法、装置及相关设备在审
申请号: | 202110742082.7 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113408256A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 庞烨;冯敬之;韩茂琨;刘玉宇;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06K9/00 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 图片 方法 装置 相关 设备 | ||
本发明公开了一种表格图片的表格重构方法,应用于数据处理领域,用于提高表格图片的表格重构的准确率。本发明提供的方法包括:获取表格图片,并对表格图片中的字符位置识别,得到识别结果;根据识别结果,生成文本框并确定文本框的中心点;根据预设的三角形网络提取方式,对所有文本框的中心点进行连接操作,得到三角形网络;基于预设的边缘外边框提取方式,对三角形网络中的每个三角形的边进行频次统计,得到统计结果,并根据统计结果得到边缘外边框;基于预设的主方向提取方式,对边缘外边框进行主方向提取,得到主方向;基于主方向对表格图片进行拓扑分析与电子化,得到重构表格。
技术领域
本发明涉及数据处理领域,尤其涉及一种表格图片的表格重构方法、装置、计算机设备及存储介质。
背景技术
表格是表达信息的一种重要载体,提高了获取和搜索信息的便利性。目前将表格录入计算机中,主要有人工手动录入表格信息以及扫描的方法,其中,扫描是当表格以非结构化数字文件(如图片)等形式呈现进行的方法。
以上方法都存在着一些问题,人工手动录入表格信息存在录入效率低的问题,扫描表格图片虽然能提高录入效率,但当扫描的表格图片中表格出现跨单元格,或者其他复杂情况的时候,现有技术一般通过行或者列直接对表格图片进行内容提取,但容易出现将表格图片不同行或者列的内容分为同一行或者列,从而生成了具有空白单元格的表格,难以准确完整的反映表格结构,从而导致识别准确率低下。
由此可知,现有技术中对表格图片进行电子化重构表格的时候,存在准确率低的问题。
发明内容
本发明实施例提供一种表格图片的表格重构方法、装置、计算机设备及存储介质,提高了表格图片的表格重构的准确率。
一种表格图片的表格重构方法,包括:
获取表格图片,并对所述表格图片中的字符位置进行识别,得到识别结果;
根据所述识别结果,生成文本框,并确定所述文本框的中心点;
根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络;
基于预设的边缘外边框提取方式,对所述三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据所述统计结果得到所述三角形网络对应的边缘外边框;
基于预设的主方向提取方式,对所述边缘外边框进行主方向提取,得到所述边缘外边框对应的主方向;
基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格。
一种表格图片的表格重构装置,包括:
表格图片获取模块,用于获取表格图片,并对所述表格图片中的字符位置进行识别,得到识别结果;
中心点获取模块,用于根据所述识别结果,生成文本框,并确定所述文本框的中心点;
三角形网络获取模块,用于根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络;
边缘外边框获取模块,用于基于预设的边缘外边框提取方式,对所述三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据所述统计结果得到所述三角形网络对应的边缘外边框;
主方向获取模块,用于基于预设的主方向提取方式,对所述边缘外边框进行主方向提取,得到所述边缘外边框对应的主方向;
重构模块,用于基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述表格图片的表格重构方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110742082.7/2.html,转载请声明来源钻瓜专利网。