[发明专利]一种图像表格结构识别方法、系统、终端以及存储介质有效
申请号: | 202010662891.2 | 申请日: | 2020-07-10 |
公开(公告)号: | CN112036232B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 刘云锴;彭程;边赟 | 申请(专利权)人: | 中科院成都信息技术股份有限公司;成都中科信息技术有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/146;G06V30/18;G06V30/19 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 曹卫良 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 表格 结构 识别 方法 系统 终端 以及 存储 介质 | ||
本申请涉及一种图像表格结构识别方法、系统、终端以及存储介质。包括:利用LSD算法对待识别表格图像进行框线检测,分别得到所述待识别表格图像中表格结构的横线和纵线检测结果;根据设定的横向阈值和纵向阈值分别对所述横线和纵线检测结果中的每条直线进行检测,得到所述横线和纵线检测结果中属于共线共段的直线,并将两个或两个以上属于同一条框线的共线共段的直线进行合并,得到所述表格结构中完整的横线和纵线;将所述完整的横线和纵线进行合并,并对所述合并后的横线和纵线进行对齐,得到所述待识别表格图像中的表格结构。本申请实施例的图像预处理工作更少,识别速度更快,识别结果更准确。
技术领域
本申请属于图像处理技术领域,特别涉及一种图像表格结构识别方法、 系统、终端以及存储介质。
背景技术
表格作为文字数据记录汇总最精简表达方式,或者数据统计、结果分析 中最常用的表达格式,是各种数据分析工具中的基础工具。目前的网络信息 中充斥着各种表格资料,但是很多表格都是以图片的形式提供,例如各种扫 描档案文件、PDF文件等,自动识别这些图像表格资料,将图片类型的表格 内容还原成数字资料是对这些资料进行快速处理和分析的基础。由于表格资 料本身的表格结构特征,使得表格图像的识别比一般的普通图像文字资料更 加困难。
现有技术中采用的表格图像识别方法包括:
1、基于投影的方法检测表格框线;该方法存在的不足在于:图像预处 理工作量大,需要对图像进行腐蚀操作,这对腐蚀结构元的要求很高,会直 接影响最终的识别结果;另外,由于需要对图片中的每个像素点进行判断, 对前景的像素点进行累加求和,从而根据求和的值大小判断是否为表格框 线,这样的算法在图像分辨率低、表格复杂的情况下效果不好,且检测时间 过长。
2、基于霍夫曼方法的表格图像识别;该方法存在的不足在于:框线检 测时间成本过高,无法确定检测直线的具体坐标表示,对于相邻像素点或近 似同一直线的平行线存在误检和漏检的情况。
3、基于游程方法的表格框线检测同样对图片分辨率要求高,在低分辨 率图像中效果不好,并且对于同线不同段的框线检测效果不好,应用到工程 实际中准确率低。
发明内容
本申请提供了一种图像表格结构识别方法、系统、终端以及存储介质, 旨在至少在一定程度上解决现有技术中存在的图像预处理工作量大、检测时 间长、在低分辨率图像或框线检测中效果不好的技术问题。
为了解决上述问题,本申请提供了如下技术方案:
一种图像表格结构识别方法,包括以下步骤:
步骤a:利用LSD算法对待识别表格图像进行框线检测,分别得到所述待 识别表格图像中表格结构的横线和纵线检测结果;
步骤b:根据设定的横向阈值和纵向阈值分别对所述横线和纵线检测结果 中的每条直线进行检测,得到所述横线和纵线检测结果中属于共线共段的直 线,并将两个或两个以上属于同一条框线的共线共段的直线进行合并,得到 所述表格结构中完整的横线和纵线;
步骤c:将所述完整的横线和纵线进行合并,并对所述合并后的横线和纵 线进行对齐,得到所述待识别表格图像中的表格结构。
本申请实施例采取的技术方案还包括:所述步骤a中,所述利用LSD算法 对待识别表格图像进行框线检测包括:
计算所述待识别表格图像中各个像素点的level-line角度;
定义所述待识别表格图像的误差值,计算每个像素点的level-line角度与 当前区域角度之间的误差,对所述误差小于所述误差值的像素点进行区域合 并,并更新合并后的区域;
为每个更新后的区域构造一个外接矩阵,计算所述更新后的每个区域的 NFA值,并将所述NFA值满足设定阈值的矩阵判定为输出直线;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院成都信息技术股份有限公司;成都中科信息技术有限公司,未经中科院成都信息技术股份有限公司;成都中科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010662891.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序