[发明专利]一种文本图像中表格的结构化信息的识别方法及装置有效
申请号: | 202010079924.0 | 申请日: | 2020-02-04 |
公开(公告)号: | CN111259854B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 刘宁;吴志超;王静;胡茜;董婉;申亚男 | 申请(专利权)人: | 北京爱医生智慧医疗科技有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/146;G06V30/148;G06F40/174;G06F40/177 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王宇杨 |
地址: | 102206 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 表格 结构 信息 识别 方法 装置 | ||
1.一种文本图像中表格的结构化信息的识别方法,其特征在于,包括:
在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;
获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;
确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;
遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。
2.根据权利要求1所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述文字度量信息包括文字宽度信息和文字高度信息;相应的,所述根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格,包括:
若所述文字度量信息为所述文字宽度信息,则计算竖直方向的相邻两条表格线对应的相邻横坐标之间的横坐标差值,并根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数;
若所述文字度量信息为所述文字高度信息,则计算水平方向的相邻两条表格线对应的相邻竖坐标之间的竖坐标差值,并根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数;
根据所述列数和所述行数,确定所述同一个表格内的初始单元格。
3.根据权利要求2所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数,包括:
若所述横坐标差值小于所述文字宽度信息与预设文字宽度系数的乘积,则将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;
若所述横坐标差值大于等于所述文字宽度信息与预设文字宽度系数的乘积,则不将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;
根据对竖直方向的相邻两条表格线的合并结果,确定所述同一个表格内的列数;其中,所述预设文字宽度系数的取值范围为0.4~0.6;
所述根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数,包括:
若所述竖坐标差值小于所述文字高度信息与预设文字高度系数的乘积,则将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;
若所述竖坐标差值大于等于所述文字高度信息与预设文字高度系数的乘积,则不将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;
根据对水平方向的相邻两条表格线的合并结果,确定所述同一个表格内的行数;其中,所述预设文字高度系数的取值范围为0.4~0.6。
4.根据权利要求1所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格,包括:
若所述线段像素数大于等于所述预设阈值,则确定不合并相邻两个初始单元格;
若所述线段像素数小于所述预设阈值,则确定合并相邻两个初始单元格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱医生智慧医疗科技有限公司,未经北京爱医生智慧医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010079924.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电机运动控制方法
- 下一篇:一种制作动画的方法、装置及存储介质
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序