[发明专利]表格式图片版面分析方法和计算机存储介质有效
申请号: | 201910435629.1 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110147774B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 田强;邓冠群;李树凯 | 申请(专利权)人: | 阳光保险集团股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/174 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 徐丽 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 图片 版面 分析 方法 计算机 存储 介质 | ||
1.一种表格式图片版面分析方法,其特征在于,包括:
对目标图片进行文本区域检测及文本识别,以获取所述目标图片中的所有文本框图的信息,每一文本框图的信息包括文本框图的文本内容和对应的框图信息,其中,所述框图信息包括所述文本框图的中心点坐标、宽、高和相对于预定方向的倾斜角;
将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图,将所述预设标题字段所在的框图作为预设标题字段框图,并获取各预设标题字段框图的框图信息;
根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图;
获取与各预设标题字段框图相匹配的字段内容框图的文本内容并输出至预定模板表格中;
其中,所述“根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图”包括:
确定与当前预设标题字段框图平行且距离最近的上边框线和下边框线;
根据所述当前预设标题字段框图的中心点坐标、宽、所述中心点坐标到所述上边框线的距离以及所述中心点坐标到所述下边框线的距离计算所述当前预设标题字段框图的上基准点坐标和下基准点坐标;
根据所述当前预设标题字段框图的相对于水平方向的倾斜角、所述上基准点坐标和所述下基准点坐标依次计算除所述当前预设标题字段框图外的各文本框图的中心点坐标所在竖直轴线分别与所述上边框线的上交点和与所述下边框线的下交点;
判断所述各文本框图的中心点坐标是否位于对应的所述上交点和所述下交点形成的线段上,并将中心点位于对应的所述上交点和所述下交点形成的线段上的文本框图作为与所述当前预设标题字段框图对应的文本框图。
2.根据权利要求1所述的表格式图片版面分析方法,其特征在于,所述“对目标图片进行文本区域检测及文本识别”包括:
将目标图片输入到预设文本检测模型中,输出所述目标图片中各文本区域对应的文本框图,并获取各文本框图的所述框图信息;
将各文本框图输入到预设文本识别模型中,获取各文本框图对应的文本内容。
3.根据权利要求2所述的表格式图片版面分析方法,其特征在于,所述中心点坐标包括横坐标和纵坐标,所述“获取所述目标图片中的所有文本框图的信息”步骤之后,还包括:
从各文本框图中选取至少一隔离基准框图;
根据各文本框图与所述隔离基准框图各自横坐标的大小或各自纵坐标的大小确定含无效信息的无效框图;
将所述无效框图从所述获取的所有文本框图中删除。
4.根据权利要求1所述的表格式图片版面分析方法,其特征在于,所述“将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图”包括:
若一个文本框图的文本内容成功匹配到所述预设标题字段的总字符长度的预设比值的字符时,则确定当前的文本框图为所述预设标题字段所在的框图。
5.根据权利要求1所述的表格式图片版面分析方法,其特征在于,若与所述当前预设标题字段框图相匹配的字段内容框图存在多个,所述方法还包括:
判断每相邻的两个字段内容框图的垂直距离是否小于预设阈值且所述两个字段内容框图在水平方向上是否存在重叠区域;
若是,将所述两个字段内容框图加入待合并框图集合,直到所有的字段内容框图的判断完成;
将所述待合并框图集合中的不同文本框图按照纵坐标降序规则进行文本内容行拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阳光保险集团股份有限公司,未经阳光保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435629.1/1.html,转载请声明来源钻瓜专利网。