[发明专利]基于模版匹配和OCR坐标的图片表格还原方法及系统有效
申请号: | 202111074957.7 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113988028B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 刘大海 | 申请(专利权)人: | 北京左医科技有限公司 |
主分类号: | G06F40/174 | 分类号: | G06F40/174;G06F40/18;G06F40/186;G06V30/413;G06V30/418;G06V20/62;G06V10/75;G06V30/19 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 陈潇潇;王晓晓 |
地址: | 100044 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模版 匹配 ocr 标的 图片 表格 还原 方法 系统 | ||
本发明实施例提供一种基于模版匹配和OCR坐标的图片表格还原方法及系统,属于信息处理领域。所述方法包括:获取图片表格,并根据预设OCR模型进行所述图片表格的识别,合并识别后的图片表格中每一行内的识别目标内容,获得多个抽取块;将多个抽取块与抽取模板库中的抽取模板进行匹配,筛选出各抽取块的最佳匹配模板,并根据所述最佳匹配模板输出解析结果;根据所述解析结果,在规定格式下输出解析表格。本发明方案根据行业特性和OCR识别结果对图片表格进行解析,转化方法简单,技术门槛低。
技术领域
本发明涉及信息处理领域,具体地,涉及一种基于模版匹配和OCR坐标的图片表格还原方法及一种基于模版匹配和OCR坐标的图片表格还原系统。
背景技术
在生产和生活过程中,时常需要进行图片表格计算机录入,特别是医疗机构中,需要对患者的纸质病历报告进行收录。现在主要通过手动录入或付费OCR软件进行图片表格收录,这对于录入效率和录入成本,均造成了很大的影响。即使通过现有的OCR软件进行图片表格识别,依旧存在以下诸多问题,第一便是极度依赖OCR检测结果和人工设计的规则,对于不同样式的表格,需做针对性开发,推广性差;第二是依赖传统图像处理算法,在鲁棒性方面较欠缺,并且对于没有可见线的表格,传统方法很吃力,很难把所有行/列间隙提取出来;第三还存在解决方案没有次第,一旦出现错误案例,无法从中间步骤快速干预修复,只能重新调整模型,看似省事,实则不适合工程落地。针对目前图片表格识别方法的诸多问题,需要创造一种新的图片表格还原的方法。
发明内容
本发明实施方式的目的是提供一种基于模版匹配和OCR坐标的图片表格还原方法及系统,以至少解决现有图盘识别方法技术门槛高和适用性低的问题。
为了实现上述目的,本发明第一方面提供一种基于模版匹配和OCR坐标的图片表格还原方法,所述方法包括:获取图片表格,并根据预设OCR模型进行所述图片表格的识别,合并识别后的图片表格中每一行内的识别目标内容,获得多个抽取块;将多个抽取块与抽取模板库中的抽取模板进行匹配,筛选出各抽取块的最佳匹配模板,并根据所述最佳匹配模板输出解析结果;根据所述解析结果,在规定格式下输出解析表格。
可选的,所述方法还包括:选择应用所述方法进行图片表格还原的行业领域;提取与所选择的行业领域相关的历史数据构建所述抽取模板库。
可选的,与所选择的行业领域相关的历史数据包括:行业领域内出现过的实体词汇、属性词汇、关系词汇、高频短语和历史表格。
可选的,所述抽取模板包括:模板表达式和单元标注;其中,所述模板表达式包括多个块,每一个块代表同一行内的对应一个单元格内的内容;所述单元标注为:抽取模板的各单元格内的内容的含义标注,和该抽取模板内多个块的关联标注。
可选的,所述根据预设OCR模型进行所述图片表格的识别,其中,图片表格的识别结果为:识别目标、每一识别目标的坐标、每一识别目标的大小和图片的旋转角度;其中,所述识别目标为字符或字符块,所述字符块包括多个横向间隔小于预设间隔阈值的字符。
可选的,所述合并识别后的图片表格中每一行内的识别目标内容,获得多个抽取块,包括:对每两个识别目标的左上角坐标求差,将求差结果小于0的对应两个识别目标做异行处理,直至完成所有识别目标的分行;将同一行内的识别目标按照坐标顺序拼接,形成一个抽取块;完成所有行的行内识别目标拼接,获得多个抽取块。
可选的,所述将多个抽取块与抽取模板库中的抽取模板进行匹配,筛选出各抽取块的最佳匹配模板,包括:将每一抽取块作为检索条件,在所述抽取模板库中进行匹配检索;对于每一抽取块,筛选出匹配字数最多的抽取模板作为该抽取块的最佳匹配模板;若匹配字数最多的抽取模板存在有多个,则根据图片表格的识别目标的坐标计算对应的抽取模板的每两个识别目标的间距和,选择其中间距和最大的抽取模板为最佳匹配模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京左医科技有限公司,未经北京左医科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111074957.7/2.html,转载请声明来源钻瓜专利网。