[发明专利]基于模版匹配和OCR坐标的图片表格还原方法及系统有效
申请号: | 202111074957.7 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113988028B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 刘大海 | 申请(专利权)人: | 北京左医科技有限公司 |
主分类号: | G06F40/174 | 分类号: | G06F40/174;G06F40/18;G06F40/186;G06V30/413;G06V30/418;G06V20/62;G06V10/75;G06V30/19 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 陈潇潇;王晓晓 |
地址: | 100044 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模版 匹配 ocr 标的 图片 表格 还原 方法 系统 | ||
1.一种基于模版匹配和OCR坐标的图片表格还原方法,其特征在于,所述方法包括:
获取图片表格,并根据预设OCR模型进行所述图片表格的识别,合并识别后的图片表格中每一行内的识别目标内容,获得多个抽取块;其中,
图片表格的识别结果为:识别目标、每一识别目标的坐标、每一识别目标的大小和图片的旋转角度;其中,所述识别目标为字符或字符块,所述字符块包括多个横向间隔小于预设间隔阈值的字符;
将多个抽取块与抽取模板库中的抽取模板进行匹配,筛选出各抽取块的最佳匹配模板,并根据所述最佳匹配模板输出解析结果;其中,
所述将多个抽取块与抽取模板库中的抽取模板进行匹配,筛选出各抽取块的最佳匹配模板,包括:
将每一抽取块作为检索条件,在所述抽取模板库中进行匹配检索;
对于每一抽取块,筛选出匹配字数最多的抽取模板作为该抽取块的最佳匹配模板;
若匹配字数最多的抽取模板存在有多个,则根据图片表格的识别目标的坐标计算对应的抽取模板的每两个识别目标的间距和,选择具有最大间距和的抽取模板为最佳匹配模板;
所述抽取模板包括:
模板表达式和单元标注;其中,
所述模板表达式包括多个块,每一个块代表同一行内的对应一个单元格内的内容;
所述单元标注为:抽取模板的各单元格内的内容的含义标注,和该抽取模板内多个块的关联标注;
根据所述解析结果,在规定格式下输出解析表格。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
选择应用所述方法进行图片表格还原的行业领域;
提取与所选择的行业领域相关的历史数据构建所述抽取模板库。
3.根据权利要求2所述的方法,其特征在于,与所选择的行业领域相关的历史数据包括:
行业领域内出现过的实体词汇、属性词汇、关系词汇、高频短语和历史表格。
4.根据权利要求1所述的方法,其特征在于,所述合并识别后的图片表格中每一行内的识别目标内容,获得多个抽取块,包括:
对每两个识别目标的左上角坐标求差,将求差结果小于0的对应两个识别目标做异行处理,直至完成所有识别目标的分行;
将同一行内的识别目标按照坐标顺序拼接,形成一个抽取块;
完成所有行的行内识别目标拼接,获得多个抽取块。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述最佳匹配模板输出解析结果之前,所述方法还包括:
根据所述识别结果分别进行表格行对齐和列对齐;其中,
所述行对齐基于对比两个识别目标的重叠比实现;
所述列对齐基于所述每一识别目标的坐标进行聚类实现;
将完成行对齐和列对齐的表格信息作为第一解析结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述最佳匹配模板输出解析结果,包括:
将完成最佳匹配模板的匹配结果信息作为第二解析结果,根据所述第一解析结果和所述第二解析结果,获得最终解析结果,包括:
遍历所述第一解析结果的每一行,依次计算与所述第二解析结果的相似度;
当存在相似度大于预设相似度阈值时,则保留获得该相似度结果的第二解析结果中的对应行作为最终解析结果中的对应行;
当不存在相似度大于预设相似度阈值时,则保留第一解析结果中的对应行作为最终解析结果中的对应行;
直到所述第一解析结果中的每一行均对比计算完成后,整合每一行的保留结果,作为最终解析结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述解析结果,在规定格式下输出解析表格,包括:
获取规定格式;
获取所述规定格式提供的空白模板或根据所述规定格式生成对应的空白模板;
根据所述最终解析结果在所述空白模板中进行数据填充,获得填充后的表格作为解析表格;
输出所述解析表格。
8.一种基于模版匹配和OCR坐标的图片表格还原系统,其特征在于,所述系统包括:
采集单元,用于获取图片表格;
处理单元,用于:
根据预设OCR模型进行所述图片表格的识别,合并识别后的图片表格中每一行内的识别目标内容,获得多个抽取块;其中,
图片表格的识别结果为:识别目标、每一识别目标的坐标、每一识别目标的大小和图片的旋转角度;其中,所述识别目标为字符或字符块,所述字符块包括多个横向间隔小于预设间隔阈值的字符;
将多个抽取块与抽取模板库中的抽取模板进行匹配,筛选出各抽取块的最佳匹配模板,并根据所述最佳匹配模板输出解析结果;其中,
所述将多个抽取块与抽取模板库中的抽取模板进行匹配,筛选出各抽取块的最佳匹配模板,包括:
将每一抽取块作为检索条件,在所述抽取模板库中进行匹配检索;
对于每一抽取块,筛选出匹配字数最多的抽取模板作为该抽取块的最佳匹配模板;
若匹配字数最多的抽取模板存在有多个,则根据图片表格的识别目标的坐标计算对应的抽取模板的每两个识别目标的间距和,选择具有最大间距和的抽取模板为最佳匹配模板;
所述抽取模板包括:
模板表达式和单元标注;其中,
所述模板表达式包括多个块,每一个块代表同一行内的对应一个单元格内的内容;
所述单元标注为:抽取模板的各单元格内的内容的含义标注,和该抽取模板内多个块的关联标注;
输出单元,用于根据所述解析结果,在规定格式下输出解析表格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京左医科技有限公司,未经北京左医科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111074957.7/1.html,转载请声明来源钻瓜专利网。