[发明专利]一种基于模型优化的OCR文件格式转化方法及系统有效
申请号: | 202110616887.7 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113065537B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 刘杰;张翔;宋永生 | 申请(专利权)人: | 江苏联著实业股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/32;G06K9/34 |
代理公司: | 无锡苏元专利代理事务所(普通合伙) 32471 | 代理人: | 王清伟 |
地址: | 210006 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 优化 ocr 文件格式 转化 方法 系统 | ||
1.一种基于模型优化的OCR文件格式转化方法,其中,所述方法应用于一文件识别处理系统,所述系统与第一图像采集模块、第一文字识别模块、第一格式处理模块通信连接,所述方法包括:
通过第一图像采集装置获得第一图像,其中,所述第一图像为包括第一待识别文件的图像;
获得第一透视裁剪指令,根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪,获得第二图像;
所述透视裁剪是指对图像进行畸变纠正的过程;
获得第一坐标标识指令,根据所述第一坐标标识指令对所述第二图像进行坐标标识,获得第一坐标标识结果,具体为;
通过所述第二图像的某一基准,构建所述第二图像的直角坐标系,基于直角坐标系对所述第二图像中的各个位置进行坐标的标识,获得所述第一坐标标识结果;
构建第一特征库,其中,所述第一特征库为文字段落特征集合的特征库;
获得第一特征捕捉指令,根据所述第一特征捕捉指令,基于所述第一特征库对所述第二图像进行特征遍历,获得第一输出结果,具体为;
基于所述特征库,对所述第二图像进行特征的遍历,获得所述第二图像中满足所述特征库的特征,进行特征的匹配和标识,所述第一输出结果包括但不限于上述获得的特征的匹配和标识结果;
将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型,获得第二输出结果,具体为;
基于所述构建的坐标系,对空格特征的起始位置进行特征标识,获得所述空格特征的所在位置的位置坐标,所述坐标可以为坐标集,所述坐标特征分析模型为对所述坐标和特征进行标识组合的模型,基于所述坐标特征分析模型对所述坐标和特征进行组合,所述第二输出结果为包括不同特征与特征的坐标组合的结果;
通过所述第一文字识别模块对所述第二图像进行文字识别,获得第一坐标文字识别结果;
通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理,获得第一转化结果,具体为;
将所述第一坐标文字识别结果和所述第二输出结进行文字与段落格式等信息的融合,获得第一融合结果,基于所述融合结果获得所述第一转化结果;
所述获得第一坐标标识指令,根据所述第一坐标标识指令对所述第二图像进行坐标标识,获得第一坐标标识结果之前,还包括:
获得第一图像校正指令,根据所述第一图像校正指令对所述第二图像进行图像校正处理,获得第一校正结果;
根据所述第一校正结果确定第一X轴正方向,第一Y轴正方向;
获得所述第二图像在所述第一Y轴正方向的第一行文字,将所述第一行文字作为Y轴0点;
获得所述第二图像在所述第一X轴正方向的第一列文字,将所述第一列文字作为X轴0点;
获得第一坐标系构建指令,通过所述第一坐标系构建指令基于所述Y轴0点、所述X轴0点构建直角坐标系。
2.如权利要求1所述的方法,其中,所述方法还包括:
获得第一空格特征,其中,所述第一空格特征为段首空格特征;
获得第二空格特征,其中,所述第二空格特征为普通空格特征;
获得第一字号特征,其中,所述第一字号特征为文字字号特征;
获得第一字体特征,其中,所述第一字体特征为文字字体特征;
获得第一特殊标识特征,其中,所述第一特殊标识特征包括图片特征和公式特征;
基于所述第一空格特征、所述第二空格特征、所述第一字号特征、所述第一字体特征、所述第一特殊标识特征构建所述第一特征库。
3.如权利要求2所述的方法,其中,所述方法还包括:
获得第一坐标间隔比例阈值;
获得第一坐标分析指令,根据所述第一坐标分析指令对所述第一坐标标识结果进行坐标分析,获得第一坐标分析结果;
根据所述第一坐标分析结果获得所述第二图像中的文字坐标间隔的分布比例;
判断所述文字坐标间隔的分布比例是否满足所述第一坐标间隔比例阈值;
当所述文字坐标的分布间隔存在不满足所述第一坐标间隔比例阈值的坐标间隔时,将坐标进行所述第一特殊标识特征标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏联著实业股份有限公司,未经江苏联著实业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110616887.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:杂多酸混合物及其应用
- 下一篇:一种应用于双向AC-DC变换器的电流采样电路