[发明专利]一种基于卷积神经网络的复杂档案图像倾斜矫正方法有效
申请号: | 201910449636.7 | 申请日: | 2019-05-28 |
公开(公告)号: | CN110211048B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 徐文渊;魏馨霆;桂宁;康宇哲 | 申请(专利权)人: | 国家电网有限公司;湖北华中电力科技开发有限责任公司;桂宁;康宇哲 |
主分类号: | G06T3/60 | 分类号: | G06T3/60 |
代理公司: | 武汉楚天专利事务所 42113 | 代理人: | 孔敏 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 复杂 档案 图像 倾斜 矫正 方法 | ||
本发明提供一种基于卷积神经网络的复杂档案图像倾斜矫正方法,首先选取大量档案样本进行训练,构建文本行定位模型,通过该模型对复杂文档的文本行进行分割,再通过计算文本行的倾斜角度,根据倾斜角度对文档主体进行整体倾斜校正,本发明使用对象定位得到的文本行代替档案图像整体进行倾角检测有效降低了复杂版面因素对倾角计算精度的影响,提高了倾斜校正系统的开发效率、倾斜校正准确率和算法的普适性。
技术领域
本发明涉及纸质档案数字化技术领域,具体是一种基于卷积神经网络的复杂档案图像倾斜矫正方法。
背景技术
纸质档案数字化相较传统档案管理方式具有不可替代的先进性,数字化的档案可有效节约档案管理费用、提高办公效率、增强档案原件的可保护性。纸质档案的倾斜校正预处理工作,可有效提高光学字符识别的准确率,是档案数字化过程中的重要环节。
纸质档案在转换为数字图像的过程中,不可避免得会产生一定的倾斜角度,使得光学字符识别的准确率大幅下降,严重影响档案数字化的质量。将纸质文档通过图像采集设备进行光学扫描时通常会存在文档倾斜现象,对于档案图像的整体倾斜纠正通常存在以下技术难点:
1、纸质档案一般年份比较久远,有一部分字迹模糊不清或者纸张轻微破损,影响了特征提取的精度;
2、纸质档案种类繁多,包括表格、插图、盖章、手写签字、页眉、页码等,影响了版面分析,使得对文字区、图形区和图像区的分割产生误差;
3、版面复杂很难使用一般方法进行倾斜校正,影响了开发效率;
4、纸质图像质量不佳在进行预处理过程中容易使部分文字残缺,影响了倾斜校正的精度。
在国家档案局发布的《纸质档案数字化规范》中对图像处理的过程及要求有明确规定:旋转及纠偏,对不符合阅读方向的数字图像应进行旋转还原,对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。由此可知档案数字化过程中的倾斜校正问题已引起了国家政府部门的重视,开发出一种复杂档案图像倾斜校正方法具有较好的市场和应用前景。
目前存在的倾斜校正方法主要有:基于Hough变换的方法、基于投影的方法以及K-近邻聚类法。基于Hough变换的方法将直角坐标系的目标点映射到参数坐标系,图像空间中同一条直线上的点变换到参数空间下对应的正弦曲线将相交于一点,即可确定文本图像中的直线。Hough变换具有良好的抗噪特性且可以容忍直线的不连续性,但是算法实现复杂开销较大,结果不精确;基于投影的方法是最常用的倾斜校正的方法,它是对文本在不同的角度下进行投影,得到若干投影图,根据投影图的某些统计特性计算倾斜角度,但是其需要对整张图像进行投影且投影方向多,需要大量的计算,且随着图像尺寸以及版面复杂度的增加,出错几率大大增加;K-近邻聚类法通过找出所有连通区中心的K个最临近点,计算每对近邻的矢量方向并统计生成直方图,直方图的峰值即为图像的倾角。由于档案图像中连通域较多,所以此方法比较耗时且精度不佳。鉴于以上方法存在的缺陷,目前档案图像的倾斜校正工作大多通过人工完成,由此带来了效率低下、人工成本高和无法标准化等诸多问题。
中国专利CN109583445A公开了一种文字文字图像校正处理方法、装置、设备及存储介质,所述文字文字图像校正处理方法包括:获取包含文字和文字倾斜角度的样本图像;基于深度学习框架构建预设的卷积神经网络基础结构,并使用样本图像对卷积神经网络基础结构进行训练,得到用于检测图像中的文字倾斜角度的角度检测模型;获取包含目标文字的待检测图像;在角度检测模型中,对待检测图像中的目标文字进行倾斜角度的角度检测,得到目标文字的角度检测结果;根据角度检测结果,按照预设的校正方式,对待检测图像进行校正处理,得到校正后的目标图像。该方法通过神经网络训练得到角度检测模型,直接预测倾斜角度,该方法在文档中有图形时很难有较好的效果。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;湖北华中电力科技开发有限责任公司;桂宁;康宇哲,未经国家电网有限公司;湖北华中电力科技开发有限责任公司;桂宁;康宇哲许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910449636.7/2.html,转载请声明来源钻瓜专利网。