[发明专利]一种基于卷积神经网络的复杂档案图像倾斜矫正方法有效
申请号: | 201910449636.7 | 申请日: | 2019-05-28 |
公开(公告)号: | CN110211048B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 徐文渊;魏馨霆;桂宁;康宇哲 | 申请(专利权)人: | 国家电网有限公司;湖北华中电力科技开发有限责任公司;桂宁;康宇哲 |
主分类号: | G06T3/60 | 分类号: | G06T3/60 |
代理公司: | 武汉楚天专利事务所 42113 | 代理人: | 孔敏 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 复杂 档案 图像 倾斜 矫正 方法 | ||
1.一种基于卷积神经网络的复杂档案图像倾斜矫正方法,其特征在于包括如下步骤:
步骤一、筛选一定数量的具有代表性的档案样本,包括含有表格、盖章、页眉页脚、插图的图像样本和普通档案样本制作成数据集;
步骤二、设计卷积神经网络模型,使用所述数据集对设计好的卷积神经网络模型进行迭代训练得到模型权重,对训练得到的模型权重进行精确度和可靠性评估得到最优化模型权重;
步骤三、加载所述最优化模型权重对测试文档图像进行预测,获得多个文本行对象区域以及对应的置信度;
步骤四、对步骤三得到的文本行对象进行筛选,得到整篇文档图像中最长、最突出的文本行,对该文本行对象区域内的子图像进行单独阈值分割并生成各子图像的拟合点,删除误差大的拟合点,对筛选过后的拟合点进行直线拟合,所得直线的倾角即为整体档案图像的倾斜角度;
步骤五、使用步骤四所得倾斜角度对档案图像进行整体倾斜校正即得到处理后的图像;
所述步骤四的具体步骤包括:
(1)文本行提取
在一张文本图片中检测到m条文本行,Ai(i=1,2Ln)代表第i条文本行的识别置信度,选择第x条文本行作为最终的倾角检测对象,x满足如下条件:在所有的Ai(i=1,2Ln))中Ax最大;
(2)倾角检测
先分析文本行对象生成拟合点,再采用最小二乘法进行直线拟合,得到倾斜角度,具体如下:
1)生成拟合点
对于待检测的文本行对象,从上到下提取该对象的上边界:即从左到右对该对象的每一列进行遍历,将遇到的第一个深色像素的位置(x,y)记录到容器V中,如果该列没有深色像素且容器V不为空,则从容器V中选取最靠上的一个点,记录到容器Vmax中,并将容器V清空,然后退出该列的遍历,开始下一列的遍历直到全部列遍历完毕;
对记录在容器Vmax中的点进行筛选并删除误差较大的点:使用二维容器V2D作为投票中使用的数据结构,对于每个点v,v∈Vmax,遍历V2D计算每个一维容器VF中所有点y坐标的平均值如果则将点v记录到此一维容器中,反之如果对于任意一个则认为点v属于一行新的文字,此时需要新建一维容器记录点v,并将此条记录插入到V2D中,
最后选取V2D中记录点最多的一个一维容器VF作为最终待拟合点的集合,认为此集合中的点是文本行对象中主要行所拥有的点,最后选取V2D中记录点最多的一个一维容器VF作为最终待拟合点的集合,认为此集合中的点是文本行对象中主要行所拥有的点;
2)直线拟合
获得一维容器VF有N组数据(xi,yi)(i=1,2Ln),设直线方程为:
y=a+bx (3)
用最小二乘法估计参数时,要求使最小,令:
则Q最小的条件为:
解上述方程组得直线参数a和b的最佳估计值:
得到直线斜率的估计值通过公式得到文本行对象的倾斜角度θ。
2.如权利要求1所述的基于卷积神经网络的复杂档案图像倾斜矫正方法,其特征在于:所述卷积神经网络模型用于提取文档图像中的文本对象特征,包括但不限于Faster R-CNN网络模型。
3.如权利要求1所述的基于卷积神经网络的复杂档案图像倾斜矫正方法,其特征在于:所述步骤四中文本行对象进行筛选,得到整篇文档图像中最长、最突出的文本行具体为:首先筛选出置信度最大的文本行对象,如果置信度相同则选取相同置信度中最长的文本行对象。
4.如权利要求1所述的基于卷积神经网络的复杂档案图像倾斜矫正方法,其特征在于:所述步骤四中采用多数投票的方法删除误差较大的点位。
5.如权利要求1所述的基于卷积神经网络的复杂档案图像倾斜矫正方法,其特征在于:所述步骤五具体为:
假设图片大小为(width,height),旋转角度值为θ,取图片的中心(width/2,height/2)为旋转中心,首先需要将旋转中心移动到原点处,再执行绕原点的旋转,最后将旋转中心移动到原始位置,
设平移矩阵为T(x,y),旋转矩阵为R(x,y),v′为旋转后坐标:
则v′=T(x,y)×R(x,y)×T(-x,-y)×v
由假设可得:
则绕(width/2,height/2)旋转的旋转矩阵:
将此矩阵与图像矩阵相乘,可得旋转θ之后的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;湖北华中电力科技开发有限责任公司;桂宁;康宇哲,未经国家电网有限公司;湖北华中电力科技开发有限责任公司;桂宁;康宇哲许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910449636.7/1.html,转载请声明来源钻瓜专利网。