[发明专利]一种基于实例分割的手写文档文本行的提取方法有效
申请号: | 201910562052.0 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110348339B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 张九龙;张振雄;屈晓娥 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 杜娟 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实例 分割 手写 文档 文本 提取 方法 | ||
1.一种基于实例分割网络的手写文档文本行的提取方法,其特征在于,具体按照如下步骤进行:
步骤1:对手写文档数据集中的图片进行缩放操作,最终得到训练集;
对ICDAR2013HandSegmCont手写文档数据集中的图片进行缩放操作,其中图片的高和宽分别为h和w,若h≤max_size,w≤max_size,则不进行缩放操作,否则,则使用Image库中的最近邻插值法将该图片和标签均缩小为高和宽分别为h×scale和w×scale的图片,其中,其中max_size的值取600-1000,上面需要对h×scale和w×scale进行四舍五入,对训练集中的每张图片及其标签均进行上述操作,得到最终的训练集;
步骤2:对步骤1中得到的训练集中的数据集进行训练,以此更新得到实例分割网络的权重;
选取步骤1中任意一张手写文档图像,记作handwrit_img,其中,bandwidth取值为0.5-1.0,其中,标签图像与所述手写文档图像大小相同,记作label;将handwrit_img输入实例分割网络中,输出的结果为一张高和宽与手写文档图像相同且通道数为feature_dims的映射图图像,记作logits;其中,feature_dims为人为设定的需要值;
实例分割网络中按照实例分割网络中的损失函数对手写文档图像进行训练,所述损失函数公式如下:
L=α·Lvar+β·Ldist+γ·Lreg (4)
其中,||·||表示向量的2范数,[x]+=max(0,x);式(1)中,Lvar为偏差损失,C表示一张手写文档图像中的文本行数目,Nc表示属于第c个文本行的像素点的数目,C和Nc可从手写文档图像对应的标签图label中获取,向量xi表示某个文本行的第i个像素点在映射图logits中的对应向量,μc表示第c个文本行的所有像素点对应的映射向量的中心,δv为人为设定的类内距离;式(2)中,Ldist为距离损失,δd为人为设定的类间距离,其余字母的含义同式(1);式(3)中,Lreg为正则损失;式(4)中,L为总损失;α,β,γ分别为和Lvar,Ldist,Lreg对应的人为设定的权重;
使用Adam梯度下降方法来更新实例分割网络的权重,表示为Adam(w,L,lr),其中,lr表示梯度下降的学习率,然后循环执行上述步骤直到损失L足够小,所述训练完成;其中,lr采用poly学习率衰减策略,lr的计算公式如下:
lr=(init_lr-end_lr)×(1-step/decay_step)power+end_lr
式中,init_lr表示初始学习率,取值为10-4,end_lr表示终止学习率,取值为10-7,step为当前迭代次数,decay_step为衰减步数,取值为2500-3500,power取值0.7-1.0;
步骤3:将待处理的手写文档图像经步骤2得到的实例分割网络中,得到映射后的映射图;
对手写文档图像进行二值化处理,处理后的图像的字符间对应的像素点像素值为0,背景对应的像素点为255,对处理后的图像进行缩放操作,缩放前的图片记作test_img,缩放后的图片记作test_img2,然后将二值化处理后的图像输入训练完成的实例分割网络中,得到映射图logits;
步骤4:利用均值漂移算法对待处理的手写文档图像中的黑色像素点在映射图中对应的映射向量进行聚类操作,最终提取得到单个文本行;
具体为:记录handwrit_img中像素值为0的像素点的位置,利用sklearn库中的MeanShift聚类方法进行聚类,聚类后每个位置会对应一个标签值,标签值为从0开始的整数,创建一张与所述test_img2大小相同且初始像素值为255的图像result_img,根据对应的标签值对result_img中相同位置的像素点赋值,然后利用Image库中的最近邻插值法,对result_img进行缩放,缩放后的尺寸和test_img相同,对result_img中像素值做进一步调整,使得result_img中的像素值相同且不为255的点属于同一文本行,得到最终的文本行提取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910562052.0/1.html,转载请声明来源钻瓜专利网。