[发明专利]一种基于级联神经网络的文字检测方法、装置及存储介质有效
申请号: | 202011238231.8 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112348015B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 吴婷婷;汪泰伸;陈德意;吴志鹏;刘彩玲;高志鹏;赵建强 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/22;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 361000 福建省厦门市思明*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 级联 神经网络 文字 检测 方法 装置 存储 介质 | ||
1.一种基于级联神经网络的文字检测方法,其特征在于,包括以下步骤:
S1:收集样本,并根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签对所述样本进行处理生成数据集;
S2:搭建第一全卷积网络,通过所述数据集对所述第一全卷积网络进行训练至网络收敛,并通过训练后的所述第一全卷积网络对所述数据集所述进行推理,获得回归结果;
S3:搭建第二全卷积网络,通过所述回归结果对所述第二全卷积网络进行训练至网络收敛;以及
S4:将待验证图片输入所述第一全卷积网络,若所述第一全卷积网络判断在滑窗范围内存在文字,则裁剪下所述滑窗范围内的区域做双线性插值尺度变换并输入所述第二全卷积网络,通过所述第二全卷积网络判断所述区域是否为文字区域。
2.根据权利要求1所述的基于级联神经网络的文字检测方法,其特征在于,所述数据集包括训练集和验证集,所述交并比IoU的计算公式如下:
其中,Ai表示文字区域,Bj表示裁剪区域。
3.根据权利要求2所述的基于级联神经网络的文字检测方法,其特征在于,生成所述训练集和所述验证集具体包括:
S11:从所述样本的图像中随机裁剪一个方形区域B1,遍历计算所述方形区域B1与所述图像上所有文字区域Ai的IoU,若满足IoU<a,则保存所述方形区域B1,否则丢弃;
S12:遍历所述图像中的文字区域Ai,裁剪一个与所述文字区域Ai必然存在交集的所述方形区域B2,若所述文字区域Ai与所述方形区域B2满足IoU<a,则保存所述方形区域B2,否则丢弃;
S13:将所述步骤S11和S12中获取的所述方形区域做双线性插值尺度变换至p*p大小,并设定类别标签为0;
S14:遍历所述图像中的文字区域Ai,以所述文字区域Ai的重心左右偏移k1*w,上下偏移量k2*h获取中心区域C,其中,k1和k2分别为重心左右偏移和上下偏移的倍数,w和h分别为所述文字区域Ai的宽与高,裁剪一个重心落在所述中心区域C中的矩形区域B3,所述矩形区域B3的宽w1和高h1满足:
0.8*min(h,w)w1=h11.2*max(h,w);
若所述矩形区域B3与所述文字区域Ai满足IoU≥c,设定其类别标签为1,所述满足b≤IoUc,设定其类别标签为-1,将所述矩形区域B3做双线性插值尺度变换至p*p大小,计算所述矩形区域B3与所述文字区域Ai的坐标偏移量作为回归标签;以及
S15:分别多次重复步骤S11-S14,得到按照1:2:3的比例混合类别标签分别为1,-1,0的所述数据集,将所述数据集按10:1的比例分为所述训练集和所述验证集。
4.根据权利要求3所述的基于级联神经网络的文字检测方法,其特征在于,所述第一全卷积网络和所述第二全卷积网络包括第一损失函数Ldet和第二损失函数Lbox,总损失函数为:
L=αLdet+βLbox;
其中,α、β为权重参数,取值范围在0-1之间。
5.根据权利要求4所述的基于级联神经网络的文字检测方法,其特征在于,所述第二全卷积网络的参数量为所述第一全卷积网络的至少两倍,所述第一全卷积网络和所述第二全卷积网络的所述权重参数分别进行调整设定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011238231.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种平地龙舟道具
- 下一篇:一种海上架桥机及其施工方法