[发明专利]一种面向任意角度的场景文本检测方法有效

专利信息
申请号: 202010339741.8 申请日: 2020-04-26
公开(公告)号: CN111553347B 公开(公告)日: 2023-04-18
发明(设计)人: 杨海东;巴姗姗;黄坤山;彭文瑜;林玉山 申请(专利权)人: 佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司
主分类号: G06V30/146 分类号: G06V30/146;G06V30/19;G06V10/82;G06N3/0464
代理公司: 广州科沃园专利代理有限公司 44416 代理人: 徐莉
地址: 528200 广东省佛山*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 任意 角度 场景 文本 检测 方法
【权利要求书】:

1.一种面向任意角度的场景文本检测方法,其特征在于,包括以下步骤:

S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;

S2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;

S3:重新选取训练图片,反复执行步骤S2以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;

所述步骤S3还包括:

将文本区域的真实边界表示为具有5个元组(x,,,h,)的旋转边界框,每一个判定为文本区域的旋转边界框,输出7维预测向量,坐标(,y)表示边界框的几何中心,高度h为边界框的短边,宽度w为边界框的长边,方向θ为从x轴的正方向到与旋转的边界框的长边平行的方向的角度,由于场景文本检测读取方向及其相反方向不会影响检测到的区域,因此方向参数θ只覆盖一半的角度空间;

对旋转区域提议网络输入一张图像,会输出大量的旋转默认框,而旋转默认框中包含着大量的不平衡的正负样本,正负样本区域提取的划定准则为:

(1)将交并比IOU定义为真实边框和旋转默认框的重叠度;

(2)正样本情形:与真实边框的IOU0.7,或与真实边框的0.3<IOU<0.7且角度夹角小于π/12;

(3)负样本情形:与真实边框的IOU<0.3,或与真实边框的IOU>0.7但与真实边框的角度夹角大于π/12;

(4)没有被归为上述两种情况的样本在训练过程中不被使用;

如果对所有的旋转默认框进行训练,则训练结果会偏向负样本,因为负样本多,因此训练时从默认框中随机采样出256个旋转默认框,正负样本比例保持在1∶1,使训练更加稳定;如果一张图像中正样本不满128个的话,用负样本来做填充,将这256个旋转默认框作为样本计算损失函数;

对样本损失函数采用多重任务损失形式,直到损失函数收敛时训练完成,使用的损失函数定义为如下形式:

L(p,l,v*,v)=Lcls(p,l)+λ*l*Lreg(v*,v)

其中l=1代表前景,l=0代表背景,p是分类的概率,v*代表真实边框回归的目标元组,v代表文本标签的预测元组,两项之间的权衡由平衡参数λ控制,对于分类损失定义为:

Lcls(p,l)=-log(pl)

对于边界框的回归,背景区域被忽略,我们对文本区域采用smooth-L1损失,损失函数定义为:

S4:将旋转区域提议网络输出的文本区域映射到卷积神经网络模型的最后一层特征图上,通过旋转池化操作得到固定大小的特征图;

S5:通过由两个全连接层组成的分类器,实现边框分类和边框回归;

S6:将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。

2.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:

首先对训练图片进行缩放处理,然后经过卷积层和池化层进行特征提取,其中所有卷积层的卷积核大小都是3x3,步长是1,填充是1,这种设置使卷积后不改变特征图的大小;所有的池化层的池化核大小为2x2,步长为2,每经过一次池化,输出特征图的长宽都会变为原来的1/2,卷积神经网络最后一层输出的特征图的长宽均为原图的1/16。

3.根据权利要求2所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:

将卷积神经网络的最后一层特征输入所述旋转区域提议网络,首先对输入特征使用一个n x n的窗口使每个滑动窗口都映射到一个低维特征,然后将低维特征输入到两个平行的卷积层中,一个是分类层,一个是回归层。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司,未经佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010339741.8/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top