[发明专利]一种用于视频字幕的文本行检测方法在审
申请号: | 202010955699.2 | 申请日: | 2020-09-11 |
公开(公告)号: | CN112070040A | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 刘晋;瞿俊杰 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/08;G06N3/04 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 视频 字幕 文本 检测 方法 | ||
1.一种用于视频字幕的文本行检测方法,其特征在于包含以下步骤:
步骤1:制作文本图像数据集ReCTS,并将数据集分为训练集,验证集和测试集;所述ReCTS数据集是在标准数据ICDAR2019上使用角点坐标进行扩展得到的;
步骤2:构建深度学习网络,该网络包括用于增强浅层特征中目标语义信息敏感性的正负双向残差注意力模块,以及增加深层特征空间信息的多尺度超融合结构,网络搭建步骤如下:
步骤2.1:在普通图像特征前向传播的主干分支的基础上新增两个软掩膜分支:正向软掩膜分支与反向软掩膜分支;
步骤2.2:构建带有双向掩膜注意力机制模块:
Hi,c(x)=Fi,c(x)+PAi,c(x)*Fi,c(x)-NAi,c(x)*Fi,c(x)
=(1+PAi,c(x)-NAi,c(x))*Fi,c(x)
其中x表示上一层网络层的特征输入,Hi,c(x)表示注意力机制模块对应两个网络层之间的映射关系,Fi,c(x)表示主干分支的映射关系,PAi,c(x)与NAi,c(x)分别表示正负双向软掩膜分支,i的取值范围的是输入的特征的高与宽的乘积,代表在指定输入特征中的空间坐标值,c代表在输入特征中的通道位置;
步骤2.3:在双向掩膜注意力机制模块引入残差块,将每条通道卷积前的特征图与经过通道卷积后的特征图做残差处理,残差块定义如下:
yl=h(xl)+F(xl,Wl)
xl+1=f(yl)
其中xl和xl+1分别表示第l个残差单元的输入和输出,F代表残差函数,表示学习到的残差,h(xl)=xl表示恒等映射,f是ReLu激活函数;
步骤2.4:引入自适应多尺度特征表征结构,通过最大值池化,平均值池化,扩张卷积,步长为二的卷积操作组成,通过对输入特征使用四种方式进行下采样并在通道维度上进行级联拼接的得到缩放特征;
步骤2.5:引入超融合网络结构,将第三层卷积层得到的特征图与第四第五层输出得到的特征图连接在一起,对较小的特征图进行上采样,较大的特征图进行下采样,将特征图的尺寸化成统一大小后再进行连接;
步骤2.6:将自适应多尺度特征表征结构与超融合网络结构相结合构建多尺度超融合结构,将自适应多尺度表征模块对原图输入进行特征提取并将这些特征融合至主要路径中,再利用超融合网络结构将模型中不同层次的特征缩放至同一个尺度后进行融合,得到最终需要的图像特征用于之后的区域生成网络的运行;
步骤2.7:把经过负双向残差注意力模块得到的特征图再分别经过尺寸为3×3以及1×1卷积网络进行卷积,并通过多尺度超融合结构进行特征融合拼接,再经过区域生成网络生成一定数量的矩形特征候选框区域,随后所有特征经过区域生成网络生成一定数量的矩形特征候选框,并由感兴趣区域池化层对目标候选框中的特征进行提取,最后通过全连接层一方面采用分类器对目标判定是否属于特定的类别,另一方面采用回归的方式进一步调整候选框的坐标点的位置,从而完成目标检测的总任务;
步骤3:构建区域生成网络的整体损失函数:
其中Pi表示分类任务中神经网络判定的类别,Pi*表示分类任务中实际的目标类别,同样ti表示回归任务中神经网络输出的目标候选框的坐标信息,ti*表示回归任务中实际的目标区域的坐标信息;
步骤4:将经过预处理的图像-标签数据流以较小的批尺寸送入ResNet进行预训练,之后把特征送入构建好的网络进行训练,利用定义好的损失函数和优化器反向传播网络梯度,使用交叉验证方法检验网络性能,最终使网络收敛至最佳状态,并保存训练好的模型用于直接使用;
步骤5:根据模型预测的结果t={tx,ty,tw,th}可以使用公式计算出四个点的坐标:
p1=(tx,ty),p2=(tx+tw,ty),p3=(tx+tw,ty+th),p4=(tx,ty+th),并标注出识别出的目标类别;
其中t={tx,ty,tw,th}是一个向量,表示锚点在区域建议网络训练阶段的预测的偏移量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010955699.2/1.html,转载请声明来源钻瓜专利网。