[发明专利]一种面向舰船名标识字符的视频自动标注方法及系统有效
申请号: | 202111353014.8 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114037909B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 吴蔚;林鹏博;张琮委;徐义飞;李新德 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06V20/13 | 分类号: | G06V20/13;G06V20/40;G06V10/22;G06V10/764;G06V10/82;G06N3/0464;G06N3/08;G06N3/047 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 于瀚文;胡建华 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 舰船 标识 字符 视频 自动 标注 方法 系统 | ||
1.一种面向舰船名标识字符的视频自动标注方法,其特征在于,包括如下步骤:
步骤1,输入长视频序列,确定长视频序列中的关键帧,根据关键帧将长视频序列截断成两个以上的短视频;
步骤2,将短视频输入视频段字符区域提取网络,得到各字符区域位置;
步骤3,将各字符区域输入字符识别网络,得到目标船名标识字符的识别结果;
步骤1包括:
步骤1-1,将长视频序列的每一帧依次输入到经过预训练的VGG16网络获得第T帧视频的特征图,将第T帧视频的特征图在一个维度上合并得到第T帧视频的特征向量F(T);
步骤1-2,计算相邻两帧视频的特征向量F(T)和F(T-1)的二范数,如果二范数大于阈值,则判定相邻两帧视频差异过大,判定第T帧视频为异常帧,否则为是正常帧;
步骤1-3,判断异常帧是否为关键帧:设定第T帧视频为异常帧,将第T帧视频与第T-1帧视频做差分处理,得到差分图像diff(T,T-1),同时计算第T-2帧视频与第T-1帧视频的差分图像diff(T-1,T-2);将差分图像diff(T,T-1)和diff(T-1,T-2)输入到经过预训练的VGG16网路中,分别获得差分图像diff(T,T-1)和diff(T-1,T-2)的特征向量F(diff(T,T-1))和F(diff(T-1,T-2));
步骤1-4,计算F(diff(T,T-1))和F(diff(T-1,T-2))的二范数,如果二范数大于阈值,则判定特征向量F(diff(T,T-1))和F(diff(T-1,T-2))差异过大,第T帧视频为关键帧,否则判定差异不大,第T帧视频被重新归类于正常帧;
步骤1-5,根据关键帧检测的结果,将长视频序列截断成两个以上的短视频,每个短视频的第一帧为长视频的关键帧,最后一帧为长视频下一次关键帧的前一帧或者长视频的最后一帧;
步骤2中,所述视频段字符区域提取网络包括U型卷积网络、双层ConvGRU网络和3D卷积网络;
所述U型卷积网络的输入是短视频的每一帧图像,输出是对应视频帧的特征图;
所述U型卷积网络前半段为下采样过程,用于提高特征维度,捕获高语义的特征信息;后半段为上采样过程,用于恢复特征图的分辨率;上采样过程与下采样过程中特征图分辨率大小相同的层进行级联;
在所述U型卷积网络与双层ConvGRU网络之间,加入有尺度修正模块,尺度修正模块将U型卷积网络下采样过程中输出的三个不同尺度的特征图输入到卷积层中进行revise修正为统一大小,之后进行concat连接,输出大小相同但通道数是原来三倍的特征块;
所述双层ConvGRU网络为循环神经网络,双层ConvGRU网络的输入有三个,分别为:由当前帧的尺度修正模块获得的特征块、由前一帧双层ConvGRU网络获得的cell state胞状态系数和hidden state隐藏层系数,输出为当前帧经由双层ConvGRU网络计算得到的cellstate系数和hidden state系数和双层ConvGRU网络捕获的短视频的特征在当前帧的输出;
所述3D卷积网络的输入是由双层ConvGRU网络输出的所有帧的特征在新的维度上concat连接得到的特征块,输出短视频中每一帧的候选区域的边界四点坐标值和候选区域是否是字符区域的置信度,输出格式为B×T×19×19×9,其中B指批处理大小,T指短视频长度,19×19指3D卷积网络内部将每一帧图像划分成横19纵19共381个区域;
所述视频段字符区域提取网络的输出需经过筛选才能确定为字符区域,筛选方法采用NMS非极大值抑制方法,即选择置信度最大的区域,然后计算其他候选区域与置信度最大的区域的IOU交并比值,删除IOU交并比值大于指定阈值的候选区域,保留其余符合条件的候选区域作为视频段字符区域提取网络的实际输出;
步骤2中,所述视频段字符区域提取网络的损失函数包括置信度损失和区域损失两部分;其中,所述置信度损失指是否由正确的帧内图像划分预测出字符区域造成的损失函数,所述区域损失指预测出的字符区域和实际的字符区域有差异而造成的损失函数,总的损失函数L用公式描述如下:
其中T、P、Q分别表示短视频的总帧数、每一帧图像纵向划分的网络数量和横向划分的网络数量;Ep,q和为判断字符区域中心是否在网络第(p,q)网格中的系数,如果在网络中Ep,q=1和否则Ep,q=0和Cp,q表示网络输出的第(p,q)网格中是否含有目标的信度值,predr和labelr指每一帧短视频内预测的字符区域的边界四点的坐标值和标注的边界四点的坐标值,格式为(x1,y1,x2,y2,x3,y3,x4,y4),其中x1,x2,x3,x4分别表示四点X轴坐标,y1,y2,y3,y4分别表示四点Y轴坐标;liou为IOU交并比损失函数;λe和λO为权重系数,默认是1;
步骤3中,所述的字符识别网络包含图像特征提取网络和字符序列映射网络;
所述图像特征提取网络的输入是步骤1和步骤2所提取的视频的一帧的字符区域,将字符区域划为两个以上小块,对每一个小块利用IncptionV4-B卷积结构进行船名标识字符的特征提取;
所述将字符区域划为两个以上小块,是指通过将卷积参数步长stride设置为与卷积核同样大小的方法,把字符区域分割成彼此不重叠的区域块,并使用位置编码记住各区域块在视频图像中的位置;
在所述字符序列映射网络中,将各小块经由IncptionV4-B提取到的特征向量经扁平化处理后作为输入,并通过全连接结构Dense进行尺度统一得到向量Zi(i=0,1,2…),维度为m;添加额外的CLS句向量用于最终的分类,CLS是一个可学习的变量;
在向量Zi中加入位置编码信息以刻画各字符区域分块的位置信息,获得综合特定位置信息的特征向量,作为Transformer-Encoder变换编码网络的输入;
对Transformer-Encode变换编码网络输出的上下文向量C0进行softmax归一化指数处理,进而获得字典中各字符的概率,字典是指网络训练和预测使用的字符的集合;
步骤3中,所述字符识别网络的训练效果在度量相似性时采用的是基于最短编辑距离1-NED量化识别结果与实际的差异程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111353014.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:离子作用多功能蒸发溅射源
- 下一篇:基于最佳跳频图的图分多址通信系统