[发明专利]基于在线增强检测的视频文字目标追踪方法与电子设备有效
申请号: | 202010643270.X | 申请日: | 2020-07-07 |
公开(公告)号: | CN111931571B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 周瑜;张嘉剑;朱盈盈;卞飞飞;白翔;杨志博;王永攀 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V30/148;G06V10/774;G06V10/82;G06K9/62;G06F40/30;G06N3/04 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 在线 增强 检测 视频 文字 目标 追踪 方法 电子设备 | ||
1.一种基于在线增强检测的视频文字目标追踪方法,其特征在于,包括如下步骤:
(1)在训练数据集上,根据视频序列中文字目标的位置、目标身份ID,离线训练文字目标检测与特征提取网络以及基于孪生网络的跟踪器,包含以下子步骤:
(1.1)通过视频帧和其对应的文字目标包围盒标注信息,离线训练一个基于分割的文字检测网络;
(1.2)在(1.1)训练的检测网络基础上,通过迁移学习的方式利用视频文字训练集训练文字目标特征提取分支;包括:
(1.2.1)对于输入的连续两帧图片It-1、It,根据两张图片的标注信息得到文字目标的包围盒集合以及每个文字包围盒对应的身份信息集合其中m为第t-1帧的文字目标总数,n为第t帧文字目标总数,表示图片It-1上第m个文字目标的包围盒,表示图片It上第n个文字目标的包围盒,表示文字目标的身份信息,表示文字目标的身份信息,提取两张图片中l个文字三元组集合T={T1,T2,…,Tl},其中表示一个三元组由t-1帧中的第o个目标和t帧中的第p、q个目标包围盒组成,这三个文字目标对应的身份关系为即每个文字三元组中,前两个文字目标是不同视频图片上属于同一身份的文字目标,第三个是与前两个文字不属于同一身份的文字目标;
(1.2.2)在(1.1)离线训练的基于分割的文字检测网络SegNet的基础特征提取网络后添加文字目标特征提取分支,提取文字目标的背景特征和语义特征,对于基础特征提取网络的输出特征f,添加额外的卷积层进行高级文字特征提取得到f′,根据文字三元组集合T={T1,T2,…,Tl}利用RoI Align操作从特征f′提取三元组特征集合F={F1,F2,…,Fl},其中三元组特征为t-1帧中的第o个目标的特征向量,为t帧中的第p、q个目标的特征向量,分别使用全连接神经网络和长短期记忆网络对三元组特征集合F={F1,F2,…,Fl}提取三元组背景特征集合Fb={Fb1,Fb2,…,Fbl}和三元组语义特征集合Fs={Fs1,Fs2,…,Fsl},其中背景特征语义特征与Fl代表的目标相对应,前两个为属于同一文字目标的特征向量,第三个为与前两个不属于同一文字目标的特征向量;
(1.2.3)将(1.2.2)提取的三元组背景特征集合Fb和三元组语义特征集合Fs合并,得到三元组特征向量集合Fu={Fu1,Fu2,…,Ful},其中表示综合了文字目标背景信息和语义信息的三元组特征向量,对每个三元组特征向量计算损失并求和,添加超参数Wscale、控制不同特性文字目标的损失大小,得到目标函数为:
其中表示三元组特征向量中属于同一身份的文字目标的特征向量的欧式距离;表示不属于同一身份的文字目标的特征向量间欧式距离;Wscale是衡量文字目标尺寸的权重,尺寸越小权重越大;是衡量文字目标间空间距离的权重,距离越远权重越大;优化目标是找到一组特征提取分支的参数使得loss最小;
(1.3)通过视频帧和其对应的文字目标包围盒坐标与身份信息,离线训练一个基于孪生网络的跟踪器;
(2)通过摄像机采集视频,并将视频逐帧输入视频文字目标追踪方法中,在线进行多文字目标的检测与匹配,包含以下子步骤:
(2.1)在线使用(1)训练好的文字检测与特征提取网络对当前帧进行文字目标的检测,并提取出每个文字目标区域所对应的特征向量;
(2.2)将当前帧检测到的文字目标与当前正在追踪的文字目标进行匹配,从文字目标的位置信息、形态特点以及特征向量三个方面判断不同帧中的文字目标是否属于同一身份;
(2.3)对于当前正在追踪的文字目标,如果在当前帧的检测结果中未成功匹配到文字,则利用(1.3)训练好的基于孪生网络的跟踪器在线预测其在当前帧中的位置,并结合文字检测的输出将置信度较高的预测结果作为当前帧检测结果的补充;
(2.4)将当前帧匹配到的文字目标作为当前正在追踪的文字目标,继续和下一帧的检测结果进行后续的匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010643270.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于水印分解模型的可见水印去除方法和电子设备
- 下一篇:一种混凝土试验仪