[发明专利]基于空间时序特征的视频自然语言文本检索方法在审
申请号: | 202110968279.2 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113704546A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 王笛;田玉敏;罗雪梅;丁子芮;万波;王义峰;赵辉 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/783;G06F16/33;G06F40/30;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空间 时序 特征 视频 自然语言 文本 检索 方法 | ||
1.一种基于空间时序特征的视频文本检索方法,其特征在于,利用三种神经网络分别提取视频样本三层级的空间时序特征,构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络;该方法的具体步骤包括如下:
步骤1,生成样本集:
选取至少6000个待检索的多类别动态行为视频及与其对应的自然语言文本注释组成样本集,每个视频中含有人工标注的自然语言文本注释至少20条,自然语言文本字数不超过30字,生成至少120000对视频自然语言文本对;
步骤2,利用三种神经网络分别提取视频样本三层级的空间时序特征:
(2a)将样本集中的视频输入到训练好的深度残差神经网络ResNet-152中,提取每个视频中每帧图像的特征,将每个视频中所有帧的图像特征进行平均池化,将输出的视频2048维的帧级特征作为视频第一层级特征;
(2b)使用训练好的3D卷积神经网络I3D提取样本集每个视频沿时序的动态行为特征,将输出的视频1024维的时序特征作为视频第二层级特征;
(2c)每隔2秒从样本集的每个视频中抽取一帧图像,将该视频抽取的所有帧图像输入到训练好的Fast-RCNN网络中,输出该视频Fa*Mab*2048维的高维显著特征,其中,Fa表示第a个视频抽取的帧的总数,Mab表示第a个视频抽取的第b帧提取的显著区域的总数,每帧提取的显著区域的总数相同;
(2d)使用全局自适应池化方法AdaptiveAvgPool2d沿帧流动的方向处理每个视频的高维显著特征,将输出的视频降维后保留显著区域及其位置信息的t*2048维空间对象特征作为视频第三层级特征,t为设置的保留显著区域的总数,默认设置为6;
步骤3,构建语义角色树提取自然语言文本样本三层级的特征:
(3a)将样本集中的所有自然语言文本输入到双向长短期记忆网络Bi-LSTM中,每个单词输出为512维的单词嵌入特征,将自然语言文本所有单词的嵌入特征级联,得到Nc*512维自然语言文本上下文感知的嵌入特征,其中,Nc表示第c个自然语言文本中单词的总数;
(3b)利用注意力公式,计算每个自然语言文本的显著事件特征;
(3c)使用开源的语义角色解析工具,按自然语言文本单词的顺序,标注样本集中每个自然语言文本的所有单词的语义角色和语义关系;
(3d)将每个自然语言文本的语义角色为动词的单词和语义角色为名词的单词,分别输入到两个训练好的双向长短期记忆网络Bi-LSTM中,两个网络分别输出该自然语言文本Vs*300维的动词序列特征和Es*300维对象序列特征,其中,Vs表示第s个自然语言文本中语义角色为动词的单词的总数,Es表示第s个自然语言文本中语义角色为名词的单词的总数;
(3e)构建每个自然语言文本的语义角色树,其根节点表示自然语言文本的显著事件特征,与根节点相连的第二层动作节点表示自然语言文本的动词序列特征,与动作节点相连的树结构末端的实体结点表示自然语言文本的对象序列特征;
(3f)利用训练好的图卷积神经网络GCN,提取语义角色树根节点1024维的自然语言文本全局特征作为自然语言文本第一层级特征,提取语义角色树动作节点Vs*1024维的自然语言文本动作时序特征作为自然语言文本第二层级特征,提取语义角色树实体节点Es*1024维的自然语言文本实体特征作为自然语言文本第三层级特征;
步骤4,构建视频文本公共语义嵌入网络:
(4a)搭建一个由卷积层、池化层、第一全连接层和第二全连接层的视频文本公共语义嵌入网络;
(4b)将卷积层的卷积核大小设置为2×2,个数设置为2048,步长设置为1,池化层采用最大池化方式,池化层的卷积池化核大小设置的为2×2,步长设置为2;第一全连接层的输入节点个数和输出节点个数均设置为2048,第二全连接层的输入节点个数设置为2048、输出节点个数设置为1024,网络的初始学习率设置为e-4,网络的神经元丢弃率设置为0.2;
步骤5,训练视频文本公共语义嵌入网络:
(5a)分别将视频的三层级特征和自然语言文本的三层级特征,输入到视频文本公共语义嵌入网络中,输出每一层级视频和自然语言文本拟合底层流形结构的同维度、同分布的特征;
(5b)按照下式,计算每个视频与所有视频自然语言文本对中的每个自然语言文本的特征相似度:
其中,s(vj,tk)表示第j个视频vj与所有视频自然语言文本对中的第k个自然语言文本tk的特征相似度,l表示特征层级的总数,i表示特征层级的序号,wc表示训练网络得到的每个层级相似度的权重,cos表示求余弦值操作,表示第j个视频第l层级的特征,表示第k个自然语言文本第l层级的特征,l的取值范围为[1,3];
(5c)将所有的特征相似度组成视频自然语言文本样本对的相似度矩阵;
(5d)利用对比排序损失函数,计算相似度矩阵对角线的每个视频自然语言文本正样本对的对比排序损失函数值;
(5e)根据对比排序损失函数值,迭代更新视频文本公共语义嵌入网络,以等差的方式在合理范围内更新网络的学习率、神经元丢弃率、每个层级相似度的权重和对比排序损失函数的阈值,直到对比排序损失函数收敛至最小,得到训练好的视频文本公共语义嵌入网络;
步骤6,对视频和自然语言文本进行跨模态互检索:
(6a)采用与步骤2和步骤3相同的方法,分别提取待检索视频和自然语言文本的三层级特征;
(6b)采用与步骤4相同的方法,将待检索的视频和自然语言文本的三层级特征输入训练好的视频文本公共语义嵌入网络,计算待检索的视频和自然语言文本的相似度;
(6c)根据视频和自然语言文本的相似度,输出按相似度大小排序的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110968279.2/1.html,转载请声明来源钻瓜专利网。