[发明专利]利用对抗双向交互网络解决视频时间文本定位任务的方法有效

申请号：	201910093894.6	申请日：	2019-01-30
公开（公告）号：	CN109815927B	公开（公告）日：	2021-04-23
发明（设计）人：	赵洲;成瑀	申请（专利权）人：	杭州一知智能科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	无锡市汇诚永信专利代理事务所(普通合伙) 32260	代理人：	王闯
地址：	311200 浙江省杭州市萧山***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	利用对抗双向交互网络解决视频时间文本定位任务方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.利用对抗双向交互网络解决视频时间文本定位任务的方法，用于解决视频时间文本定位任务，其中视频时间文本定位任务包括用户输入的文本描述，由帧图像组成的视频，其特征在于包括如下步骤：

1)设计一种双向交互网络，基于视频的每个帧图像和输入的文本描述，获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段；

2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段，设计一种辅助判别网络，验证步骤1)获取的与文本相关的视频目标片段的准确性，并利用对抗训练过程提高视频时间文本定位的效果；

3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络，进行训练，利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段，

其中所述步骤1)，具体为：

对于视频时间文本定位任务中视频的每个帧图像输入到提前训练好的3维卷积网络中，获取视频的帧级别表达v＝(v₁，v₂，...，v_n)，其中v_i代表视频中的第i个帧的帧级别表达，n代表视频中的帧个数；将视频中各个帧的帧级别表达v＝(v₁，v₂，...，v_n)依次输入到双向LSTM网络中，按照如下公式计算得到视频各个帧的语义表达

其中，与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算，与代表前向LSTM网络计算第i次循环的隐层输出与状态值，与代表后向LSTM网络计算第i次循环的隐层输出与状态值，代表视频中的第i个帧的语义表达，代表将与进行连接计算；

对于视频时间文本定位任务中的输入的文本描述，将文本描述中的各个单词利用单词映射的方式，获得文本中各个单词的映射向量s＝(s₁，s₂，...，s_m)，其中s_j代表文本中的第j个单词的映射向量，m代表文本中的单词个数；将文本中各个单词的映射向量s＝(s₁，s₂，...，s_m)依次输入到双向LSTM网络中，按照如下公式计算得到文本各个单词的语义表达

其中，与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算，与代表前向LSTM网络计算第j次循环的隐层输出与状态值，与代表后向LSTM网络计算第j次循环的隐层输出与状态值，代表文本中的第j个单词的语义表达，代表将与进行连接计算；

利用得到的视频各个帧的语义表达与文本各个单词的语义表达利用如下公式计算得到视频文本注意力矩阵M，M为n×m维矩阵，

其中，与代表可训练的权重向量，b_m代表可训练的偏置向量，代表可训练的权重向量w_m的转置，tanh()代表双曲正切函数，M_ij代表矩阵M第i行j列的元素；

利用得到的视频文本注意力矩阵M，按照如下公式计算得到视频到文本矩阵M^row与文本到视频矩阵M^col，其中M^row与M^col均为n×m维矩阵，

其中，代表矩阵M^row的第i行j列的元素，代表矩阵M^col的第i行j列的元素，exp()代表以自然底数e为底的指数运算函数；

利用得到的视频到文本矩阵M^row与文本到视频矩阵M^col，按照如下公式计算得到视频自注意力矩阵D，D为n×n维矩阵，

其中，代表矩阵M^col的转置矩阵；

利用得到的视频自注意力矩阵D与视频各个帧的语义表达按照如下公式计算得到视频利用文本指引的语义表达

其中，代表视频第i帧对应的文本指引的自注意力输出，代表将与进行连接计算；

利用得到的视频到文本矩阵M^row与文本到视频矩阵M^col，按照如下公式计算得到文本自注意力矩阵L，L为m×m维矩阵，

其中，代表矩阵M^col的转置矩阵；

利用得到的文本自注意力矩阵L与文本各个单词的语义表达按照如下公式计算得到文本利用视频指引的语义表达