[发明专利]一种基于动态注意力机制的多事件视频描述方法有效
申请号: | 201911136308.8 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110929092B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 谢洪平;刘迪;诸雅琴;黄涛;陈勇;杜长青;吴威;王昊;林东阳;陈喆 | 申请(专利权)人: | 国网江苏省电力工程咨询有限公司;金卯新能源集团有限公司;东南大学;国网江苏省电力有限公司 |
主分类号: | G06F16/71 | 分类号: | G06F16/71;G06F16/78;G06F16/75;G06N3/0464 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 吴静安;乔炜 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 注意力 机制 多事 视频 描述 方法 | ||
1.一种基于动态注意力机制的多事件视频描述方法,其特征在于,包括以下步骤:
步骤一、采用卷积神经网络提取目标视频序列X的视觉特征V;
步骤二、将视频的视觉特征V输入到L层自注意力机制视频编码层,得到视频的编码Fi;
步骤三、利用事件预测层根据视频编码Fi产生对事件的预测φi,并选取预测置信度最高的层预测作为最终预测结果φk;
步骤四、基于事件预测层的预测结果生成事件j的掩膜采用掩模截取事件j的视觉特征序列:
其中⊙表示矩阵元素依次相乘;
采用平均池化得到事件j的视觉特征向量Cj:
其中n为特征序列的长度;
将事件的视觉特征向量和上下文向量H融合得到调整后的最终特征向量
假设事件j的描述Sj由Ts个单词组成,即则将编码器生成一个单词w视为一个时间周期,则Sj的生成需要Ts个时间周期,则
将事件的视觉特征和上下文特征ht-1映射到同一个特征空间:
Wv和Wc为视觉特征和上下文特征的映射矩阵,上下文特征ht-1为LSTM单元在上一个时刻的隐藏状态;ht的更新由当前输入单词的特征向量Et,输入视觉特征向量前一个时刻的隐藏状态ht-1共同决定:其中Et=E[wt-1],特别地,E0=E[<BOS>];
计算上下文特征的门限值Et为解码器在t时刻的输入词wt-1的嵌入向量;
采用门限机制将视觉特征和上下文特征融合:事件j的最终特征表示
将事件j的最终特征表示输入LSTM解码器解码,得到事件j的描述Sj。
2.根据权利要求1所述基于动态注意力机制的多事件视频描述方法,其特征在于:所述步骤二中视频的编码步骤为:
将视觉特征V作为第一个编码器层的输入,该层输出为F1=E(V),其余层编码器将前面一层的输出作为输入,编码输出为Fl+1=E(Fl)。
3.根据权利要求2所述基于动态注意力机制的多事件视频描述方法,其特征在于:每个编码器层均包括一个多头注意力层和一个点式前馈层;
所述多头注意力层计算公式为:
点式前馈层计算公式为:
E(Fl)=LN(FF(Ω(Fl)),Ω(Fl))
其中,LN(p,q)=LayerNorm(p+q),表示在残留输出上进行归一化操作,FF(·)表示第一层具有非线性ReLU激活函数的两层前馈神经网络,是该网络的权值矩阵,为偏置因子,Ω(·)的定义使用了自注意力机制,在第t步的编码过程中,ftl被作为注意力层的查询,得到的输出是fil的加权和,其中i=1,2,...,T。
4.根据权利要求1所述基于动态注意力机制的多事件视频描述方法,其特征在于:所述步骤三中事件预测层根据视频编码Fi产生对事件的预测的具体方法如下:
步骤3.1、将视频编码Fi输入到事件预测层的基础层;
步骤3.2、将基础层的输出特征输入到事件预测层的锚层,逐步减少特征的时间维度;
步骤3.3、将每个锚层的输出输入到预测层,并一次性生成一组固定的事件预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力工程咨询有限公司;金卯新能源集团有限公司;东南大学;国网江苏省电力有限公司,未经国网江苏省电力工程咨询有限公司;金卯新能源集团有限公司;东南大学;国网江苏省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911136308.8/1.html,转载请声明来源钻瓜专利网。