[发明专利]基于感知上下文堆叠式注意力的视频描述生成算法在审
申请号: | 202111102530.3 | 申请日: | 2021-09-20 |
公开(公告)号: | CN113920458A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 张玥杰;郑逸;景和明 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/50;G06V10/42;G06V10/44;G06V10/82;G06F16/783;G06F40/211;G06F40/253;G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 感知 上下文 堆叠 注意力 视频 描述 生成 算法 | ||
1.一种基于感知上下文堆叠式注意力的视频描述生成方法,其特征在于,采用两种基于高层语义的视频描述,即感知上下文的堆叠式注意力网络和感知语法知识的树结构生成网络;在感知上下文的堆叠式注意力网络对生成过程中所产生的视觉上下文信息和语义上下文信息分别进行建模,并通过堆叠式架构设计引入对多模态特征的处理;同时,在训练阶段,引入强化学习和迭代式生成的训练方式,以进一步提高模型性能;
具体步骤为:
步骤1、视频特征提取:对视频进行编码,对每个视频分别对二维卷积特征和三维卷积特征进行编码;
步骤2、全局特征编码:利用步骤1所提取出的视频特征,首先需要对视频特征的全局信息进行建模;
步骤3、局部特征提取:在步骤2提取全局特征之后,进行局部信息的建模;
步骤4、上下文特征融合解码:为了显式收集和使用在生成过程中的历史信息,利用注意力机制从三种不同的上下文信息中进行信息融合,并解码生成视频描述。
2.根据权利要求1所述基于感知上下文堆叠式注意力的视频描述生成算法,其特征在于,步骤1所述视频编码的具体过程为:
针对每个视频,使用固定采样方式选择28帧作为关键帧表示;对于二维卷积特征,采用ImageNet数据集上预训练的InceptionResNet2网络,在每个关键帧上提取1,536维特征;对于三维卷积特征,以关键帧作为中心帧取前后相连时间段构成28个短片段,并利用Kinetics-400数据集上预训练的C3D网络,在每个片段上提取2,048维特征;最终,对视频中的每个关键帧,将其1,536维二维卷积特征和2,04维三维卷积特征直接拼接作为动作特征,表示为{Vm,1,Vm,2,...,Vm,n},其中n表示动作特征的数量;
此外,对每个关键帧,为提取其物体特征,使用MSCOCO数据集上预训练的Faster R-CNN模型,在每个关键帧上提取5个物体作为局部细节特征;对于被选择的物体,利用ResNeXt-101模型提取其512维特征表示;物体特征表示为{Vo,1,Vo,2,...,Vo,k},其中k表示物体特征的数量。
3.根据权利要求2所述基于感知上下文堆叠式注意力的视频描述生成算法,其特征在于,步骤2所述全局特征编码的具体处理过程为:
采用上一时间段堆叠网络的最终输出、动作特征和物体特征的平均值、以及上一步的预测输出作为下一时刻堆叠式网络第一层的输入,并将输出进行LayerNorm标准化,具体算式如下:
其中,表示上一个时间段堆叠网络的最终输出;和分别表示动作特征和物体特征的平均值;[;]表示对特征的连接操作;表示堆叠式网络第一层的输出;We表示词向量的矩阵;wt-1表示前一个单词的独热码;GRU1表示门控循环单元模型;表示当前步骤输入特征集合;LayerNorm1为标准化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111102530.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管道提升控制装置
- 下一篇:一种生产挂面的智能浆化机