[发明专利]基于感知上下文堆叠式注意力的视频描述生成算法在审
申请号: | 202111102530.3 | 申请日: | 2021-09-20 |
公开(公告)号: | CN113920458A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 张玥杰;郑逸;景和明 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/50;G06V10/42;G06V10/44;G06V10/82;G06F16/783;G06F40/211;G06F40/253;G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 感知 上下文 堆叠 注意力 视频 描述 生成 算法 | ||
本发明属于计算机视觉技术领域,具体为一种基于感知上下文堆叠式注意力的视频描述生成方法。本发明利用高层语义知识对视频描述生成的帮助,讨论如何在生成过程当中利用高层语义信息提升模型性能,并提出感知上下文的堆叠式注意力网络,利用隐式方式对文本语义知识建模,利用注意力计算过程让模型通过训练学习到语句单词之间的语义关系。本发明通过定性和定量实验,展现出模型可以生成更加准确、语义更加丰富的描述的能力。
技术领域
本发明属于计算机视觉技术领域,具体涉及基于感知上下文堆叠式注意力的视频描述生成算法。
背景技术
随着科技的发展,拍摄视频的难度在不断降低,因此随着视频数量的增加通过技术对视频内容进行理解变得越来越重要。视频描述生成,旨在通过一句话的形式对视频内容进行概括性描述。视频描述生成是一个结合计算机视觉和自然语言处理的跨模态任务,要求计算机不仅能够理解视频中物体和其他物体交互的行为,还需要使用符合自然语言语法的形式对其进行描述。在目前的主流研究中,一般使用编码器-解码器结构,利用编码器得到视频的特征表示,利用解码器生成语句。同时,受到在自然语言处理任务中显式引入语义知识对模型性能提高的启发,本发明提出两种基于高层语义的视频描述方法,即感知上下文的堆叠式注意力网络和感知语法知识的树结构生成网络。
发明内容
本发明为解决现有视频描述生成算法的开始阶段所生成的内容遗忘、对历史信息遗忘的问题,提出一种基于感知上下文堆叠式注意力的视频描述算法。
本发明利用高层语义知识对视频描述生成的帮助,讨论如何在生成过程当中利用高层语义信息提升模型性能,并提出感知上下文的堆叠式注意力网络,利用隐式方式对文本语义知识建模,利用注意力计算过程让模型通过训练学习到语句单词之间的语义关系。
本发明提供基于感知上下文堆叠式注意力的视频描述算法,使用两种基于高层语义的视频描述,即感知上下文的堆叠式注意力网络和感知语法知识的树结构生成网络。
为解决模型在生成过程中对历史信息的遗忘问题,感知上下文的堆叠式注意力网络对生成过程中所产生的视觉上下文信息和语义上下文信息分别进行建模,并通过堆叠式架构设计引入对多模态特征的处理。同时,为避免模型复杂化设计所导致模型收敛过程中的梯度消失问题、以及生成模型的暴露偏差问题,在训练阶段,模型额外引入强化学习和迭代式生成的训练方式,进一步提高模型性能。
在实验过程中,分别对两个模型在视频描述生成任务中两个常用数据集上进行定性和定量实验,通过比较模型和近年来在视频描述生成任务中经典模型的指标对比、以及模型的生成结果可视化证明模型对高层语义的使用对模型性能带来的提高,同时实验部分包含相应的消融实验,用于分别展示模型中不同组件对模型性能带来的影响。通过定性和定量实验,展现出模型可以生成更加准确、语义更加丰富的描述的能力。
本发明提供基于感知上下文堆叠式注意力的视频描述算法,包含视频特征提取阶段、全局特征编码阶段、局部特征提取阶段和上下文特征融合解码阶段四个步骤,其中:
步骤1、视频特征提取阶段。在该阶段,对视频进行编码,对每个视频分别对二维卷积特征和三维卷积特征进行编码;
步骤2、全局特征编码阶段。利用步骤1所提取出的视频特征,首先需要对视频特征的全局信息进行建模;
步骤3、局部特征提取阶段。在步骤2提取全局特征之后,进行局部信息建模;
步骤4、上下文特征融合解码阶段。为显式收集和使用生成过程中的历史信息,利用注意力机制从三种不同的上下文信息中进行信息融合,并解码生成视频描述。
进一步,步骤1所述视频编码阶段,具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111102530.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管道提升控制装置
- 下一篇:一种生产挂面的智能浆化机