[发明专利]基于注意力扩展编解码网络的视频摘要方法在审
申请号: | 201910319879.9 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110110140A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 冀中;焦放;庞彦伟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/783;H04N21/8549 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频帧 视频帧特征 注意力 编解码 语义 语义信息 原始视频 视频 编码器 网络 滑动平均 解码网络 学习过程 训练网络 重要信息 鲁棒性 乘性 构建 时域 引入 保留 全局 学习 | ||
一种基于注意力扩展编解码网络的视频摘要方法:将视频摘要看作是序列到序列学习过程,并且利用视频帧间的时域相关性,将SumMe或TVSum中的原始视频通过预训练网络得到视频帧特征序列,将视频帧特征序列作为注意力扩展编解码网络中编码器网络的输入,得到视频帧的语义信息序列,再通过乘性注意力的解码网络,得到对应每一视频帧的得分;然后将所有视频帧的得分构成摘要序列,通过回顾性编码器得到摘要序列的语义信息序列,构建全局语义判别损失,引入滑动平均模型,学习摘要序列与视频帧特征序列的语义相关性,得到保留原始视频重要信息的新的摘要序列,最后通过新的摘要序列来挑选所设定最终的摘要。本发明增强了模型的鲁棒性。
技术领域
本发明涉及一种视频摘要。特别是涉及一种用于视频处理和索引的基于注意力扩展编解码网络的视频摘要方法。
背景技术
随着信息技术的快速发展,视频数据爆炸性增长,大量视频数据中存在冗余和重复的信息,这使得每位用户快速获取所需信息变得更加困难。在这种情况下,视频摘要技术应运而生,它的目标是生成一个紧凑而全面的摘要,在最短的时间内为用户提供目标视频的最大信息,来满足人们想要快捷、准确地浏览视频重要信息的需求,提高人们获取信息的能力。
视频摘要的研究,一般被分为两类:监督学习和无监督学习的方法。其中无监督摘要方法侧重于学习数据的内在结构,利用低级视觉特征,以定位视频的重要部分。研究的各种方法中,包括聚类,稀疏优化和能量最小化等。现阶段的主要研究大多基于人工标注的监督学习方法,通过最大化生成摘要与人工标注之间的相似程度,使生成的摘要具有原视频更多的信息,并且算法的性能普遍优于基于无监督学习的视频摘要技术。
目前视频摘要技术的研究,主要将视频摘要看作是序列到序列学习过程,采用长短期记忆网络(LSTM)及其变体来建模视频帧间的时域相关性。将原始视频帧序列作为输入,输出对应每一个视频帧的重要性得分,再将重要性得分排序,最后根据该得分来选择关键帧或关键镜头,得到最终的摘要。
但是目前监督式视频摘要方法要求生成的摘要与原始视频尽可能的接近,将生成的摘要与对应的ground-truth构造损失函数,再通过反向传播不断优化生成的摘要,使生成的摘要与对应的人工标签尽可能接近,最终使生成的摘要富含原始视频信息。这一约束只关注生成摘要和真实标注之间的局部对应关系,使得生成的摘要完全取决于真实标注。但是在公开的基准数据集中含有监督信息的数据较少,使得模型在训练的过程中很容易出现过拟合现象,很难得到一个较好的深度模型,影响最终生成摘要的性能。并且视频摘要的过程本质上为原始视频到摘要的映射过程,而映射过程中可能会丢失很多关键信息,因此如何充分利用原始视频的语义信息来减缓映射过程中信息丢失也是我们需要解决的问题,并且在使用随机梯度下降算法训练神经网络时,参数更新时要避免参数发生突变,防止参数波动对结果的影响。
以上方法仅关注生成摘要和真实标注之间的局部对应关系,而未综合考虑对生成摘要的全局约束,以及未能充分利用视频的语义信息。并且对于参数更新过程的异常值处理没有明确的提出解决方案,这一点也会影响最终摘要性能。
发明内容
本发明所要解决的技术问题是,提供一种基于注意力扩展编解码网络的视频摘要方法。
本发明所采用的技术方案是:一种基于注意力扩展编解码网络的视频摘要方法,包括:将视频摘要看作是序列到序列学习过程,并且利用视频帧间的时域相关性,将SumMe或TVSum中的原始视频通过预训练网络得到视频帧特征序列,将视频帧特征序列作为注意力扩展编解码网络中编码器网络的输入,得到视频帧的语义信息序列,再通过乘性注意力的解码网络,得到对应每一视频帧的得分;然后将所有视频帧的得分构成摘要序列,通过回顾性编码器得到摘要序列的语义信息序列,构建全局语义判别损失,引入滑动平均模型,学习摘要序列与视频帧特征序列的语义相关性,得到保留原始视频重要信息的新的摘要序列,最后通过新的摘要序列来挑选所设定最终的摘要。
所述的原始视频重要信息,是在SumMe或TVSum中所标注的重要性得分信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910319879.9/2.html,转载请声明来源钻瓜专利网。