[发明专利]一种基于动态注意力机制的多事件视频描述方法有效
申请号: | 201911136308.8 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110929092B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 谢洪平;刘迪;诸雅琴;黄涛;陈勇;杜长青;吴威;王昊;林东阳;陈喆 | 申请(专利权)人: | 国网江苏省电力工程咨询有限公司;金卯新能源集团有限公司;东南大学;国网江苏省电力有限公司 |
主分类号: | G06F16/71 | 分类号: | G06F16/71;G06F16/78;G06F16/75;G06N3/0464 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 吴静安;乔炜 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 注意力 机制 多事 视频 描述 方法 | ||
本发明公开了一种基于动态注意力机制的多事件视频描述方法,包括如下步骤:将视频序列输入三维卷积神经网络,提取视频的视觉特征;采用基于注意力机制的视频编码层对视觉特征进行编码,并将特征编码输入到事件预测层;事件预测层根据视频编码信息对各个事件进行预测;事件描述层根据事件预测结果获取各事件视觉特征,并动态结合自身的上下文信息产生各事件的文字描述。所述方法克服了现有多事件视频描述方法并行性差,效率低的缺点,同时保证了视频描述生成的准确性,并能够采用端到端的方式进行模型的训练。
技术领域
本发明涉及一种基于动态注意力机制的多事件视频描述方法,属于计算机视觉中的视频描述领域。
背景技术
视频标签(VideoTagging)是一种对视频内容进行分析,并形成分类标签的技术,视频标签能有效提取视频的关键信息,被广泛应用于视频存储和检索领域。但是视频标签不能表现出视频更加详细的信息。视频描述(VideoCaptioning)是通过计算机自动生成视频的自然语言描述的过程,通过视频描述不仅能提取到视频中的关键元素,还能通过句子描述体现出这些元素之间的关联,因此视频描述在视频存储检索、人机交互、知识抽取等领域具有重要的应用价值和发展前景。
与对图像描述(ImageCaptioning)不同的是,视频包含有大量的,不断变化的时空信息,如何高效获取有用的信息进行准确的视频描述是计算机视觉领域一个重大的挑战。S.Venugopalan等人提出的S2VT(Sequence to Sequence-Video to Text)算法是深度学习方法在视频描述领域的首次成功运用。该方法提取视频的2D卷积特征和光流特征,并输入两层栈式LSTM网络来产生视频的描述,奠定了采用编码器-解码器(Encoder-Decoder)架构进行视频描述算法的基础。目前视频描述领域已经有了不少研究成果,但大部分是在S2VT算法的基础上的改进,如采用3DCNN提取视频特征、采用多模态融合的特征、采用改进的GRU网络进行解码等。
一段长视频包含的事件可能有多个,传统的视频描述方法生成一句话来描述视频过于粗糙,只能描述到一部分信息,为了解决这以问题,密集视频描述(DenseVideoCaptioning)应运而生。密集视频描述是由Z.Shen等人在《Weakly SupervisedDense Video Captioning》这篇文章中提出的,对一段视频,先提取出不同的区域序列,然后对每个区域序列生成一句描述,这就是现在密集视频描述普遍采用的事件预测(EventProposal)-描述生成(CaptionGeneration)架构的雏形。相比于传统的视频描述算法,该算法提出的区域序列的描述更加精细化,更富有信息量,开辟了一个全新的研究方向。
近年来关于密集视频描述的研究主要是有效提取并表示视频中的信息以及提高事件预测的精度。针对第一个问题,注意力机制(如Describing Videos by ExploitingTemporal Structure)替代最初的平均池化方法来生成视频信息表示,较好地解决了视频时序信息在编码过程中丢失的问题。针对第二个问题,J.Wang等人(BidirectionalAttentive Fusion with Context Gating for Dense Video Captioning)指出大部分的方法在视频编码过程中只提取了视频序列后向的上下文信息,而忽略了前向的上下文信息,从而导致事件预测方法不能区分出高程度重叠的事件。因此,他们提出了一个双向视频编码方法,采用两层LSTM网络分别对视频的前向和后向上下文信息进行编码,并根据融合后的上下文信息进行事件预测,从而提高了事件预测的准确性。
但是现有的密集视频描述生成方法仍存在问题,大部分方法在进行视频解码时,只是简单将上下文特征和视觉特征连接得到解码器的输入,因此生成的描述并不准确。同时被广泛采用的LSTM视频编码器存在并行性差的问题。因此需要一种高效的密集视频描述生成方法,能够对视频中的事件进行快速精确定位和描述。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力工程咨询有限公司;金卯新能源集团有限公司;东南大学;国网江苏省电力有限公司,未经国网江苏省电力工程咨询有限公司;金卯新能源集团有限公司;东南大学;国网江苏省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911136308.8/2.html,转载请声明来源钻瓜专利网。