[发明专利]基于图卷积网络的视频描述生成系统有效
申请号: | 202010233049.7 | 申请日: | 2020-03-29 |
公开(公告)号: | CN111488807B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 张玥杰;肖鑫龙 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06N3/0442;G06N3/0455;G06N3/047;G06N3/08;G06V10/82 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 网络 视频 描述 生成 系统 | ||
本发明属于跨媒体生成技术领域,具体为基于图卷积网络的视频描述生成系统。本发明的视频描述生成系统包括:视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络;视频特征提取网络对视频进行采样处理,获取视频特征,输出至图卷积网络;图卷积网络对视频特征根据语义关系进行重构,并输入至句子描述生成循环神经网络;句子描述生成网络根据视频重构的特征进行句子生成。本发明采用图卷积对视频中帧级序列和目标级序列特征进行重构,在生成描述语句时充分利用视频内的时序信息和语义信息,使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义,能够提高模型对视频视觉信息的理解能力,具有广泛应用价值。
技术领域
本发明属于跨媒体生成技术领域,具体涉及基于图卷积网络的视频描述生成系统。
背景技术
在各种多模态信息处理任务中,视频描述自动生成(Video Captioning)是一项非常重要的任务,其在视频分析领域是一项基础性的研究任务。其任务为给定一段视频,计算机自动分析视频的内容,生成描述视频主要内容的语句。该任务是在图像描述自动生成任务(Image Captioning)的基础上发展而来,但视频与图像存在显著性差异,视频可被看作为多幅图像的集合,并伴随着音频信息,其特征的多样性、内容场景的复杂性都远远超出图像,因此视频描述自动生成的技术难度及挑战性也远高于图像描述生成技术。该项任务设计到人工智能的两个研究领域,计算机视觉(Compute Vision,CV)和自然语言处理(Natural Language Processing,NLP),其在两个领域搭起桥梁将它们紧密联系起来。从计算机角度出发,其理解一段视频并不能和人类分析视频一样简单。目前,图像分析对于图像的表示一般采取将其处理成一维向量,依照这种方式视频便是一组序列向量的集合,如何改进图像描述生成技术,将其转换为视频描述生成技术,这都是早期的研究方向。此外,对于视频中的多种模态信息,如何将它们合理应用以加强语句描述生成的质量,这些都区别于图像描述生成技术。
描述生成技术(Captioning)一般采用编码-解码(Encoder-Decoder)框架,编码器常采用卷积神经网络CNN(Convolution Neural Network)提取视频帧特征,解码器采用循环神经网络RNN(Recurrent Neural Network)生成序列语句。CNN能将图像信息进行提炼,得到其高层次的语义表示,在图像分类,目标检测等领域具有很好的效果;RNN则由于其良好的序列生成能力而在自然语言处理领域中得到广泛应用,在描述生成方向也被广泛采用。CNN结合RNN,分别对应于计算机视觉与自然语言处理,是语句描述生成模型的基本骨架。
早期的研究工作通常借鉴图像描述生成技术,将图像的特征输入改为视频的特征输入,然后生成描述性语句。这类方法需要将序列特征转换为单一的、与图像表示一致的特征,较为简单的处理是采用池化层对序列进行均值处理,也有进行关键帧检测,只将关键帧输入至生成模型中。此类方法都在一定程度上造成信息损失,破坏视频的内容丰富度。之后,基于时序注意力机制的方法在每个时刻对帧序列特征进行采样加权,并赋予不同的权重,在生成文本描述时单词的关注信息不一样。这些方法都主要集中于视觉特征的处理上,即集中于编码阶段。随着自然语言处理的发展,生成模型也在不断进步,基于CNN、Transform的解码器也逐步应用于视频描述生成任务。
尽管现有的工作在视频自动描述任务上取得很大的进步,但对于视频本身的特性并未完全挖掘,视频的时序性、及不同帧内部的物体信息并未得到充分利用,对于生成模型,其输入一般为前一时刻的单词,对于之前时刻的其他单词信息也存在丢失现象。为解决上述问题,非常有必要引入当前相关领域的前沿工作,对于编码、解码两个过程进行重新的构建,更加全面地考虑视频内部的信息,生成更为精确的语义描述。本发明就是由此激发,设计包含四个部分的视频描述生成方法,采用图卷积对于视频内部信息进行重构,充分利用视频时序信息与目标物体信息,采用更为准确的预测模式,针对视频生成更好的描述性语句。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010233049.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于路侧单元和车载单元的通信方法
- 下一篇:一种电力物资储存管理设备