[发明专利]基于自优化机制的全卷积视频描述生成方法有效

申请号：	201910047321.X	申请日：	2019-01-18
公开（公告）号：	CN111464881B	公开（公告）日：	2021-08-13
发明（设计）人：	张玥杰;房琨城;周练;张涛	申请（专利权）人：	复旦大学
主分类号：	H04N21/84	分类号：	H04N21/84;H04N21/44;G06N3/04
代理公司：	上海元好知识产权代理有限公司 31323	代理人：	王淼;张妍
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于优化机制卷积视频描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分，即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述，而未使用传统的循环神经网络，并根据堆叠结构的特性设计全新的注意力机制，计算当前词汇与视觉表示的相关度，同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比，本方法所关注的视觉信息更为精确，生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义，能够提高模型对视觉信息的理解能力，增强用户体验，在跨媒体信息理解领域具有广泛应用价值。

技术领域

本发明属于跨媒体生成学习技术领域，具体涉及基于自优化机制的全卷积视频描述生成方法。

技术背景

随着通信和存储技术的发展，网络中视频数据不断增多。视频因其相比于图像和文字包含更大的信息量并更利于理解，这使得视频在很多时候成为一种更好的信息载体。虽然理解视频对于人类十分容易，但对于计算机完成这项工作十分困难。视频描述生成(Video Captioning)是一项非常重要的视觉理解任务，即为所提供的视频生成自然语言描述来描述视频的主要信息，以便通过自然语言描述可以十分简洁地了解视频所包含的语义信息。视频描述生成任务实现从视觉信息到文本信息的映射，随着视频信息的不断增加，该任务具有非常广阔的应用场景，如安防领域的异常描述、短视频评论生成、直播弹幕生成、盲人辅助、跨媒体检索与问答等。相比于图像相关任务，视频描述生成任务具有更大的挑战性，因为视频所包含的信息大部分是重复的冗余信息，包含非常重要的时序信息，且总体上当前视频的质量比图像更低，这些都给视频理解任务带来不小的难度。为更好地理解视频信息，模型不仅需要准确识别出视频中的显著对象、对象的属性、以及对象之间的关系，还需考虑对象自身随时序的变化和不同时间、不同对象之间的关系等等，最后将这些识别出来的信息进行整合，生成一个有意义的自然语言描述句子。

用于生成视频描述的方法大致可以分成两类，即基于语言模板的描述生成和基于序列化学习的描述生成。基于语言模板的方法需要人为预先设定一些语言规则和模板，然后根据模型在视频中所学习到的对象在模板中进行填充，并得到最终的描述。但该方法由于大部分规则都是人为设定，导致最大的问题就是生成的句子不准确并句子形式比较固定，未能很好地发挥出深度学习的能力。当前大部分工作使用的都是基于序列化学习的描述生成。由于近年来深度学习技术的不断进步，卷积神经网络在视觉信息理解任务上和循环神经网络在序列化任务上都取得十分优异的效果，因此序列化学习的描述生成通常使用编码器-解码器的模型架构。在编码器部分，模型使用卷积神经网络来处理视觉信息并将最终的输出传递给解码器；在解码器部分，根据编码器传递来的视觉信息依靠循环神经网络长时记忆的特性，生成最终的视频描述。

当前的序列化学习模型都是基于上述结构，该结构中最重要的一个环节就是作为序列化处理和生成的循环神经网络。但由于这些结构对于循环神经网络的依赖，导致其都有着循环神经网络的缺点。随着循环神经网络应用的不断加深，也发现诸多循环神经网络在视频描述生成任务中的问题。循环神经网络对序列化任务有着很好的效果，但其计算单元十分复杂，由于时序展开导致梯度在循环神经网络中的传递路径很长，且由于循环网络的计算单元十分复杂并在每个时刻需要前一时刻的输出作为当前输入，导致循环神经网络在训练时无法并行。上述这些问题都使得对于循环神经网络的训练变得十分困难并需要大量时间，这使得研究人员寻找不使用循环网络的模型结构来解决序列化问题，并已取得较大突破。

为解决在视频描述生成的任务中所存在的上述缺陷，最终生成更加精确的语言描述，需要解决以下关键问题：

(1)抛弃循环神经网络后，应该怎样构建语义模型，使得新提出的架构能够在减小训练难度的同时保证充分考虑时序信息的作用，最终生成出更加优良的语言描述；

(2)在对传统的编码器-解码器的结构进行修改后，怎样设计出新的注意力权重计算机制来匹配新的模型结构，使得模型可以在每个时刻关注于当前和输入词汇最匹配的视觉信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910047321.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于自优化机制的全卷积视频描述生成方法有效

专利文献下载